비정형 데이터 속 '숨은 지식'까지 찾아내는 VLM 기술
[TRINITY 속 숨은 기술 VLM]
VLM이란? 단순히 글자를 읽는 수준을 넘어, 사람처럼 문서의 전체적인 생김새와 맥락을 보고 이해하는 똑똑한 AI 기술입니다.
OCR과의 차이점: 기존 OCR이 글자를 단순히 나열했다면, VLM은 복잡한 표의 칸이나 도면 속 기호가 무엇을 뜻하는지 정확히 찾아냅니다.
하는 일: 정리되지 않은 PDF, 매뉴얼, 휘갈겨 쓴 손글씨 등 어려운 문서에서 필요한 내용만 쏙쏙 뽑아 AI 에이전트의 지식으로 만듭니다.
활용 사례: 복잡한 법률 조항 찾기, 재무제표 분석, 기술 도면 해석 등 정확도가 중요한 업무에 바로 활용할 수 있습니다.
안녕하세요, AI 전문 기업 비아이매트릭스입니다.
기업의 데이터 중 80% 이상은 수천 페이지의 복잡한 표, PDF 매뉴얼, 규정집 등이 포함된 '비정형 문서'입니다. 진정한 Agentic AI라면 텍스트뿐만 아니라 이러한 시각적 정보까지 완벽히 이해해야 합니다.
오늘 소개할 내용은 비아이매트릭스의 Ontology 기반 AI Agent 개발 플랫폼, TRINITY에 적용된 VLM(Vision Language Model) 기술입니다. TRINITY는 VLM을 통해 어떻게 기업의 방대한 지식을 더 정교하게 추출하는지 알아보겠습니다.
👉TRINITY를 모르시는 분은 아래의 글을 먼저 읽고 오시는 것을 추천드립니다.
왜 TRINITY에 VLM(Vision Language Model)이 필요한가요?
VLM(Vision Language Model, 시각-언어 모델)이란 이름 그대로 시각적 정보와 언어적 정보를 동시에 이해하고 처리할 수 있는 차세대 AI 모델을 의미합니다. 기존의 AI가 텍스트나 이미지 중 한 가지 형식만 다룰 수 있었던 것과 달리, VLM은 이 두 가지 서로 다른 형태의 데이터를 결합하여 "이미지를 보고 텍스트로 설명" 하거나 "텍스트 명령에 맞는 이미지를 분석" 하는 능력을 갖추고 있습니다.
기업이 보유한 매뉴얼, 규정집, 보고서에는 단순 텍스트뿐 아니라 텍스트로 설명하기 어려운 복잡한 표, 그래프 그리고 스캔 문서 등 다양한 형식의 데이터가 가득합니다. 기존의 방식으로는 이러한 비정형 데이터에서 정보를 추출하는 데 한계가 있었습니다. 비아이매트릭스의 TRINITY는 VLM 기술을 데이터 INPUT 과정에 도입하여, 비정형 데이터의 맥락까지 파악하고 이를 Ontology 지식 체계로 편입시킵니다.
OCR의 한계를 극복하는 VLM: 맥락을 읽는 방식의 차이
텍스트 인식 기술하면 기존의 OCR을 많이 떠올릴 수 있습니다. OCR은 Optical Character Recognition의 약자로 광학 문자 인식을 뜻합니다. 이 기술은 글자 자체에 집중해서 개별 글자의 모양을 인식해 텍스트로 변환하는 방식입니다. 글자는 잘 읽지만, 문서의 구조, 맥락을 이해하지 못합니다. 예를 들어, 표 안의 숫자를 읽을 때 줄이 맞지 않으면 엉뚱한 항목과 연결하거나 읽기 순서가 뒤섞이는 오류가 자주 발생합니다.
하지만, VLM은 문맥과 구조에 집중합니다. 문서를 하나의 시각적 이미지로 통째로 바라보고, 텍스트와 그 텍스트가 놓인 시각적 맥락을 동시에 분석합니다. 문서의 구조를 인간과 같이 이해해서, 해당 텍스트가 제목인지, 본문인지, 혹은 복잡한 표의 어느 행과 열에 속한 데이터 인지를 시각적으로 파악한 뒤 추출합니다.
기능 | 일반 OCR | VLM |
출력 형식 | 단순 텍스트 나열 | Markdown, HTML, JSON 등 구조화된 데이터 |
손글씨 인식 | 필체에 따라 인식률 급감 | 문맥 추론을 통한 우수한 손글씨 인식 지원 |
양식 재구성 | 체크박스, 특수기호 등 누락 | 정확한 양식 재구성 |
표/수식 처리 | 레이아웃 붕괴 및 오류 발생 | 복잡한 표, 수식, 레이아웃 우수 지원 |
이미지 추출 | 이미지/다이어그램 활용 불가 | 이미지/다이어그램 추출 및 캡션 보존 |
언어 지원 | 단순 자모 인식 위주 | 다국어 문맥 및 고차원 의미 파악 |
TRINITY 내 VLM의 핵심 역할: "정교한 지식 추출"
비정형 텍스트를 Ontology로 구조화하여 AI Agent를 만드는 TRINITY에게 '정확한 데이터 추출'은 필수 과제입니다. TRINITY는 문서(PDF, 스캔본, 손글씨)뿐만 아니라 이미지와 기술 도면의 내용까지 비정형데이터를 정밀하게 분석하기 위해 VLM 기술을 활용합니다.
① 복잡한 표 및 도면 해석
기업 문서에는 단순 텍스트 외에 복잡한 표와 설계 도면이 다수 포함되어 있습니다. 일반적인 OCR은 표의 경계가 흐리거나 도면 내 기호가 섞여 있으면 데이터를 단순 나열하는 수준에 그치지만, VLM은 시각적 레이아웃을 통째로 이해합니다. 표의 행·열 관계는 물론, 도면 속 선과 도형이 의미하는 바를 파악해 데이터 간의 논리적 관계를 유지하며 정보를 추출합니다.
② 읽기 순서와 맥락 유지
다단으로 구성된 문서나 삽화가 섞인 매뉴얼에서도 전체 레이아웃을 '보면서' 읽기 때문에, 정보의 흐름을 놓치지 않고 인간의 가독 순서에 맞게 텍스트를 인식합니다.
VLM 기술을 활용한 TRINITY로 만들 수 있는 AI Agent
1️⃣ 법률/공공 - 법률 상담 에이전트
'제 n조 n 항'과 같은 복잡한 계층 구조와 각주 내용을 누락 없이 파악하여 판례 및 규정 기반의 정교한 의사결정을 지원합니다.
2️⃣ 금융 - 재무 분석 에이전트
행과 열이 복잡한 재무제표의 시각적 구조를 분석해 수치 간의 논리적 관계를 정확히 파악하고 규제 문서를 검토합니다.
3️⃣ 공공/행정 - 수기 민원 처리 전문 에이전트
흐릿한 스캔본이나 휘갈겨 쓴 손글씨까지 문맥으로 추론하여 제목, 본문, 서명란을 구분해 데이터화합니다.
4️⃣ 제조/엔지니어링 - 기술 도면 및 매뉴얼 분석 에이전트
도면 내 기호, 부품 번호, 수치 데이터의 배치를 분석해 기술 사양을 정확히 추출하고 필요한 정보를 검색합니다.
☝️TRINITY에서 활용 가능한 VLM 지원 범위
고객사에서 사용하는 모델 중에 VLM이 있다면 모두 호환하여 사용할 수 있으며, OpenAI 또는 다른 외부 API에서 지원하는 VLM 모델을 모두 이용할 수 있습니다. 내부적으로는 폐쇄망 환경에서 8B 이하의 소형 VLM 모델에서 비정형 데이터 추출을 테스트하여 해당 모델도 설치 및 지원이 가능합니다.
텍스트와 이미지 그 이상의 가치, TRINITY가 만드는 데이터의 미래
결국 AI Agent의 성능은 얼마나 양질의 데이터를 기반으로 하느냐에 달려 있습니다. 아무리 뛰어난 AI라도 잘못 읽어 들인 텍스트나 무시된 이미지 정보로는 올바른 판단을 내릴 수 없기 때문입니다. 비아이매트릭스의 TRINITY는 VLM 기술을 통해 기존 OCR이 놓쳤던 표의 행간, 각주에 담긴 의미, 손글씨에 담긴 현장의 노하우는 물론, 복잡한 설계 도면과 이미지 속 시각적 정보까지 완벽하게 인식합니다. 단순히 글자를 읽는 것을 넘어 문서와 이미지의 맥락을 통찰하는 TRINITY와 함께, 여러분 기업의 방대한 비정형 데이터를 가장 강력한 업무 지능으로 바꿔보시기 바랍니다.