RAG(검색 증강 생성): LLM 할루시네이션을 극복하는 RAG
[핵심 요약]
RAG(Retrieval-Augmented Generation, 검색 증강 생성)는 LLM이 학습한 데이터에만 의존하지 않고 외부 자사의 신뢰할 수 있는 데이터베이스를 검색하여 답변의 정확성을 높이는 기술입니다.
LLM의 치명적인 약점인 할루시네이션(환각 현상), 최신 정보 반영의 한계, 출처 불분명 문제를 완화하며, 파인튜닝 대비 비용 효율적으로 도메인 특화 지식을 구현합니다.
최근 RAG 트렌드는 단순 검색을 넘어 검색 정확도를 극대화하는 키워드·벡터 하이브리드 검색, 리랭킹(Re-ranking), 의미론적 청킹(Chunking) 등 고급 RAG(Advanced RAG)로 진화하고 있습니다.
RAG 란?
RAG(Retrieval-Augmented Generation)란 인공지능 모델이 미리 학습한 데이터에만 의존하지 않고, 질문과 관련된 신뢰할 수 있는 외부 데이터베이스나 문서 정형, 비정형 데이터를 참조(Retrieval)함으로써 답변의 정확성을 높이는 기술입니다. 현재 LLM의 한계를 극복하기 위해 제안된 효과적인 기술 중 하나로, 특히 실시간 최신 정보나 특정 분야에 대한 깊이 있는 지식을 요구하는 질문에 적합합니다.
RAG 도입 배경: LLM의 3대 한계점
LLM은 사용자의 자연어 질의를 바탕으로, 학습된 데이터 속 언어 패턴과 통계적 관계를 활용해 그럴듯한 답변을 만들어냅니다. 이에 학습된 정보에 대한 응답을 잘 수행하고, 창의적인 표현도 가능하지만, 실제 기업 업무 환경에 도입하기에는 다음과 같은 한계가 존재합니다.
할루시네이션(Hallucination, 환각 현상): AI가 잘못된 정보를 마치 사실인 것처럼 정교하게 거짓말을 하는 현상입니다. 사실을 왜곡하거나, 잘 모르는 전문 지식에 대해 그럴듯한 논리적 오류를 만들어내어 사용자에게 심각한 혼란을 줄 수 있습니다.
신뢰할 수 없는 출처 기반 응답: LLM은 인터넷상의 방대한 데이터로 학습하기 때문에, 출처가 불명확하거나 오염된 정보를 기반으로 답변을 생성할 위험이 있습니다. 법률, 의학, 금융 등 명확한 팩트가 생명인 전문 분야에서는 이러한 부 정확성이 치명적인 리스크가 됩니다.
최신 정보 반영의 한계: LLM은 학습된 데이터의 패턴을 기반으로 응답을 생성하므로 최신 정보를 반영할 수 없습니다. 따라서, 실시간 주식 시세, 최근 법 개정 사항, 기업의 당일 매출 현황 등 학습 시점 이후의 정보는 반영할 수 없어 관련 질문에 대해 과거의 내용으로 답변하거나 부정확한 답변을 제공할 수 있습니다.
RAG의 작동 원리: 두 가지 핵심 단계
RAG는 텍스트 문서를 '청크(Chunk)'라는 적절한 크기로 쪼갠 뒤, 이를 수학적 의미를 지닌 벡터 형태로 변환하여 '벡터 DB(Vector DB)'에 저장해 두는 것에서 시작합니다. 이후 사용자가 질문을 던지면 시스템 내부에서 다음의 두 단계를 거쳐 청정 답변을 생성합니다.
Retrieval (검색) 단계
질문 이해 : 사용자의 자연어 질의의 문맥과 의미를 언어 모델 기반의 '문장 임베딩(Embedding)' 기술로 벡터화하여 질문의 본질을 파악합니다.
정보 검색 : 질문 벡터와 가장 유사한 의미를 가진 문서 조각들을 벡터 DB에서 초고속으로 찾아냅니다. (이 과정에서 DPR 등 다양한 고도화 검색 기법이 활용됩니다.)
정보 평가 및 선정 : 검색된 정보 중 유사도가 가장 높은 상위 K개의 핵심 문서 조각(Context)을 추출하여 다음 단계로 넘겨줍니다.
Generation (생성) 단계
답변 생성: LLM은 자신이 원래 알고 있던 지식에, Retrieval 단계에서 배달된 '정확한 참고 문서(Context)'를 결합합니다. 오직 배달된 근거 자료만을 바탕으로 답변을 작성하기 때문에 거짓말(할루시네이션) 없이 신뢰도 높은 답변을 완성합니다.
RAG 장점
RAG는 외부 데이터베이스를 실시간으로 참조하므로 매번 모델을 새로 학습시키지 않아도 최신 정보와 신뢰성 높은 자료를 즉시 반영할 수 있습니다. 특히 답변과 함께 "이 답변은 사내 규정 집 3페이지를 참고했습니다"와 같이 명확한 출처(근거)를 제시할 수 있어 답변의 검증 가능성을 제공합니다.
특정 도메인 지식을 AI에게 가르치는 다른 방법으로 모델 자체를 추가 학습시키는 파인튜닝(Fine-Tuning)이 있습니다. 하지만 파인튜닝은 고성능 GPU 장비와 엄청난 시간, 막대한 비용이 소모되며 데이터가 바뀔 때마다 이 과정을 반복해야 합니다. 반면 RAG는 데이터베이스 업데이트만으로 비용 효율적이면서도 안전하게 지식 시스템을 유지 관리할 수 있다는 장점이 있습니다.
최근 RAG 트렌드: Naive RAG에서 'Advanced RAG'로의 진화
초기의 단순한 RAG 구조(Naive RAG)는 현업에 도입했을 때 "엉뚱한 문서를 긁어와 오답을 낸다"는 성능 한계가 있었습니다. 이를 해결하기 위해 최근 AI 업계가 주목하는 최신 Advanced RAG 트렌드 3가지를 소개합니다.
키워드와 벡터를 합친 '하이브리드 검색(Hybrid Search)'
의미 중심의 벡터 검색(Dense Retrieval)은 맥락을 잘 짚지만 고유명사나 품번 검색에 약합니다. 이를 보완하기 위해 전통적인 키워드 매칭 방식(Sparse Retrieval, 예: BM25)을 결합하여 정확도를 배로 높이는 하이브리드 방식이 표준으로 자리 잡았습니다.
검색 결과의 서열을 다시 매기는 '리랭킹(Re-ranking)'
벡터 DB가 1차로 찾아온 문서 조각들이 정말 질문과 찰떡같이 맞는지 '리랭커(Re-ranker)' AI 모델을 통해 한 번 더 정밀하게 순위를 재조정합니다. 이 과정을 거치면 LLM에게 가장 순도 높은 참고 자료만 전달되므로 답변의 퀄리티가 비약적으로 상승합니다.
의미 단위로 문서를 쪼개는 '시맨틱 청킹(Semantic Chunking)'
과거에는 글자 수 기준으로 문서를 무조건 쪼갰다면, 최근에는 문맥과 단락의 의미가 끊어지지 않도록 AI가 스스로 인지하여 부드럽게 문서를 분할하는 청킹 전략이 RAG 성능 최적화의 핵심 기술로 연구되고 있습니다.