google-site-verification=EH-INoJJCFk7-jAvyaAripclA4Dj9Sls8azb-V03bkk

생성형 AI와 RAG를 도입해도 왜 환각이 반복될까? 해답은 '문서 데이터 품질'에 있습니다

RAG 정확도가 기대에 못 미친다면 모델보다 문서 데이터부터 점검해야 합니다. 문서 파서, 구조화, 검증 가능성의 핵심을 설명합니다.
Inc Lomin's avatar
Mar 25, 2026
생성형 AI와 RAG를 도입해도 왜 환각이 반복될까? 해답은 '문서 데이터 품질'에 있습니다

RAG를 도입했는데도 왜 부정확한 답변이 반복될까

많은 기업이 생성형 AI와 RAG를 도입하면 환각 문제가 자연스럽게 줄어들 것이라고 기대합니다. 사내 규정집, 계약서, 보고서, 매뉴얼, 신청서 같은 내부 문서를 연결하면 AI가 더 정확하고 더 실무적인 답변을 줄 것처럼 보이기 때문입니다. 하지만 실제 현장에서는 기대와 다른 결과가 자주 나타납니다. 문서 안에 분명히 있는 내용을 놓치거나, 표의 의미를 잘못 해석하거나, 그럴듯하지만 부정확한 답변을 만드는 경우가 반복됩니다.

이럴 때 대부분은 모델이나 프롬프트를 먼저 의심합니다. 더 큰 모델을 쓰면 해결되지 않을까, 검색 설정을 조정하면 나아지지 않을까 생각하게 됩니다. 하지만 실제로는 더 앞단을 봐야 하는 경우가 많습니다. 바로 AI가 읽는 문서가 과연 AI가 이해할 수 있는 상태인가라는 점입니다.

RAG는 결국 좋은 문서를 찾아 LLM에 전달하는 구조입니다. 그런데 정작 그 문서가 AI가 읽기 어려운 상태라면 검색을 아무리 정교하게 해도 결과는 달라지기 어렵습니다. 결국 환각과 맥락 오류는 모델만의 문제가 아니라, 입력 문서를 얼마나 정확하게 읽고 구조화했는가의 문제라고 보는 편이 더 현실적입니다.

RAG 성능을 떨어뜨리는 3가지 데이터 장벽

RAG의 성능이 기대에 못 미칠 때는 대체로 세 가지 문제가 반복됩니다.

1. 불충분한 문서 전처리

기업 문서는 단순 텍스트 파일이 아닙니다. 다단 레이아웃, 표, 이미지, 각주, 캡션이 복잡하게 섞여 있는 경우가 많습니다. 이를 단순히 텍스트로만 추출하면 읽기 순서가 뒤섞이고, 표의 행과 열 관계가 무너지며, 이미지 안 정보도 놓치게 됩니다. 이렇게 문서의 맥락이 빠진 상태에서 들어간 정보로는 정확한 답을 만들기 어렵고, 결국 그럴듯하지만 틀린 답변으로 이어질 수 있습니다.

2. 청킹 설계의 문제

문서 구조와 맥락을 이해하지 못한 채 글자 수나 토큰 수 기준으로 기계적으로 나누면, 하나의 의미 단위가 여러 조각으로 잘리거나 전혀 다른 내용이 한 청크에 섞일 수 있습니다. 이렇게 되면 검색 단계에서 엉뚱한 내용이 들어오거나, 필요한 맥락이 빠진 상태로 전달될 수밖에 없습니다.

3. 문서 품질 자체의 문제

같은 내용이 여러 버전으로 흩어져 있거나, 오래된 정보와 최신 정보가 함께 섞여 있거나, 내부 약어와 도메인 표현이 정리되지 않은 채 색인되는 경우가 많습니다. 이런 상태의 데이터가 들어가면 RAG도 결국 오염된 정보를 바탕으로 답변하게 됩니다. 사용자는 이를 환각으로 느끼지만, 실제로는 문서 데이터 환경 자체가 흔들리고 있었던 셈입니다.

비정형 데이터를 구조화할 때 왜 품질 문제가 생길까

기업 데이터의 상당수는 비정형 문서 형태로 존재합니다. 계약서, 신청서, 증빙서류, 업무 문서처럼 양식과 구조가 제각각인 문서는 사람이 볼 때는 이해하기 어렵지 않지만, 기계가 바로 활용하기에는 훨씬 까다롭습니다. 이 과정을 제대로 설계하지 않으면 품질 문제는 반복될 수밖에 없습니다.

비정형 데이터를 구조화하는 과정에서 자주 발생하는 품질 문제는 크게 세 가지입니다.

첫째는 해독 문제입니다. 저화질 이미지나 복잡한 문서 구조 때문에 텍스트 자체를 정확히 읽지 못하는 경우입니다.

둘째는 정보 누락입니다. 텍스트 일부는 읽더라도 표의 행·열 관계나 이미지, 비텍스트 요소를 놓치면 실제 업무에 필요한 정보가 빠질 수 있습니다.

셋째는 데이터 왜곡입니다. 문맥이나 문서 구조를 충분히 이해하지 못한 상태에서 값을 잘못 추출하거나 빈칸을 오인식하면, 데이터가 있어도 실제로는 신뢰하기 어려운 결과가 나올 수 있습니다.

결국 중요한 것은 얼마나 많이 추출했느냐가 아니라, 얼마나 정확하게 읽고 얼마나 구조를 보존했느냐입니다.

고품질 데이터는 어떤 조건을 갖춰야 할까

고품질 데이터로 활용되려면 단순히 텍스트만 뽑아내는 수준을 넘어 문서의 구조와 맥락이 함께 보존돼야 합니다. 제목, 본문, 이미지, 표 같은 요소의 위치와 구조를 파악할 수 있어야 하고, 복잡한 표의 행·열 관계나 병합 셀도 구조적으로 정리할 수 있어야 합니다. 또 다단 문서처럼 읽기 순서가 중요한 문서는 사람의 시선 흐름에 맞게 정리돼야 합니다. 그래야 비정형 문서를 LLM이나 RAG가 바로 이해하고 활용할 수 있는 구조적 데이터로 전환할 수 있습니다.

또 하나 중요한 조건은 검증 가능성입니다. AI가 추출한 결과를 사람이 원문과 비교해 바로 확인할 수 있어야 하고, 수정된 내용이 이후 정확도 개선에 다시 활용될 수 있어야 합니다.

결국 고품질 데이터란 단순히 많이 추출된 데이터가 아니라, 구조가 보존되고, 맥락이 유지되며, 원문 기준으로 확인할 수 있는 데이터라고 볼 수 있습니다.

단순 OCR과 문서 파서는 무엇이 다를까

문서 자동화를 이야기할 때 가장 먼저 떠오르는 기술은 OCR입니다. OCR은 이미지나 스캔 문서에서 글자를 읽는 데 꼭 필요한 출발점입니다. 하지만 생성형 AI와 RAG, 그리고 실제 문서 자동화 품질을 좌우하는 것은 OCR만이 아닙니다.

OCR이 무슨 글자가 있는가를 읽는 기술이라면, 문서 파서는 이 글자들이 어떤 구조와 관계를 이루고 있는가를 파악하는 단계에 가깝습니다. 제목인지 본문인지, 표의 헤더인지 값인지, 어떤 필드가 어떤 항목과 연결되는지, 병합 셀이 어떤 의미를 가지는지, 다단 문서의 읽기 순서는 어떻게 되는지까지 고려해야 합니다.

예를 들어 계약서는 조항 번호와 하위 항목의 위계가 살아 있어야 하고, 청구서는 항목과 금액, 날짜, 세금 정보가 정확히 연결돼야 합니다. 신청서나 증빙 문서는 필드와 값이 정확히 매칭돼야 하며, 표 중심 문서는 행과 열 관계가 유지되어야 합니다. 단순히 텍스트를 많이 뽑아냈다고 해서 AI가 그 문서를 제대로 이해하는 것은 아닙니다.

즉, 문서 파서는 문서를 AI가 활용할 수 있는 구조적 데이터로 바꾸는 역할을 합니다. 이 구조화가 잘 되어야 검색 정확도도 올라가고, 추출 결과도 안정되며, LLM이 답변을 만들 때 근거 품질도 높아집니다.

단순 텍스트 추출과 구조적 문서 파싱의 차이점은?

구분

단순 OCR / 텍스트 추출

구조적 문서 파싱

표 구조

행·열 관계가 쉽게 깨짐

셀 관계와 헤더 구조 보존

레이아웃 분석

다단 문서 순서 오류 발생 가능

시각적 흐름 기준 재구성

의미 단위 유지

글자 수 기준 분할 중심

문맥 중심 구조화 가능

시각 요소 반영

체크박스, 서명, 도장 해석 한계

시각 요소까지 함께 처리 가능

검색·RAG 활용성

맥락 손상 가능성 높음

구조적 근거 제공에 유리

왜 구조화가 가장 어렵고 중요한 단계일까

비정형 데이터를 실제 활용 가능한 데이터로 만들기 위해서는 수집 이후에도 정제, 분류, 구조화, 검증이 이어져야 합니다. 이 가운데 가장 난도가 높고 동시에 가장 중요한 단계는 구조화입니다.

정제나 분류는 규칙 기반 방식이나 분류 모델로 어느 정도 자동화할 수 있지만, 구조화는 더 정교한 기술력이 필요합니다. 문서마다 레이아웃이 다르고, 같은 종류의 문서라도 기관이나 업무에 따라 양식이 달라지며, 표·이미지·텍스트가 한 문서 안에 복합적으로 섞여 있기 때문입니다.

결국 중요한 것은 글자를 읽는 데서 끝나는 것이 아니라, 문서의 의미 구조를 최대한 유지한 채 실제 활용 가능한 데이터로 바꾸는 일입니다. 제목, 본문, 표, 이미지의 관계를 파악하고, 복잡한 표의 행·열 관계나 병합 셀을 정리하고, 다단 문서의 읽기 순서까지 맞춰야 이후 검색이나 추출, 자동화 단계에서도 오류가 줄어듭니다.

문서 AI는 읽는 기술만으로 완성되지 않습니다

실무에서는 구조화만 잘된다고 끝나는 것은 아닙니다. 구조화된 결과가 실제로 맞는지 확인할 수 있어야 하고, 잘못된 부분을 고친 내용이 다시 품질 개선으로 이어져야 합니다. 그래서 기술적으로 가장 어려운 단계는 구조화이고, 실제 업무 관점에서 가장 중요한 것은 검증까지 포함된 운영 체계라고 보는 것이 맞습니다. 결국 비정형 문서 처리는 한 번 잘 읽어내는 기술보다, 읽고, 확인하고, 다시 개선하는 흐름이 함께 작동해야 안정적인 품질을 만들 수 있습니다.

이 문제를 해결하기 위한 접근은 크게 세 가지로 정리할 수 있습니다.

첫째, 문서 구조 이해 기반의 정밀 파싱입니다. 단순 텍스트 추출에 그치지 않고 문서의 레이아웃, 표 구조, 읽기 순서까지 함께 분석해 구조화하는 방식입니다. 그래야 문서를 사람 눈으로 읽는 순서에 가깝게 정리할 수 있고, 표나 서식이 복잡한 문서도 의미를 잃지 않은 채 데이터로 바꿀 수 있습니다.

둘째, VLM 기반 추출과 교차 검증입니다. 텍스트만 보는 방식이 아니라 텍스트, 이미지, 레이아웃을 함께 이해하는 방식으로 문서를 처리하고, 복수 모델의 결과를 비교해 오류 가능성을 줄이는 접근입니다. 이렇게 해야 표, 체크박스, 서명·도장, 색상이나 모양 같은 시각 정보까지 함께 다룰 수 있고, 하나의 모델 결과만 그대로 쓰는 것보다 더 안정적으로 데이터 무결성을 확보할 수 있습니다.

셋째, 액티브 러닝 기반의 지속적인 품질 개선입니다. 검수 과정에서 수정된 내용을 다시 학습에 반영해 사용할수록 정확도를 높이는 구조입니다. 문서 양식이 자주 바뀌거나 새로운 서식이 계속 들어오는 환경에서는 처음부터 완벽한 모델을 만드는 것보다, 운영 중 나온 오류를 빠르게 반영해 점진적으로 성능을 끌어올리는 방식이 더 현실적입니다.

앞으로 문서 데이터 전략은 어떻게 바뀌어야 할까

앞으로의 문서 데이터 전략은 단순 보관 중심에서, AI가 바로 활용할 수 있는 구조화 자산 중심으로 옮겨가야 합니다. 예전에는 문서를 저장하고 필요할 때 찾아보는 수준이면 됐지만, 이제는 문서를 읽고, 이해하고, 추출하고, 다시 활용할 수 있는 형태로 관리해야 합니다. 결국 중요한 것은 문서를 많이 쌓아두는 것이 아니라, AI가 바로 이해하고 활용할 수 있는 데이터로 바꿔 놓는 것입니다.

이를 위해 기업이 먼저 갖춰야 할 기준도 분명합니다. 문서 처리 전 과정을 하나의 흐름으로 연결하는 체계가 필요합니다. 문서 업로드, 분류, 추출, 검수, 학습 반영, 결과 활용이 따로 놀면 운영 효율도 떨어지고 품질 관리도 어려워집니다. 반대로 이 과정이 하나의 워크플로우로 연결되면, 새 문서가 들어왔을 때 같은 기준으로 처리하고 같은 방식으로 개선할 수 있습니다.

또한 문서의 구조와 맥락을 보존하는 데이터 기준이 필요합니다. 텍스트만 추출하는 것으로는 부족합니다. 제목과 본문, 표와 이미지, 읽기 순서, 표의 행·열 관계까지 함께 정리돼야 이후 LLM이나 RAG가 문서를 제대로 이해할 수 있습니다.

추출된 결과는 실제 업무에서 바로 활용할 수 있는 형태여야 합니다. JSON, Excel, PDF 같은 결과물로 활용할 수 있어야 하고, ERP, CRM, 내부 시스템 API와도 유연하게 연결될 수 있어야 합니다. 동시에 처리량, 성공률, 정확도, 응답 속도, API 성공·실패 현황 같은 운영 지표를 지속적으로 확인할 수 있어야 합니다.

결국 문서 자동화와 생성형 AI의 성패는 어떤 모델을 쓰느냐만으로 결정되지 않습니다. 문서를 얼마나 구조적으로 읽고, 얼마나 검증 가능하게 만들고, 얼마나 쉽게 업무 시스템과 연결할 수 있느냐가 더 중요해지고 있습니다.

결론: RAG 성능의 차이는 문서를 어떻게 읽히게 만드느냐에 달려 있습니다

생성형 AI와 RAG의 정확도를 높이기 위해 많은 기업이 모델 성능, 프롬프트 설계, 검색 알고리즘을 먼저 떠올립니다. 물론 모두 중요합니다. 하지만 실제로 프로젝트의 성패를 가르는 지점은 더 앞단에 있을 수 있습니다. 바로 ‘문서가 AI에게 어떤 형태로 전달되는가’입니다.

문서 구조가 무너진 채 텍스트 조각만 전달된다면, LLM은 불완전한 근거를 바탕으로 답변을 만들 수밖에 없습니다. 반대로 문서의 제목, 본문, 표, 주석, 필드 관계, 읽기 순서가 살아 있고, 그 결과를 원문 기준으로 검증할 수 있다면 검색 품질도 달라지고 생성 결과의 신뢰도도 달라집니다.

그래서 이제 기업이 먼저 던져야 할 질문은 어떤 모델을 쓸 것인가보다, 우리 문서는 AI가 이해할 수 있는 상태인가에 더 가깝습니다. 문서 구조가 무너진 채 텍스트 조각만 전달되는 환경에서는 어떤 생성형 AI나 RAG도 안정적인 성과를 내기 어렵습니다. 결국 중요한 것은 문서를 얼마나 정확하게 읽고, 구조를 보존한 채 필요한 정보를 추출하고, 검증 가능한 데이터로 전환할 수 있느냐입니다.

로민은 이러한 문서 처리 전 과정을 하나의 흐름으로 연결해, 기업이 비정형 문서를 실제 업무에 활용할 수 있는 데이터 자산으로 바꿀 수 있도록 지원합니다.

💡


FAQ

Q1. RAG를 도입했는데도 왜 환각이 줄지 않나요?

RAG는 관련 문서를 찾아주는 구조이지만, 그 문서가 구조적으로 깨져 있거나 맥락이 손상돼 있으면 LLM은 여전히 잘못된 답변을 만들 수 있습니다.

Q2. 문서 파서와 일반 OCR의 차이는 무엇인가요?

OCR은 글자를 읽는 단계에 가깝고, 문서 파서는 제목, 본문, 표, 필드, 항목 간 관계를 구조적으로 정리하는 단계에 가깝습니다.

Q3. 비정형 데이터를 구조화할 때 자주 발생하는 품질 문제는 무엇인가요?

대표적으로 해독 문제, 정보 누락, 데이터 왜곡이 있습니다. 텍스트를 읽지 못하거나, 필요한 요소를 빠뜨리거나, 문맥을 잘못 해석해 값이 왜곡되는 경우입니다.

Q4. 왜 표가 많은 문서에서 오류가 더 자주 발생하나요?

표는 값 자체보다 셀 간 관계가 중요하기 때문입니다. 행과 열, 헤더와 값 구조가 깨지면 숫자는 남아 있어도 의미는 달라질 수 있습니다.

Q5. 문서 파싱 결과는 왜 검증이 중요한가요?

실제 업무에서는 추출된 값이 원문 어디에서 나왔는지 확인할 수 있어야 신뢰할 수 있기 때문입니다. 검수 결과가 이후 품질 개선에 반영될 수 있어야 운영도 안정됩니다.

Q6. 생성형 AI 성능을 높이려면 무엇부터 점검해야 하나요?

모델보다 먼저 문서 구조 보존, 의미 단위 기준 청킹, 버전 관리, 검증 가능성을 점검하는 것이 좋습니다.

Share article