AI가 이미지에서 표를 추출할 수 있을까?
가능하다 — 그 성능은?
가능합니다. AI는 테두리 있거나 없는 표 이미지에서 행, 열, 헤더, 셀 값 등 표 데이터를 추출할 수 있습니다. 테두리 있는 표는 거의 완벽한 구조 인식(95% 이상)을 보입니다. 열 간격이 명확한 테두리 없는 표는 85~95% 범위에서 잘 작동합니다. 셀 병합과 계층형 헤더가 있는 복잡한 테두리 없는 표는 여전히 가장 어려운 경우로, 보통 60~85%의 정확도를 보이며 수동 정리가 필요합니다. 차이는 AI가 표를 '이해'하는지 여부가 아니라 표 이미지가 지닌 본질적인 모호성에 있습니다. 시각적 경계가 없으면 사람도 어떤 셀에 값이 속하는지 추측해야 합니다.
핵심 요약
- AI의 표 추출 정확도는 테두리 있는 표의 96%에서 셀 병합 표의 60%로 급락합니다. 문제는 모델이 아니라, 이미 계층 구조가 사라진 입력 이미지에 있습니다.
- 세 행에 걸친 병합 셀은 "이 범주가 다음 세 항목을 포함한다"는 의미입니다. 사람에게는 명확하지만, 평면 이미지를 처리하는 AI에게는 데이터에 트리 구조가 더 이상 존재하지 않기 때문에 추론 문제가 됩니다.
- 출력 열을 명시적으로 정의하세요(항목 설명, 수량, 단가). 그러면 AI가 표 격자를 재구성하는 대신 의미적 의미를 기준으로 값을 찾아내어 셀 병합 모호성을 완전히 우회합니다.
표 유형별 작동 성능
"AI가 이미지에서 표를 추출할 수 있는가"라는 질문에는 단일한 답이 없습니다. 이는 전적으로 이미지 속 표의 특성에 달려 있으며, AI의 일반적인 능력에 달려 있지 않습니다. 수십 년간의 컴퓨터 비전 연구는 TableBank 벤치마크(417,234개의 레이블링된 표)와 PubTabNet(568,000개 이상의 표 이미지)에서 정점을 이루며, 무엇이 효과적이고 무엇이 그렇지 않은지에 대한 명확한 그림을 제시했습니다. 세부 내용은 다음과 같습니다:
| 표 유형 | 구조 정확도 (S-TEDS) | 내용 + 구조 (TEDS) | 성공/실패 요인 |
|---|---|---|---|
| 테두리 있는 표 | 96–98% | 90–95% | 격자선이 명확한 셀 경계를 제공합니다. 비전 AI가 선을 구분자로 감지하며, 열 감지가 거의 완벽합니다. |
| 테두리 없음, 명확한 간격 | 88–95% | 85–93% | 열 사이의 공백이 넓고 일관될 때 충분히 활용됩니다. AI는 정렬 패턴에서 열 경계를 추론합니다. |
| 테두리 없음, 조밀한 레이아웃 | 70–85% | 65–80% | 열 사이의 좁은 간격이 경계를 흐리게 합니다. "2,400,000" 옆에 "12.5%"와 같은 값이 얇은 간격으로 인해 약 3분의 1 확률로 하나의 셀로 병합됩니다. |
| 병합된 셀 | 60–80% | 55–75% | 행/열 병합이 격자 가정을 깨뜨립니다. AI는 병합된 셀이 어떤 행에 걸쳐 있는지 추론해야 하며, 이는 사람에게는 쉬우나 알고리즘에는 구조적으로 모호합니다. |
| 손글씨 표 | 50–70% | 40–65% | 이중 과제: 손글씨 인식 및 불규칙한 정렬에서 표 구조 추론. 사람 데이터 입력 작업자도 이러한 표에서 상당히 속도가 느려집니다. |
이 수치는 학술 벤치마크에서 사용되는 TEDS(Tree-Edit-Distance-based Similarity) 지표에서 비롯되었습니다. S-TEDS는 구조적 충실도(올바른 행과 열 수, 정확한 셀 병합 여부)를 측정합니다. TEDS는 내용 정확도(각 셀 내 값의 정확성)를 추가로 측정합니다. PubTabNet에서 비전-언어 모델에 대한 2025년 벤치마크에 따르면, 범용 VLM은 원시 추출에서 74–85%의 TEDS를 달성하는 반면, 전처리 파이프라인을 갖춘 특화된 표 중심 모델은 93% 이상의 범위에 도달합니다 (NGTR 프레임워크, IJCAI 2025).
실용적 의미: 깨끗하고 테두리가 있는 청구서 표나 구조화된 보고서에서 데이터를 추출하는 경우 AI는 성숙하여 프로덕션에 적합합니다. 스캔된 계약서 부록에 병합된 카테고리 헤더가 있는 조밀하고 테두리 없는 가격표가 포함된 경우 수동 검증에 시간을 할애할 것으로 예상하십시오. 모든 문서 유형에서 AI 문서 추출이 할 수 있는 것과 할 수 없는 것에 대한 더 넓은 개요는 AI 문서 추출이 실제로 무엇인지에 대한 가이드를 참조하십시오.
AI가 잘하는 것
현대 비전 AI가 생산 수준의 결과를 일관되게 제공하는 세 가지 테이블 시나리오:
모든 출처의 테두리 있는 표. PDF 인보이스, 회계 포털 스크린샷, 인쇄된 구매 주문서 사진 등 — 표에 눈에 띄는 격자선이 있으면 AI는 거의 완벽한 정밀도로 셀 경계를 감지합니다. 이유는 간단합니다. 수평선과 수직선이 모호하지 않은 그래프를 만들어 AI 모델이 결정론적으로 분석할 수 있게 하며, 이는 스프레드시트 격자를 분석하는 방식과 유사합니다. Camelot 같은 전통적인 OCR 도구도 테두리가 잘 있는 표에서 90% 이상의 정확도를 달성하지만, AI는 규칙 기반 선 감지기를 무너뜨리는 곡선이나 기울어진 테두리도 처리할 수 있다는 장점을 추가합니다.
깔끔하게 간격이 있는 테두리 없는 표. SaaS 플랫폼, 전문 서비스 회사, 디자인 중심 공급업체의 최신 인보이스는 종종 공백 기반 표 레이아웃을 사용합니다 — 격자선 없이 열 사이에 넉넉한 간격만 있습니다. 이러한 표는 정렬만으로 사람이 읽을 수 있도록 설계되었으며, 수백만 개의 표 이미지로 훈련된 AI 모델도 동일한 시각적 단서를 학습했습니다. 열 간격이 일관되고 셀 내 단어 간 간격보다 넓을 때 AI는 90% 이상의 확률로 경계를 올바르게 식별합니다.
일관된 구조의 다중 페이지 표. 표가 여러 페이지에 걸쳐 동일한 열 레이아웃으로 이어질 때 — 은행 명세서, 재무 보고서, 공과금 청구서에서 흔함 — AI는 각 페이지를 독립적으로 처리하고 결과를 하나의 연속된 스프레드시트로 병합할 수 있습니다. 이때 최신 추출 도구의 배치 우선 설계가 중요해집니다: 모든 페이지를 한 번에 업로드하면 수동으로 이어 붙여야 할 N개의 개별 추출물이 아닌 하나의 통합 출력 표를 얻을 수 있습니다.
어려움을 겪는 부분
실패 모드를 구체적으로 설명하는 것이 모든 것에 99% 정확도를 주장하는 것보다 더 신뢰를 쌓습니다. AI 표 추출이 여전히 사람의 감독을 필요로 하는 시나리오는 다음과 같습니다:
방향성 의미를 가진 병합 셀. 열 헤더에서 세 행에 걸친 셀은 "이것은 다음 세 행의 상위 범주입니다"를 의미합니다. 사람에게는 명백하지만 AI에게는 구조적 추론 문제입니다: 평평한 격자에서 트리를 재구성하는 것입니다. 병합 셀이 4개 이상의 행에 걸쳐 있거나, 행과 열 헤더에 동시에 병합 셀이 나타나면 정확도가 급격히 떨어집니다. 2024년 PDF 파싱 도구 비교 연구에 따르면 비표준 레이아웃과 복잡한 셀 병합이 있는 문서에서 파서 정확도가 가장 크게 저하되었습니다.
이는 AI 지능의 실패가 아니라 입력 형식의 실패입니다. 병합 셀이 있는 표 이미지는 원본 소스(행 병합 속성이 있는 HTML 또는 병합 영역이 있는 스프레드시트)에 존재했을 계층 구조를 잃어버렸습니다. AI는 표가 평평한 이미지로 렌더링될 때 제거된 정보를 재구성하라는 요청을 받고 있습니다. 이는 인식 문제가 아니라 추론 문제입니다.
계층적 헤더. 열 헤더가 부모-자식 관계를 가지는 표(예: "2025년 1분기"가 "1월", "2월", "3월"에 걸쳐 있음)와 행 헤더도 부모 그룹을 가지는 경우 2차원 계층 구조가 생성됩니다. 대부분의 AI 모델은 평평한 표를 출력합니다 — 하나의 헤더 행, 그 다음 데이터 행. 명시적으로 요청하지 않는 한 계층 관계를 기본적으로 보존하지 않습니다. 결과는 종종 원작자가 의도한 다중 레벨 구조를 잃어버린 기술적으로 올바른 평평한 표입니다. 사용자 정의 열 추출 접근 방식은 AI가 이미지에서 추론하도록 요청하는 대신 출력 스키마를 미리 정의할 수 있게 하여 이 문제를 우회합니다.
셀 너비가 다양한 테두리 없는 조밀한 표. 테두리가 없고 열 사이 간격이 좁으며, 셀마다 텍스트 길이가 다른(짧은 값과 긴 설명이 섞인) 표에서는 공백 경계가 모호해집니다. "청구서 #2405-001"이 있는 셀 옆에 "사무용품 — 문구류(대량 주문)"이 있는 셀이 있을 경우, AI가 공백 임계값을 잘못 판단하면 세 개의 개별 열로 해석될 수 있습니다.
손글씨 표. 필체 자체가 읽기 쉬운 경우(비전 AI가 85~95% 정확도로 처리하며, 이는 AI 필기 인식 가이드에서 다룹니다)에도 구조적 문제는 더 복잡해집니다. 손글씨 표는 열 정렬이 불규칙하고(값이 왼쪽이나 오른쪽으로 치우침), 행 높이가 들쭉날쭉하며, 선이 거의 곧지 않습니다. AI는 텍스트 인식과 불규칙한 그리드에서 구조 추론이라는 두 가지 어려운 문제를 동시에 해결해야 합니다.
기존 방식과의 비교
비전 AI 이전에는 이미지에서 표를 추출하려면 여러 취약한 도구를 조합해야 했습니다. 기존 방식을 이해하면 AI의 표 추출 기능이 왜 진정한 혁신인지 알 수 있습니다.
| 방식 | 작동 원리 | 테두리 있는 표 정확도 | 테두리 없는 표 정확도 | 병합 셀 |
|---|---|---|---|---|
| Camelot (격자 모드) | PDF/이미지에서 시각적 선을 감지하고 셀 교차점 계산 | 전체 ~68% (문서 유형별) | 완전 실패 — 격자 모드는 가시적 테두리 필요 | 실패 — 선 감지 불가로 그리드 없음 |
| Tabula | PDF에서 텍스트 위치 추출, 공간적 근접성으로 그룹화 | 전체 ~73% | 50~70% — 스트림 모드가 공백에서 열 경계 추측 | 병합 셀 값을 임의 인접 셀에 복사, 의미 상실 |
| pdfplumber | 문자 수준 텍스트 추출 및 명시적 공백 분석 | 전체 ~72% | 55~75% — Tabula보다 설정 가능하나 동일한 기본 접근법 | 병합 셀 처리 없음; 평면 셀 출력 |
| 비전 AI / VLM | 표를 시각적 장면으로 읽음 — 구조, 텍스트, 관계를 동시에 이해 | 90~98% | 85~95%(간격 있음) / 65~80%(조밀) | 60~80% — 문맥에서 병합 유추하지만 완벽하지 않음 |
기존 방식에는 근본적인 구조적 문제가 있습니다. 텍스트 인식과 구조 인식을 분리한다는 점입니다. 먼저 OCR이 텍스트와 위치를 추출합니다. 그런 다음 별도의 알고리즘(종종 수동 조정된 휴리스틱)이 해당 위치에서 표 그리드를 재구성하려고 시도합니다. OCR이 문자를 잘못 읽거나(저해상도 이미지에서 흔함) 단어 위치를 잘못 지정하면(기울어진 문서에서 흔함), 구조 추론이 하위 단계에서 실패하며 복구할 방법이 없습니다. 오류가 누적됩니다.
Vision AI는 이 문제를 완전히 피합니다. 표 이미지를 시각적 장면으로 읽어들여 — 사용자가 하는 것과 동일한 방식으로 — "Total" 헤더 아래의 숫자가 픽셀 좌표 X에 있기 때문이 아니라 "Total" 열의 다른 모든 내용과 의미적으로 정렬되기 때문에 해당 열에 속한다는 것을 이해합니다. 이는 단순히 더 나은 OCR이 아니라 문제에 대한 근본적으로 다른 접근 방식이며, 이에 대한 자세한 내용은 AI와 기존 OCR 비교에서 확인할 수 있습니다.
최상의 결과를 얻는 방법
사용하는 도구에 관계없이 AI 표 추출 정확도를 일관되게 향상시키는 다섯 가지 방법입니다:
1. 가능한 가장 높은 해상도로 시작하세요. AI 모델은 이미지를 픽셀 격자로 봅니다. 픽셀이 많을수록 인접한 셀을 더 미세하게 구분할 수 있습니다. PubTabNet 벤치마크에 대한 비전 LLM의 2025년 분석에 따르면 이미지 업스케일링이 가장 일반적인 전처리 개선 방법으로, 저품질 입력에서 64%의 성공적인 추출에 사용되었습니다. 인쇄된 표를 촬영하는 경우 휴대폰 카메라가 지원하는 최고 해상도를 사용하고 휴대폰을 문서와 평행하게 유지하여 원근 왜곡을 방지하세요.
2. 표 영역으로 자르세요. Vision AI는 표가 프레임의 대부분을 채울 때 더 잘 작동합니다. 표 주변의 추가 콘텐츠(주변 텍스트, 로고, 페이지 헤더)는 열 감지를 혼란스럽게 할 수 있는 노이즈를 추가합니다. 추출 전에 이미지를 표 영역만 자르세요.
3. 출력 열을 명시적으로 정의하세요. 가장 신뢰할 수 있는 접근 방식은 AI에게 "모든 것을 추출하라"고 요청하는 것이 아니라 무엇을 추출할지 알려주는 것입니다. "품목 설명", "수량", "단가", "라인 합계"와 같은 열 이름을 지정하면 AI는 출력에서 어떤 필드를 찾아야 하고 어디에 속하는지 정확히 알 수 있습니다. 이것이 사용자 정의 열 추출의 원리입니다. AI는 표 구조를 추측하는 것이 아니라 문서 내용을 이해하여 데이터를 스키마에 일치시킵니다. 이 작동 방식에 대한 자세한 설명은 스키마 기반 추출이 전체 표 구문 분석과 어떻게 다른지를 참조하세요.
4. 테두리가 없는 표의 경우 대비를 높여 전처리하세요. 표에 눈에 띄는 테두리가 없고 열 간격이 좁은 경우 이미지 대비를 높이면 AI가 열 경계를 구분하는 데 도움이 될 수 있습니다. 이미지 편집기에서 간단한 레벨 조정(텍스트를 어둡게, 배경을 밝게)만으로도 공백 감지가 개선됩니다.
5. 병합된 셀 출력을 확인하세요. 절대 건너뛰지 말아야 할 단계입니다. 표에 병합된 셀이 있는 경우 추출된 스프레드시트에서 값이 누락되었거나 잘못 반복된 행이 있는지 스캔하세요. 병합된 셀에 대한 AI의 구조적 추론은 시간을 크게 절약할 만큼 충분히 좋습니다(80%의 경우 정확함). 그러나 나머지 20%는 확인하지 않으면 다운스트림 분석에 연쇄적으로 영향을 미칠 수 있는 오류를 발생시킬 수 있습니다. AI 추출을 감독이 필요 없는 블랙박스가 아니라 60초 인간 스캔이 필요한 초안으로 취급하세요.
실제 사례: 예상 결과
사례 1: 테두리가 있는 라인 항목 테이블이 포함된 인쇄된 구매 주문서. 공급업체의 PO를 사진으로 촬영합니다. 표는 명확한 테두리, 표준 열(품목, 설명, 수량, 단가, 합계)이 있으며 병합된 셀이 없습니다. AI는 거의 완벽하게 추출합니다. 모든 행, 모든 셀 값이 올바르게 정렬됩니다. 정리 작업에 시간을 들일 필요가 없습니다. 이것이 AI 표 추출이 수동 데이터 입력보다 확실히 빠르고 정확한 최적의 영역입니다.
사례 2: 테두리가 없는 거래 내역 표가 포함된 은행 거래 명세서 PDF. 은행 거래 명세서는 일반적으로 공백 기반 표 레이아웃을 사용합니다. 날짜, 설명, 출금, 입금, 잔액 열이 일정한 간격으로 구분됩니다. AI는 이를 잘 처리합니다. 구조와 내용의 정확도는 90~95%입니다. 가장 흔한 오류는 긴 거래 설명이 인접한 출금/입금 열로 넘어가 정렬이 틀어지는 것입니다. 출력 결과를 빠르게 훑어보면 1분 안에 이러한 오류를 찾을 수 있습니다.
사례 3: 조밀한 가격 그리드가 포함된 스캔된 계약 부록. 가장 까다로운 경우입니다. 테두리 없음, 좁은 열 간격, 여러 하위 열에 걸친 병합된 카테고리 헤더, 다양한 길이의 데이터 값이 있습니다. 구조적 정확도는 65~80%로 예상됩니다. AI는 대부분의 데이터 포인트를 올바르게 가져오지만 병합된 헤더 카테고리와 하위 열 간의 관계를 혼동할 수 있습니다. 20행 표의 경우 5~10분의 수동 수정 시간을 계획하세요.
자주 묻는 질문
휴대폰으로 찍은 사진에서도 AI가 표를 추출할 수 있나요?
네, 사진이 선명하고 조명이 밝으며 정면에서 찍힌 경우(비스듬하지 않은 경우) 놀라울 정도로 잘 작동하는 경우가 많습니다. 휴대폰 사진의 주요 실패 요인은 원근 왜곡입니다. 비스듬한 각도에서 찍은 표는 선이 기울어져 기존 OCR과 AI 구조 인식 모두를 혼란스럽게 만듭니다. 휴대폰을 문서 표면과 평행하게 유지하면 평판 스캔에 준하는 결과를 얻을 수 있습니다. 스캔보다 사진으로 촬영되는 일반적인 문서 유형에 대해서는 스크린샷 및 사진에서 데이터 추출 가이드를 참조하세요.
AI는 PDF와 이미지 중 어떤 형식에서 더 잘 작동하나요?
PDF 유형에 따라 다릅니다. 텍스트 기반 PDF(텍스트 선택 및 복사 가능)에는 AI가 추가 신호로 사용할 수 있는 위치 데이터가 포함되어 있어 순수 이미지보다 정확도가 5~10% 포인트 향상되는 경우가 많습니다. 스캔된 이미지 전용 PDF는 이미지와 동일합니다. AI는 둘 다 처리할 수 있지만, 선택권이 있다면 스크린샷 대신 원본 텍스트 기반 PDF를 제공하는 것이 좋습니다.
AI는 셀 내부에 여러 줄 텍스트가 있는 표를 처리할 수 있나요?
네, 이 부분은 AI가 기존 방법보다 훨씬 뛰어난 영역입니다. 계약 전시물, 사양서, 임상 보고서에서 흔히 볼 수 있듯이 셀에 텍스트 단락이 포함된 경우, 기존 OCR은 셀 내의 줄 바꿈이 행 바꿈처럼 보이기 때문에 행 경계를 놓칩니다. Vision AI는 셀을 하나의 전체 엔터티로 읽고 그 안의 텍스트를 보존하여 "작업 범위: 계약자는..." 내부의 줄 바꿈이 새 행을 시작하지 않는다는 것을 이해합니다.
AI는 통화나 숫자 형식이 다른 표를 어떻게 처리하나요?
AI는 문맥을 통해 숫자 값을 읽습니다. 같은 표에 "1.500,00"과 "$1,500.00"이 함께 있어도 전자는 유럽 형식(1,500.00), 후자는 미국 형식으로 인식합니다. 이는 비전 AI가 숫자 문자열 패턴 매칭에 의존하지 않고, 문서의 언어, 주변 열 문맥, 값의 의미를 이해하기 때문입니다. 통화 형식이 혼합된 상업 송장과 같은 교차 형식 표도 대부분 올바르게 처리됩니다.
AI가 여러 페이지에 걸친 표를 추출할 수 있나요?
네. 최신 비전 AI는 표가 다음 페이지로 이어지는 것을 감지하여 하나의 출력 스프레드시트로 병합할 수 있습니다. 2025년 PubTables-v2 데이터셋을 사용한 연구에서 페이지 간 표 연속 식별에 99.5%의 재현율을 달성했습니다. 실제 요구사항은 AI가 연속성을 볼 수 있도록 모든 페이지를 한 번에 업로드해야 한다는 것입니다. 페이지를 하나씩 처리하면 페이지 간 문맥이 손실됩니다.
AI를 내 표 형식에 맞게 먼저 학습시켜야 하나요?
아닙니다. 이는 Docparser나 Parseur 같은 템플릿 기반 OCR 도구에서 비롯된 오해입니다. 해당 도구들은 새 문서 레이아웃마다 파싱 영역이나 규칙을 정의해야 합니다. 비전 AI는 의미론적 이해를 사용합니다. 사람처럼 표를 읽으며, 특정 형식에 대한 사전 노출이 필요하지 않습니다. 단점은 템플릿 기반 도구가 명시적으로 학습된 형식에서는 더 높은 정확도를 달성할 수 있지만 형식이 변경되면 작동하지 않는다는 점입니다. AI는 형식 변화를 자동으로 처리하지만 단일 고정 형식에 대한 최고 정확도는 낮습니다. 이 트레이드오프에 대한 자세한 내용은 전통적인 OCR과 AI 추출 비교를 참조하세요.
표에 텍스트와 체크박스 또는 기호가 함께 있으면 어떻게 되나요?
비전 AI는 체크박스와 기호를 문맥적으로 읽습니다. "익스프레스 배송" 옆에 체크된 박스는 고립된 기호가 아닌 "배송 방법 = 익스프레스"로 이해됩니다. 이는 AI가 체크박스와 레이블 텍스트를 하나의 의미 단위로 보기 때문이며, 페이지의 다른 키-값 쌍을 처리하는 방식과 유사합니다. 체크박스 데이터의 정확도는 일반적으로 85~95%로, 테두리가 있는 표의 인쇄 텍스트와 비슷한 수준입니다.
결론: AI는 오늘날 테두리가 있고 간격이 잘 정리된 표를 처리할 준비가 되어 있습니다. 어려운 경우에도 엄청난 시간을 절약해 줍니다. 대부분 올바른 추출 결과를 편집하는 것이 처음부터 직접 입력하는 것보다 빠르기 때문입니다. 또한 비전 모델이 개선됨에 따라 '어려운' 범주는 매년 줄어들고 있습니다. 데이터가 이를 뒷받침합니다. PubTabNet의 S-TEDS 점수는 2020년 약 65%에서 2025년 93% 이상으로 상승했으며, 추세선은 아직 평평해지지 않았습니다.
실제 문서에서 AI 추출이 수동 데이터 입력과 어떻게 비교되는지 직접 확인하려면 AI 대 수동 필사 시간 및 정확도 분석을 참조하세요. 또는 2026년 최고의 표 추출 도구 요약을 살펴보고 다양한 도구가 워크플로에 중요한 지표에서 어떻게 비교되는지 확인하세요.