AI는 하나의 문서에서 여러 언어를 읽을 수 있나요?
네, 이렇게 작동합니다
네. 최신 AI 비전 모델은 한 페이지에 여러 언어가 혼합된 문서에서 데이터를 읽고 추출할 수 있습니다 — 영문/중문 혼합 인보이스, 일문/영문 혼합 배송 라벨, 3개 언어가 나란히 있는 EU 양식, 영문 회사명이 포함된 한국어 세무 문서 등이 해당됩니다. 하지만 정확도는 문자 체계에 따라 균일하지 않습니다. 로마자 계열 언어(영어, 프랑스어, 독일어, 스페인어)는 95% 이상의 정확도로 이미 해결된 문제입니다. 진짜 시험대는 비로마자 문자입니다. 중국어, 일본어, 한국어, 아랍어 문서에서 AI 모델이 주장하는 성능과 실제 성능 사이의 격차는 여전히 무시할 수 없을 정도로 큽니다.
핵심 요약
- "100개 이상 언어 지원"은 마케팅 문구일 뿐, 정확도를 의미하지 않습니다. 동일한 AI가 영문 인보이스에서는 98%의 정확도를 보이지만 한국어 문서에서는 80%로 떨어집니다. 아무도 이를 미리 알려주지 않습니다.
- 정확도는 문자 계열에 따라 급격히 달라집니다. 로마자는 인간 수준인 95% 이상, 아랍어는 75%로 떨어지며, 한 페이지에 영어와 아랍어가 혼합된 양방향 문서는 65%까지 하락합니다.
- 언어별로 별도의 도구가 필요하지 않습니다. "왼쪽 상단 상자" 대신 "공급업체명"처럼 의미에 따라 추출 열을 정의하면, AI가 한글, 한자, 키릴 문자 중 어떤 언어로 작성되었든 해당 필드를 찾아냅니다.
스크립트 계열별 AI 다국어 인식 정확도
다국어 AI 추출을 평가할 때 가장 흔한 실수는 "100개 이상 언어 지원"을 하나의 정확도 수치로 보는 것입니다. 실제로는 그렇지 않습니다. 정확도는 명확한 스크립트 계층 구조를 따르며, 문서가 어디에 속하는지 이해하는 것이 워크플로우의 성패를 가릅니다.
라틴 계열 언어(영어, 프랑스어, 독일어, 스페인어, 포르투갈어, 이탈리아어, 네덜란드어 등)는 26자 알파벳, 좌횡서 방향, 공통 타이포그래피 전통을 공유합니다. 단일 OCR 파이프라인으로 모두 처리 가능합니다. 최신 비전 모델은 깨끗한 인쇄 라틴 문서에서 언어와 관계없이 95% 이상의 정확도를 달성합니다. 모델이 프랑스어인지 독일어인지 알 필요가 없습니다. 시각적 패턴이 충분히 유사하기 때문입니다.
키릴 계열(러시아어, 우크라이나어, 불가리아어, 세르비아어)은 문자 집합이 하나 더 추가되지만 읽기 방향과 텍스트 레이아웃 규칙은 라틴과 동일합니다. 깨끗한 문서에서 정확도는 약 90~93%로 소폭 하락합니다. 구조적 유사성 덕분에 학습 데이터 전이가 잘 이루어지기 때문입니다. 대부분의 다국어 말뭉치로 학습된 비전 모델은 키릴에서 라틴에 가까운 성능을 보입니다.
그리고 진짜 어려움이 시작됩니다. 아랍어와 CJK(중국어, 일본어, 한국어)는 단순한 문자 조회 테이블이 아닌 근본적으로 다른 인식 모델이 필요합니다. 각각이 어려운 이유는 다음과 같습니다:
| 스크립트 계열 | 일반 AI 정확도(인쇄물) | 주요 난이도 | 어려운 이유 |
|---|---|---|---|
| 라틴 (EN, FR, DE, ES, PT, IT 등) | 95–99% | 낮음 — 인간 수준에 근접 | 26자, 좌횡서, 풍부한 학습 데이터 |
| 키릴 (RU, UK, BG, SR) | 90–93% | 중간 — 유사한 레이아웃 규칙 | 문자 집합 추가되나 구조 동일 |
| 아랍어 / 히브리어 | 75–85% | 높음 — 우횡서 + 위치에 따라 변하는 문자 형태 | 문자가 4가지 형태로 변함; 우횡서가 표준 OCR 파이프라인을 깨뜨림 |
| CJK (중국어, 일본어, 한국어) | 80–90% | 높음 — 수천 자, 세로쓰기, 단어 간격 없음 | 97,000+ 유니코드 문자; 토큰 소비량 라틴의 2~3배; 세로 방향 |
| 혼합 스크립트 (좌횡서 + 우횡서 동일 페이지) | 65–80% | 최고 — 양방향 텍스트 + 스크립트 간 모호성 | 모델이 스크립트 경계를 감지하고 올바른 방향을 적용하며 출력을 조정해야 함 |
이는 극단적인 사례가 아닙니다. 단일 인보이스에 영어 회사 헤더, 일본어 주소 블록, 한국어 품목 설명, 아라비아 숫자가 함께 있을 수 있습니다. 한 스크립트 계열만 처리하는 모델은 나머지에서 실패합니다. CC-OCR 벤치마크(arXiv 2412.02210)는 일본어, 한국어, 아랍어, 6개 라틴 계열 언어 등 10개 언어에 걸쳐 모델을 테스트했으며, 최고의 범용 모델인 Gemini-1.5-Pro도 다국어 OCR에서 전체 78.97점을 기록했습니다. 일본어는 테스트 세트에 세로쓰기 텍스트가 많아 모든 범용 모델에서 가장 낮은 성능을 보였습니다.
실용적인 의미: 문서에 라틴 계열 언어만 사용된다면, 어떤 유능한 AI 추출 도구로도 생산 수준의 정확도를 기대할 수 있습니다. 아랍어나 CJK가 포함된다면, 공급업체의 데모가 아닌 실제 문서로 테스트하고 검증 시간을 확보해야 합니다.
다국어 AI 추출이 잘하는 점
다국어 문서 처리에서 AI와 기존 OCR의 차이는 단순한 수준 차이가 아니라 구조적인 차이입니다. 기존 OCR은 '문서 하나 = 언어 하나'라는 가정 하에 설계되었습니다. Tesseract를 영어, 일본어, 아랍어 등에 맞게 설정하고 문서를 넣은 후 결과를 기다리는 방식이죠. 언어가 혼합된 페이지는 애초에 지원 범위 밖이었습니다.
비전-언어 모델에는 이런 한계가 없습니다. 텍스트를 개별 문자로 분할해 언어별 조회 테이블에 매칭하는 대신, 페이지 전체(레이아웃, 텍스트, 맥락)를 읽고 다국어를 구사하는 인간처럼 언어에 관계없이 내용을 이해합니다. 따라서 다음 시나리오에서는 이미 신뢰할 수 있는 수준의 성능을 보여줍니다:
순수 라틴 문자 다국어 문서. 독일어, 프랑스어, 이탈리아어가 혼합된 스위스 인보이스. 영어와 프랑스어로 작성된 캐나다 포장 명세서. 스페인어 공급업체 정보와 포르투갈어 배송 지침이 포함된 범유럽 구매 주문서. 이 언어들은 문자 집합과 읽기 방향이 동일하므로 AI가 단일 패스로 처리하며 정확도는 단일 언어 라틴 문자 추출 수준인 95% 이상을 유지합니다.
읽기 방향이 같은 일반적인 이중 언어 조합. 영어/한국어, 영어/일본어, 영어/중국어 문서에서 비라틴 문자 부분이 부가적인 경우(영문 회사명 옆에 한글 주소, 영문 SKU 아래에 일본어 제품 설명 등). AI는 잘 알고 있는 라틴 문자를 기준으로 삼고, CJK나 아랍어 텍스트는 추가 인식 콘텐츠로 처리합니다. 필드 레이블이 의미적 맥락을 제공하는 구조화된 양식(예: 'Description'이라는 컬럼 헤더가 아래 내용이 언어와 무관하게 항목 설명임을 명확히 하는 경우)에서는 비라틴 문자 부분의 정확도가 80~90% 수준에 이릅니다.
구조화된 다국어 양식. 가장 뛰어난 성능은 문서에 명확한 구조(레이블이 있는 필드, 일관된 레이아웃, 제한된 텍스트 영역)가 있을 때 나타납니다. 언어 블록이 필드별로 구분된 EU 세관 신고서. 공급업체명, 금액, 세금 필드가 공간적으로 분리된 한국 전자세금계산서. AI는 각 필드를 독립적으로 읽으며, 필드 레이블을 찾을 내용의 의미적 기준점으로 활용합니다. 이는 단일 언어 문서에서도 작동하는 Custom Column Extraction 메커니즘과 동일합니다: 원하는 컬럼(예: '공급업체명', '총액', '세율')을 정의하면 AI가 페이지상의 위치가 아닌 의미를 이해하여 각 값을 찾아냅니다.
대규모 어휘 비전 모델. GPT-4o는 새로운 토크나이저를 도입하여 비영어 언어 처리를 크게 개선했습니다. 구자라트어는 4.4배, 텔루구어는 3.5배, 타밀어는 3.3배 적은 토큰으로 처리됩니다. 영어 대비 2~8배의 토큰을 소비하는 CJK 언어의 경우 이는 매우 중요합니다. 토큰이 적을수록 더 많은 문서 내용이 모델의 컨텍스트 윈도우에 들어가 정보 손실이 줄어듭니다. Google Document AI는 200개 이상의 언어(필기체 지원 50개 언어 포함)를, Azure AI Document Intelligence는 100개 이상의 언어(CJK, 아랍어, 데바나가리 문자 명시 지원)를 지원합니다.
다국어 AI 추출이 여전히 어려워하는 부분
마케팅 문구보다 솔직한 답변이 더 중요합니다. 다국어 기능을 과장했다가 누군가 첫 번째 한국어/영어 인보이스를 업로드했을 때 한글의 절반이 잘못 읽히면 신뢰를 잃는 것은 순식간이니까요.
같은 페이지에 오른쪽에서 왼쪽, 왼쪽에서 오른쪽이 공존하는 경우. 영어 조항이 포함된 아랍어 법률 계약서, 프랑스어 배송 조건이 적힌 히브리어 포장 명세서. AI는 스크립트 경계를 감지하고 각 구간에 올바른 읽기 방향을 적용한 후 하나의 출력으로 통합해야 합니다. LTR 텍스트용으로 구축된 표준 OCR 파이프라인은 뒤죽박죽이고 의미적으로 깨진 출력을 생성합니다. 아랍어 텍스트가 거꾸로 렌더링되고, 줄 바꿈이 잘못된 위치에 있으며, 두 스크립트의 문자가 섞여 의미 없는 결과가 나옵니다. 비전 모델은 방향을 텍스트 스트림 속성이 아닌 레이아웃 속성으로 처리하여 이 문제를 더 잘 처리하지만, 진정한 혼합 방향 문서의 정확도는 여전히 65~80%로 떨어집니다.
세로 쓰기 CJK 텍스트. 일본어 문서는 가로와 세로 텍스트를 자주 혼합합니다. 본문은 위에서 아래로 흐르지만 영어 주석과 숫자는 왼쪽에서 오른쪽으로 작성됩니다. 중국어와 한국어는 현대 비즈니스 문서에서 세로 쓰기를 덜 사용하지만, 전통적인 형식, 증명서, 공식 서신에서는 여전히 사용됩니다. CC-OCR 벤치마크는 특히 모든 범용 모델에서 세로 일본어 텍스트가 정확도를 가장 크게 떨어뜨리는 요인이라고 지적했습니다. 가로 일본어를 90% 가까이 처리하는 모델도 동일한 텍스트가 세로로 작성되면 60~70%로 떨어질 수 있습니다. 모델의 레이아웃 이해가 주로 가로 문서로 훈련되었기 때문입니다.
드문 언어 조합. 영어/스페인어와 영어/일본어는 훈련 데이터에 자주 등장하기 때문에 잘 다루어집니다. 같은 페이지에 태국어/아랍어는? 스와힐리어/키릴 문자는? 베트남어/히브리어는? 이러한 조합은 훈련 코퍼스에 현저히 적게 포함됩니다. 모델이 개별 스크립트는 인식할 수 있지만, 특히 다른 쓰기 방향을 사용하거나 한 스크립트에 다른 스크립트의 문자와 시각적으로 유사한 문자가 포함된 경우 상호 작용을 분석하는 데 어려움을 겪을 수 있습니다.
필기체 + 인쇄체 혼합 다국어 문서. 영어 필기 주석이 있는 인쇄된 일본어 양식. 한글과 영어가 섞인 필기 수정 사항이 있는 한국어 인보이스. 필기체만으로도 AI 정확도는 인쇄체 텍스트에 비해 15~30% 떨어집니다(AI 필기 인식 정확도에 대한 가이드 참조). 여기에 두 번째 언어가 추가되고, 특히 필기 부분이 스크립트 간에 전환되면 오류가 더욱 누적됩니다. 모델은 필기의 모호성과 스크립트 경계를 동시에 해결해야 하지만, 현재 아키텍처는 이를 순차적으로 처리할 뿐 통합적으로 처리하지 못합니다.
CJK의 문자 밀도. 하나의 일본어 문장에는 세 가지 문자 체계(한자, 히라가나, 가타카나)에 더해 영어 외래어를 위한 로마자와 금액을 위한 아라비아 숫자가 한 줄에 모두 포함될 수 있습니다. 이 중 하나에 맞게 구성된 기존 OCR 엔진은 나머지를 조용히 무시합니다. 비전 모델은 일본어의 다중 스크립트 특성을 구조적 속성으로 올바르게 처리하지만, 정보 밀도는 토큰화 오버헤드를 발생시킵니다. 일본어의 동일한 의미 콘텐츠는 영어에 비해 약 2배의 토큰을 소비하므로, 긴 문서에서 모델이 컨텍스트 창 제한에 더 빨리 도달하게 됩니다.
다국어 AI 추출에서 최상의 결과를 얻는 방법
사용자가 통제할 수 있는 가장 중요한 변수는 AI에 데이터를 추출하도록 요청하는 방식이며, 이는 다국어 문서에서 다른 어떤 문서 유형보다 중요합니다. 원시 OCR 전체 텍스트 대신 의미론적 추출을 사용하는 것이, 사용 가능한 다국어 데이터와 엉망인 다국어 데이터를 가르는 차이입니다.
1. 전체 페이지 OCR 대신 사용자 정의 열 추출을 사용하세요. AI에게 "이 페이지의 모든 것을 읽어라"고 요청하지 마세요. "공급업체명", "송장 날짜", "총 금액", "세금 ID" 등 원하는 필드를 정확히 알려주세요. 출력 열을 정의하면 AI는 해당 값이 어떤 언어로 작성되었든 의미적으로 이해하여 특정 값을 찾는 데 집중합니다. 한글로 작성된 한국 공급업체명(예: "한국전자")은 영어로 된 것만큼 쉽게 찾을 수 있습니다. AI는 "공급업체명" 필드에 업체명이 포함된다는 것을 알기 때문입니다. 반면 원시 OCR은 엔진이 설정된 언어로 텍스트 스트림을 출력하고 나머지는 모두 버립니다. 이 열 기반 접근 방식이 문서 유형별로 어떻게 작동하는지 자세히 알아보려면 AI 문서 추출이 무엇이고 어떻게 작동하는지를 참조하세요.
2. 사진 품질을 높게 유지하세요. 다국어 문서는 모든 이미지 품질 문제를 증폭시킵니다. 잉크와 종이 간의 낮은 대비, 기울어진 사진, 낮은 해상도는 영어보다 비라틴 문자에서 정확도를 더 심각하게 떨어뜨립니다. 한중일 문자는 미세한 획 구분(예: 중국어의 已 vs 己 vs 巳, 일본어 가타카나의 ツ vs シ)에 의존하기 때문에, 품질이 낮은 이미지에서는 알아볼 수 없는 형태로 흐려집니다. 정면으로 촬영하고, 균일한 조명을 사용하며, 최소 200 DPI를 유지하세요. 모든 문자에 이상적인 것은 흰 종이에 진한 잉크입니다.
3. 가능하면 문서를 주요 언어별로 분리하세요. 송장 50장(영어 30장, 한국어 20장)을 함께 처리해도 작동하지만, 별도 배치로 처리하면 언어 그룹별로 정확도를 확인할 수 있습니다. 이는 AI 성능을 직접적으로 향상시키지는 않지만, 검증 워크플로우를 관리 가능하게 만듭니다. 영어 배치의 10%를 빠르게 샘플 점검하고, 오류 가능성이 더 높은 한국어 배치에 검토 시간을 집중할 수 있습니다.
4. 혼합 문자 필드에는 필드 수준 검증을 사용하세요. 통화 금액, 세금 ID, 날짜는 추출 오류가 재정적 결과를 초래하는 필드입니다. 다국어 문서에서 이러한 필드는 주변 언어와 관계없이 종종 아라비아 숫자로 표시되므로 도움이 되지만, 교차 확인은 여전히 가장 저렴한 보험입니다. 문서당 가장 중요한 5개 필드를 30초 검토하는 것이 잘못된 세금 ID로 송금된 대금을 수정하는 것보다 빠릅니다.
5. 문서 구조를 앵커로 활용하세요. 레이블이 지정된 필드가 있는 구조화된 양식은 다국어 AI 추출에 가장 강력한 사례입니다. 다국어 문서가 대부분 양식(송장, 세관 신고서, 세금 문서)인 경우, 필드 레이블은 의미론적 앵커를 제공하여 언어 간 정확도를 획기적으로 향상시킵니다. AI는 한국어 세금 송장에서 "Total (합계)"를 읽고 금액 값을 추출해야 한다는 것을 압니다. 필드 레이블이 한국어이고 값에 영어 통화 코드가 포함되어 있더라도 말이죠. 문서에 구조가 많을수록 언어의 중요성은 줄어듭니다.
AI가 여러 언어를 읽는 실제 문서 사례
이것은 가상의 사례가 아닙니다. 실제 세계에서 언어의 경계를 넘나드는 문서들이며, AI는 각각을 다르게 처리합니다.
한국 전자세금계산서. 2023년부터 한국에서 전자세금계산서 발행이 의무화되면서 모든 거래는 구조화된 디지털 문서를 생성하지만, 데이터는 여전히 회계 시스템으로 옮겨져야 합니다. 일반적인 한국 세금계산서에는 공급자명과 주소(한글), 구매자명(한글), 한글 품목명과 간혹 포함된 영문 제품 코드, 아라비아 숫자와 원(₩) 표기 금액이 포함됩니다. AI는 한글 필드(이름, 주소), 혼합 콘텐츠(품목 설명), 숫자 필드(금액)를 한 번의 추출 과정으로 모두 읽어냅니다. 한국어에 특화되지 않은 모델이 어려워하는 핵심 필드는 사업자등록번호로, 특정 형식의 10자리 식별번호이며 종종 고유한 위치에 인쇄됩니다. 이 문서 유형에 대한 자세한 내용은 한국 세금계산서 데이터를 엑셀로 추출하는 가이드를 참조하세요.
EU 다국어 관세 및 규정 준수 서식. EU 수입 신고서에는 일반적으로 동일한 데이터가 2~3개 언어로 반복됩니다. 예를 들어 송하인 이름은 프랑스어, 수하인 이름은 독일어, 상품 설명은 영어로 표기됩니다. 한 페이지에서 라틴 문자 언어가 4~5번 전환될 수 있습니다. 이는 AI에게 가장 쉬운 다국어 시나리오입니다. 모든 언어가 동일한 문자 체계를 공유하기 때문에 AI는 프랑스어, 독일어, 영어 섹션을 동일하게 처리하며 정확도는 95% 이상을 유지합니다. 언어 전환은 모델에 투명하게 이루어집니다. 매일 수백 개의 이러한 서식을 처리하는 국경 간 물류 팀은 언어별로 분류할 필요 없이 일괄 처리할 수 있습니다. AI가 언어 혼합을 기본적으로 처리하기 때문입니다. 전체적인 맥락은 시장별 국제 인보이스 데이터 추출을 참조하세요.
일본어/영어 선적 문서. 일본 수출 패킹 리스트에는 일본어(한자+가타카나)로 된 제품명, 아라비아 숫자로 된 수량과 중량, 영어로 된 도착지 주소가 포함됩니다. 일본어 텍스트는 세 가지 문자 체계를 모두 사용합니다. 제품명(自動車部品 = 자동차 부품)에는 한자, 영어 유래 용어(ブラケット = 브래킷)에는 가타카나, 모델 번호(ABC-1234)에는 라틴 문자가 사용됩니다. AI는 같은 줄에 있는 네 가지 문자 체계를 모두 읽고 추출된 값을 올바른 열에 배치합니다. 가장 큰 위험은 가타카나-영어 혼동입니다. "テーブル"(tēburu, "table")과 같은 단어는 가타카나로 음역되어 순진한 OCR 엔진이 영어 텍스트로 오인할 수 있지만, 일본어 표기 규칙을 이해하는 비전 모델은 이를 올바르게 구분합니다.
중국어/영어 이중 언어 계약서. 중국어와 영어를 사용하는 기업 간의 국경 간 비즈니스 계약은 각 조항을 두 언어로 모두 제시하는 경우가 많습니다. 중국어 텍스트는 영어 번역문 위나 아래에 배치됩니다. 레이아웃은 좌우 병렬 또는 상하 단락 형태일 수 있습니다. 데이터 추출(예: 계약일, 당사자명, 지급 조건 추출)의 경우 AI는 중복성의 이점을 얻습니다. 두 언어 버전 중 하나에서 동일한 데이터를 읽을 수 있으며, 이중 표현은 한 언어의 누락되거나 모호한 데이터를 다른 언어로 상호 참조할 수 있기 때문에 실제로 정확도를 향상시킵니다. 실무 워크플로는 영어 버전을 기본(더 높은 정확도)으로 추출하고 중국어 버전을 주요 금융 필드 검증용으로 사용하는 것입니다.
자주 묻는 질문
AI가 세 가지 이상의 언어가 혼합된 문서에서 데이터를 추출할 수 있나요?
가능합니다 — 단, 조건이 있습니다. 모든 언어가 동일한 문자 체계(예: 프랑스어/독일어/영어 = 모두 로마자)를 공유하면 AI가 정확도 손실 없이 투명하게 처리합니다. 서로 다른 문자 체계가 혼합된 경우(예: 한 페이지에 영어 + 한국어 + 아랍어), 정확도는 혼합된 문자 중 가장 정확도가 낮은 문자에 따라 달라집니다. 영어 80%와 아랍어 20%로 구성된 문서는 영어 부분에서 로마자 수준의 정확도를, 아랍어 부분에서는 아랍어 수준의 정확도(~75–85%)를 보입니다. AI는 어려운 부분이 있다고 해서 쉬운 부분의 정확도를 낮추지 않습니다. 각 텍스트 영역은 독립적으로 처리됩니다.
AI가 문서에 어떤 언어가 있는지 미리 알아야 하나요?
아닙니다. 최신 비전 모델은 페이지를 읽는 과정의 일부로 언어를 자동으로 감지합니다. "영어 + 한국어"를 미리 선택하거나 언어 모듈을 구성할 필요가 없습니다. 이는 전통적인 OCR에 비해 비전-언어 모델의 가장 큰 장점 중 하나입니다. Tesseract는 처리 전에 언어를 지정해야 하고(잘못 지정하면 오류가 발생함) 반면 VLM은 페이지를 읽고 각 텍스트 영역이 사용하는 문자를 즉석에서 인식합니다. 모델의 언어 감지는 시각적 이해에 내장되어 있으며 별도의 단계로 추가된 것이 아닙니다.
AI는 아랍어와 같은 오른쪽에서 왼쪽으로 쓰는 언어가 영어와 혼합된 문서를 어떻게 처리하나요?
처리할 수 있습니다 — 하지만 이것이 가장 까다로운 다국어 시나리오입니다. AI는 동일한 페이지에서 문자 A(왼쪽에서 오른쪽, 예: 영어)와 문자 B(오른쪽에서 왼쪽, 예: 아랍어)를 감지하고 각 세그먼트에 올바른 읽기 방향을 적용하며 두 문자 간의 의미적 관계를 유지해야 합니다. 방향이 진정으로 혼합된 페이지의 정확도는 65–80%로 떨어집니다. RTL 콘텐츠가 공간적으로 분리된 블록(예: 영어 표 위의 아랍어 제목)에 있는 문서의 경우 정확도가 더 높습니다. RTL과 LTR 텍스트가 동일한 문장이나 단락에 섞여 있는 문서(예: 영어 제품 설명에 아랍어 부품 번호가 삽입된 경우)는 결과를 수동으로 확인해야 합니다.
AI가 손글씨 일본어, 중국어, 한국어를 읽을 수 있나요?
일부 가능합니다. 동일한 필기 인식 정확도 체계가 로마자뿐만 아니라 CJK 문자에도 적용되지만, 추가적인 어려움이 있습니다. CJK 문자는 획순과 정확한 획 배치에 의존하는데, 필기 변형이 로마자 형태보다 더 심각하게 이를 방해합니다. 손으로 쓴 口(입/구멍, 간단한 3획 사각형)는 필기자에 따라 원, 타원, 또는 낙서한 상자처럼 보일 수 있습니다. 일본어 필기는 한국어 필기(한글은 더 체계적이고 고유 형태가 적음)보다 어렵고, 둘 다 영어 필기보다 어렵습니다. 인쇄된 CJK에서 필기 CJK로 갈 때 정확도가 20~35% 떨어질 것으로 예상하세요. 필기 인식 과제에 대한 자세한 내용은 AI 필기 인식 전체 가이드를 참조하세요.
언어마다 다른 AI 도구가 필요한가요?
아니요 — 비전-언어 모델 기반 추출 도구를 사용한다면 그렇지 않습니다. 영어 인보이스를 읽는 동일한 모델이 한국어 세금 계산서와 독일어 구매 주문서도 읽습니다. 이것이 비전-언어 접근 방식의 실질적인 장점 중 하나입니다. 문서에 포함된 언어 수에 관계없이 하나의 도구, 하나의 워크플로, 하나의 출력 형식을 관리하면 됩니다. 단, 검증 노력이라는 주의사항이 있습니다: 영어 문서보다 비로마자 문서의 결과를 검토하는 데 더 많은 시간을 할애하게 될 것입니다. 하지만 별도의 도구, 별도의 로그인, 별도의 워크플로가 필요하지는 않습니다.
버마어, 암하라어, 라오어처럼 디지털 자원이 매우 부족한 언어는 어떤가요?
이러한 저자원 언어는 정확도가 가장 크게 떨어지는 분야입니다. 주요 세계 언어와 자원이 부족한 문자 간의 성능 격차는 주요 언어 간 격차보다 더 큽니다. 한국어를 85% 정확도로 처리하는 모델이 버마어는 50~60% 정확도로 처리할 수 있는데, 이는 훈련 데이터 양이 수십 배 적기 때문입니다. Google의 Document AI는 희귀 언어 지원(200개 이상 언어)에 가장 강력한 옵션이지만, 진정한 저자원 언어의 경우 워크플로를 확정하기 전에 문서로 직접 테스트해야 합니다. 공급업체의 언어 지원 주장이 상위 50개 외 문자에 대해 생산에서 사용 가능한 정확도로 이어지는 경우는 드뭅니다.
AI는 문장 중간에 언어가 바뀌는 문서를 처리할 수 있나요?
이를 코드 스위칭이라고 하며, 다국어 지역의 비즈니스 문서에서 흔히 발생합니다. 예를 들어 홍콩 송장에는 "Delivery to 中環辦公室 by 3pm."이라고 적혀 있을 수 있습니다. 최신 비전 모델은 라틴 문자 계열 내에서는 이를 잘 처리하며, 라틴 문자와 CJK가 혼합된 경우에도 비교적 잘 처리합니다. 모델은 문장 중간에 언어 모듈을 전환할 필요 없이 전체 문자열을 연속적인 시각적 입력으로 읽고 각 문자나 단어를 해당 문자 체계로 인식합니다. 문장 중간 코드 스위칭의 정확도는 혼합된 전체 문단 텍스트보다 높은데, 이는 컨텍스트 윈도우가 작게 유지되고 신호(문자 모양, 문자 집합 구성)가 토큰 수준에서 모호하지 않기 때문입니다.
2026년 AI 다국어 문서 추출은 라틴 문자 계열 언어에 대해 프로덕션 준비가 완료되었으며, CJK 및 아랍어의 경우 검증과 함께 사용 가능하고, 희귀 문자 조합 및 혼합 방향 문서의 경우 여전히 실험 단계에 있습니다. 올바른 질문은 "AI가 여러 언어를 읽을 수 있나요?"가 아니라 "AI가 내 문서에 실제로 등장하는 방식으로 특정 언어를 읽을 수 있나요?"입니다. 공급업체의 언어 지원 목록과 문서가 실제로 필요한 것 사이의 차이는 종종 데모가 작동하는 것과 워크플로가 작동하지 않는 것 사이의 차이입니다. 샘플 문서가 아닌 실제 문서로 테스트하세요. 중요한 언어는 바로 여러분의 언어입니다.
AI 문서 추출이 할 수 있는 것과 할 수 없는 것에 대한 더 넓은 이해를 위해 AI 문서 추출이 무엇이며 어떻게 작동하는지를 시작으로 살펴보세요. 특히 여러 언어로 된 필기체를 다루는 경우, AI 필기체 인식 정확도에 대한 가이드에서 이 두 가지 어려운 문제의 교차점을 다룹니다. 또한 템플릿 설정이나 학습 없이 데이터를 추출해야 하는 경우(두 형식이 동일하지 않은 다국어 문서에서 더욱 중요함) AI가 템플릿 없이 데이터를 추출할 수 있는지를 참조하세요.