병합된 셀이 왜표 추출을 망가뜨릴까?

추출한 스프레드시트에 병합된 헤더가 있어야 할 자리에 빈 셀이 나타나거나, 값이 잘못된 열로 흘러 들어간다면 — 표 추출에서 가장 구조적으로 복잡한 문제에 직면한 것입니다. 증상은 명확합니다. 눈에 보이는 그룹에 속하지 않는 행, 절반의 열에만 적용되는 헤더, 추출 후 수동 수정이 절약한 시간보다 더 많이 필요한 스프레드시트 등이 그 예입니다.

수작업 입력은 그만 — AI가 대신 읽어드립니다
이미지나 PDF를 업로드하세요 — 10초 만에 정형 데이터로
지금 체험하기
회원가입 불필요 · 카드 불필요 · 10초 내 결과
병합된 셀로 인해 데이터가 정렬되지 않은 표 추출 결과를 보여주는 스프레드시트 대시보드

핵심 요약

  1. 추출한 스프레드시트에 레이블이 있어야 할 자리에 빈 셀이 있고 값이 잘못된 열로 흘러 들어갑니다 — 문제가 있다는 건 알지만 원인을 정확히 짚지 못하고 있습니다.
  2. 병합된 셀은 시각적 레이아웃과 데이터 그리드 사이에 근본적인 불일치를 만듭니다. 값은 정확히 하나의 셀에만 존재하고, 병합된 범위의 다른 모든 셀은 설계상 비어 있으며, 어떤 추출 도구도 본질적으로 평평하지 않은 구조에서 평평한 그리드를 재구성할 수 없습니다.
  3. AI를 사용하여 모든 값을 올바르게 읽은 다음, Excel의 병합 해제 및 채우기 단축키(빈 셀 선택, =↑, Ctrl+Enter)를 적용하여 열당 30초 이내에 그리드를 복구하세요 — 시각적 레이아웃과 구조화된 데이터 사이의 격차는 2분의 후처리 과정으로 해소됩니다.

병합된 셀이 테이블 추출에서 어려운 이유

병합된 셀이 추출을 망가뜨리는 이유를 이해하려면, 테이블 추출 도구가 실제로 보는 것을 알아야 합니다. 사용자가 테이블을 볼 때는 행과 열이 정렬되어 있고, 병합된 셀이 여러 위치에 걸쳐 있습니다. 하지만 도구는 다르게 봅니다 — 텍스트가 있는 좌표 집합을 보고, 그 좌표만으로 그리드를 재구성해야 합니다.

병합된 셀은 근본적인 불일치를 만듭니다. 시각적으로는 하나의 셀이 두세 개의 행이나 열 공간을 차지하는 것처럼 보입니다. 구조적으로는 값이 정확히 하나의 셀(보통 병합 범위의 왼쪽 위 셀)에만 존재합니다. 해당 범위의 다른 모든 셀은 의도적으로 비어 있습니다. 추출 도구는 선택해야 합니다: 그 위치를 비워두거나(구멍이 생김), 빈 칸에 병합된 값을 채워 넣거나(잘못된 귀속 위험).

이는 특정 도구의 버그가 아닙니다. AI 기반 추출부터 전통적인 OCR, PDF 파서까지 모든 접근 방식이 이 문제를 해결해야 합니다. 좋은 소식은 병합된 셀이 예측 가능한 패턴을 따른다는 점입니다. 문제를 일으키는 패턴을 인식하면, 추출을 다시 하지 않고도 올바른 수정을 적용할 수 있습니다.

원인 1 — 행 병합 셀 (여러 줄 설명)

증상: 추출된 테이블의 첫 번째 열에 빈 셀이 있습니다. 다른 모든 것은 정확해 보이지만, 한 열에 무작위로 빈칸이 있습니다.

이것이 가장 흔하고 고치기 쉬운 경우입니다. 행 병합 셀은 하나의 레이블이 그 아래 여러 데이터 행에 적용될 때 발생합니다. 예를 들어, "사무용품"이 펜, 종이, 프린터 토너, 바인더 클립 행에 걸쳐 병합된 송장 라인 항목 테이블이 있습니다. 추출 후, 행은 존재하지만 첫 번째 열에는 첫 번째 행에만 "사무용품"이 있고 다음 행에는 빈 셀이 있습니다.

발생 이유: 병합된 셀은 하나의 셀에 하나의 값을 포함합니다. 아래 셀들은 구조적으로 비어 있습니다(병합 범위의 일부이지 독립 셀이 아님). 일부 도구는 값을 아래로 복사하지만 — 이는 추측입니다. 다른 도구는 물리적으로 존재하는 것만 반환하여 빈칸을 남깁니다.

해결 방법 — Excel에서: 빈 열 선택 → 찾기 및 선택이동 옵션빈 셀= 입력 후 화살표 키 누름 → Ctrl+Enter 누름. 이렇게 하면 모든 빈 셀이 바로 위 셀의 값으로 채워집니다. 그런 다음 열을 복사하여 값으로 붙여넣어 데이터를 고정합니다. Google Sheets에서도 동일한 방법으로 작동합니다: 빈 셀 선택, = 입력, 누름, Ctrl+Enter(Mac은 Cmd+Enter) 누름.

행 병합 셀은 가장 저렴하게 해결할 수 있는 문제입니다. 한 열에만 영향을 미치고 데이터를 열 간에 이동시키지 않는 단일 작업으로 수정되기 때문입니다.

근본 원인 2 — 열 병합 셀 (병합 헤더)

증상: 잘못된 열 헤더 아래에 값이 표시됩니다. 헤더 행과 데이터 행 간의 열 개수가 일치하지 않으며, 각 열의 의미가 표 중간에서 변경됩니다.

열 병합 셀은 정렬에 영향을 미치기 때문에 더 큰 문제를 일으킵니다. 헤더가 두세 개의 열(예: "2026년 1분기" 헤더가 1월, 2월, 3월을 포함)에 걸쳐 있을 때, 추출 도구는 테이블의 열 개수를 결정해야 합니다. 병합된 헤더를 하나의 열로 계산하면 그 아래의 모든 데이터 행이 왼쪽으로 두 칸씩 이동합니다. 기본 열을 올바르게 계산하지만 병합된 헤더가 첫 번째 열에만 속하는 것으로 읽으면 의미적 관계가 손실됩니다.

대부분의 열 정렬 오류가 여기서 발생합니다. 병합된 헤더는 도구가 그리드 경계를 추측하도록 강제하며, 도구마다 추측 방식이 다릅니다. 일부는 헤더 텍스트를 모든 병합 열에 복제하고, 다른 도구는 첫 번째 열에만 할당하여 나머지 열은 헤더가 없게 만듭니다.

해결 방법은 의도된 열 계층 구조를 이해해야 합니다. Excel에서 추출 후:

  1. 헤더 아래에 도우미 행을 삽입하여 전체 열 레이아웃을 수동으로 재구성합니다.
  2. 병합하고 가운데 맞춤셀 병합 해제를 사용하여 병합된 헤더 셀을 모두 해제합니다.
  3. 원본 문서를 참조하여 새로 빈 헤더 셀을 올바른 열 레이블로 채웁니다.
  4. 도우미 행을 삭제하고 각 데이터 열에 고유하고 올바른 헤더가 있는지 확인합니다.

이 방법은 문서에 대한 지식을 바탕으로 열 구조를 재구성해야 하므로 행 병합 수정보다 시간이 더 걸립니다. 도구는 계층 구조를 안정적으로 추론할 수 없습니다.

근본 원인 3 — 중첩 병합 셀 (행+열 결합)

증상: 추출된 표가 근본적으로 깨져 있습니다. 행과 열이 정렬되지 않고, 논리적으로 말이 안 되는 위치에 값이 나타나며, 전체 셀 개수가 예상되는 그리드 차원과 일치하지 않습니다.

하나의 셀이 여러 행과 여러 열을 동시에 병합하는 중첩 병합 셀은 가장 까다로운 시나리오입니다. 이는 복잡한 재무제표, 임상시험 일정, 다단계 프로젝트 타임라인에서 나타납니다. 2열 3행을 병합하는 셀은 직사각형 구멍을 만들어 행과 열 감지를 동시에 무너뜨립니다.

Tabula나 pdfplumber 같은 전통적인 OCR 도구와 PDF 파서는 일반적으로 중첩 병합에서 완전히 실패하여 잘못된 행과 열 개수를 생성합니다. AI 기반 도구는 병합 영역 내 텍스트를 읽는 데는 더 뛰어나지만, 원래 구조와 일치하는 평면 그리드를 재구성하는 데는 여전히 어려움을 겪습니다.

해결 방법은 2단계 접근법입니다. 먼저, 셀 병합 메타데이터(어떤 셀이 병합되었는지, 몇 행과 몇 열에 걸쳐 있는지에 대한 정보)를 보존하는 AI 도구로 추출을 실행합니다. Azure Document Intelligence와 일부 최신 비전 모델 기반 도구는 JSON 출력에 이 메타데이터를 반환합니다. 둘째, Excel이나 Google Sheets에서 영향을 받은 영역을 수동으로 재구성합니다:

  1. 원본 문서에서 각 병합 영역을 식별합니다(몇 행과 몇 열에 걸쳐 있는지 셉니다).
  2. 추출된 표에 병합 영역 크기에 맞게 빈 행이나 열을 삽입합니다.
  3. 근본 원인 1의 병합 해제 및 채우기 기법을 각 영향을 받은 열에 적용합니다.
  4. 행 개수를 원본과 교차 확인하여 누락된 것이 없는지 확인합니다.

이는 수작업이며 복잡도에 따라 표당 5~15분이 소요됩니다. 솔직히 말해, 오늘날 중첩 병합 셀을 100% 신뢰도로 자동 처리하는 도구는 없습니다.

에스컬레이션 시점 — 계단형 병합

병합된 셀 패턴 중 자동화를 포기하는 것이 가장 현실적인 조언인 경우가 있습니다. 계단형 병합은 병합된 셀이 대각선이나 계단 형태를 이룰 때 발생합니다. 예를 들어, 1행의 셀이 A–B열에 걸쳐 있고, 2행의 셀이 B–C열, 3행의 셀이 C–D열에 걸쳐 있는 경우입니다. 이는 겹치는 범위 경계를 만들어내며, 어떤 그리드 재구성 알고리즘도 올바르게 처리할 수 없습니다. 기본 구조가 비중첩 셀 매트릭스라는 가정을 위반하기 때문입니다.

계단형 병합은 시각적 레이아웃이 구조적 일관성보다 우선시된 수동 엑셀 보고서나 레거시 회계 출력물에서 가장 자주 나타납니다.

계단형 병합 식별 방법: 원본 PDF나 이미지를 열고 병합된 영역을 눈으로 따라가 보십시오. 병합된 영역이 깔끔한 행과 열로 정렬되지 않고, 병합 경계가 지그재그로 나타나는 패턴이 보인다면, 그것이 계단형 패턴입니다.

정직한 해결책: 추출 전에 문서를 수동으로 전처리하십시오. 원본 파일을 엑셀에서 열고, 모든 셀 병합을 해제한 후, 값을 아래와 옆으로 채워 넣고 단순화된 버전을 저장하십시오. 그런 다음 정리된 복사본에서 추출을 실행하십시오. 이 5~10분의 사전 투자는 깨진 추출 결과를 수정하는 30분 이상의 시간을 절약해 줍니다.

실용적인 해결책 — AI 추출 + 병합 해제 및 채우기 후처리

세 가지 근본 원인 모두에서 가장 신뢰할 수 있는 워크플로는 "병합된 셀을 완벽하게 처리하는" 도구를 찾는 것이 아닙니다. 그런 도구는 존재하지 않기 때문입니다. 각각 최선을 다하는 두 단계를 결합하는 것이 핵심입니다.

1단계 — AI 추출: ImageToTable.ai와 같은 템플릿이 필요 없는 추출 도구를 사용하십시오(이 도구는 사용자 정의 열 추출을 사용합니다: 원하는 열 이름을 입력하면 AI가 위치가 아닌 의미를 기준으로 값을 찾습니다). 이는 OCR이나 템플릿 기반 도구보다 문서 변동을 더 잘 처리합니다. AI는 병합된 영역 내의 텍스트를 포함하여 테이블의 모든 값을 읽습니다. 그러나 병합된 셀 계층 구조를 평평한 그리드로 재구성하여 빈칸 없이 만들 수는 없습니다. 이는 AI의 한계가 아니라 평면 그리드 형식의 한계입니다.

2단계 — 엑셀 후처리: 행 병합의 경우 근본 원인 1의 병합 해제 및 채우기 기법을 적용하십시오. 열 병합의 경우 수동으로 헤더를 재구성하십시오(근본 원인 2). 중첩 병합의 경우 이중 패스 접근 방식을 사용하십시오(근본 원인 3). 계단형 병합의 경우 추출 전에 원본 문서를 단순화하십시오.

이 워크플로 — AI가 콘텐츠를 읽고, 엑셀이 구조를 복구 — 는 병합된 셀 시나리오의 약 90%를 5~15분 내에 처리합니다. 나머지 10%(계단형 패턴)는 레거시 내부 스프레드시트 외에는 드뭅니다.

자주 묻는 질문

추출한 표에 빈 셀이 있는 이유는 무엇인가요?

가장 흔한 원인은 행 병합 셀입니다. 도구가 병합된 값을 범위의 첫 번째 셀에서만 찾고 나머지는 비워둡니다. 엑셀에서 병합 해제 후 채우기 기능을 사용하면 30초 안에 해결할 수 있습니다.

AI가 병합 셀을 완벽하게 처리할 수 있나요?

아직은 아닙니다. ImageToTable.ai 같은 AI 기반 도구는 병합 영역 내 텍스트를 정확히 읽지만, 병합이 여러 차원에 걸쳐 있을 때 완벽한 평면 그리드를 재구성하지는 못합니다. 평면 그리드 형식은 병합 셀과 근본적으로 호환되지 않습니다. 엑셀에서의 후처리는 당분간 여전히 필요합니다.

표에 계단식 병합이 있는지 어떻게 알 수 있나요?

원본 문서를 열고 병합 경계를 시각적으로 추적해 보세요. 셀이 불규칙하게 겹치는 지그재그나 대각선 패턴이 보이면 계단식 병합입니다. 전문 보고서에서는 드물지만, 데이터 처리보다 인쇄용으로 만들어진 레거시 엑셀 파일에서 흔히 볼 수 있습니다.

원본 문서에서 병합 셀을 피할 방법이 있나요?

원본 문서 작성을 통제할 수 있다면 병합 셀을 아예 사용하지 마세요. 시각적 확장을 위해 셀 병합 대신 선택 영역 가운데 맞춤을 사용하세요. 보고 도구의 PDF에서는 머리글을 병합하지 않고 반복하도록 출력을 설정하세요. 이렇게 하면 문제의 원천을 차단할 수 있습니다.

Google Sheets 애드온은 병합 셀을 다르게 처리하나요?

ImageToTable.ai용 Google Sheets 애드온은 웹 앱과 동일한 엔진을 사용합니다. 병합 영역의 값을 정확히 추출하지만, 행 병합 값을 아래로 채워야 하는 빈 셀은 여전히 출력에 남습니다. Google Sheets의 빈 셀 채우기 단축키(Ctrl+Enter)를 사용하여 동일한 병합 해제 후 채우기 후처리를 적용하면 됩니다.

시각적 레이아웃과 구조화된 데이터 사이의 격차가 바로 병합된 셀이 피해를 입히는 지점입니다. 템플릿이 필요 없는 AI 도구는 값을 정확히 가져옵니다. 2분의 후처리 과정으로 그리드를 수정합니다. 이 둘을 함께 사용하면 특정 도구의 테이블 모델에 대한 전문가가 되지 않고도 병합된 셀 사례의 90%를 처리할 수 있습니다.

문서에서 표 추출 사용해보기

가입 불필요 · 신용카드 불필요 · 10초 내 결과 확인

📮 contact email: [email protected]