¿Por qué mi extracción por lotes omitió la mitad de los archivos? Modos de fallo comunes

Subiste 30 archivos. Solo 22 aparecieron en la hoja de cálculo. Sin mensaje de error, sin advertencia — solo la mitad de tus datos, desaparecidos. Esto es lo que pasó, en orden de probabilidad.

Lo inquietante no son los 8 archivos que no llegaron. Es el silencio que los rodea. Una herramienta de procesamiento por lotes que mostraba marcas verdes en toda la tabla, una descarga que parecía completa, y solo después — al intentar cotejar las filas con los originales — se reveló la brecha. Este patrón es más común de lo que la mayoría de los usuarios cree, y casi nunca es aleatorio. Los archivos no desaparecen sin dejar rastro. Fallan en etapas específicas del proceso, y cada modo de fallo deja una huella.

Este artículo recorre las tres etapas donde los archivos pueden perderse — carga, procesamiento y fusión de salida — en orden de probabilidad de ser el culpable. Al final, tendrás un marco de diagnóstico y una lista de verificación previa a la carga para detectar las causas más comunes antes de que se lleven otros 8 archivos de tu próximo lote.

Etapa 1: El archivo nunca superó la carga

Esta es la causa más común de archivos faltantes y también la más fácil de pasar por alto porque la barra de progreso de carga avanza sin problemas; solo deja de contar antes de que los archivos problemáticos entren en la cola. La herramienta registró estos archivos como "intentados" en lugar de "cargados" y, sin un registro de errores por archivo, la omisión pasa desapercibida.

Formato de archivo no compatible

No todos los formatos de imagen y documento son iguales. La mayoría de las herramientas de extracción con IA — incluido ImageToTable.ai — admiten PDF, JPG, PNG, WebP y AVIF. Pero si tu lote contiene un archivo TIFF, una foto HEIC de un iPhone o una captura BMP de un sistema antiguo, el gestor de carga puede simplemente omitirlo. TIFF es un infractor común: muchos escáneres aún usan TIFF multipágina por defecto y, aunque TIFF es un contenedor de imágenes válido, no está en la lista de entrada de la mayoría de las herramientas de extracción. El archivo parece cargarse (el navegador lo envía), pero el proceso de extracción nunca lo recoge.

Cómo verificarlo: Ordena tu carpeta de origen por extensión de archivo antes de cargar. Si ves .tiff, .heic, .bmp o .svg, conviértelos primero a JPG o PNG. La mayoría de los sistemas operativos pueden convertir en lote desde el Explorador de archivos o Finder. Un paso de conversión de 30 segundos ahorra horas de confusión posterior.

TIFF es el formato no compatible más común que interrumpe el procesamiento por lotes. Si tu escáner usa TIFF por defecto, cambia la configuración de salida a JPEG o PDF antes de escanear el siguiente lote.

Archivos corruptos o incompletos

Un archivo que se abre bien en tu máquina puede fallar en la verificación de integridad de carga. El PDF puede tener una última página truncada por una descarga interrumpida desde la nube. La imagen puede tener un encabezado EXIF corrupto por una escritura fallida de la cámara. Un archivo que "se ve bien" en la vista previa (porque el sistema operativo muestra una miniatura en caché) puede fallar cuando la herramienta de extracción intenta leer sus bytes.

Esto es especialmente común con archivos descargados de archivos adjuntos de correo electrónico o enlaces de almacenamiento en la nube. El archivo se abre, el contenido se ve bien, pero el binario no está intacto. Las herramientas de extracción, a diferencia de los humanos que leen una vista previa, leen los bytes, y los bytes rotos producen resultados vacíos.

Cómo verificarlo: Intenta abrir cada archivo sospechoso y volver a guardarlo. En Adobe Acrobat, usa "Archivo → Guardar como → PDF optimizado" para eliminar la corrupción latente. Para imágenes, un nuevo guardado rápido en cualquier editor de fotos suele resolver los problemas de encabezado.

Límites de tamaño de archivo

La mayoría de las herramientas de extracción limitan el tamaño de archivos individuales. En ImageToTable.ai, el límite de subida estándar cubre documentos de oficina típicos, pero un PDF escaneado de 200 páginas o una foto de factura de alta resolución tomada a 48 megapíxeles puede superarlo. La herramienta no siempre rechaza la subida de forma visible: puede aceptar los metadatos del archivo pero omitir el contenido real cuando detecta que se ha superado el umbral de tamaño.

Cómo verificarlo: Revisa tus archivos antes de subirlos. Si algún archivo supera los 30-50 MB, considera dividir PDFs de varias páginas en documentos más pequeños con un divisor de PDF, o reducir la resolución de la imagen antes de subirla. Herramientas como PDFsam o la función "Dividir documento" de Adobe Acrobat lo hacen en segundos.

Caracteres especiales en nombres de archivo

Un modo de fallo poco conocido. Archivos llamados INV-2026-03-15_återbetalning.pdf o 收据-001.jpg o Invoice (final - DO NOT EDIT).pdf — con caracteres no ASCII, símbolos especiales o rutas muy largas — pueden fallar durante el paso de escritura en el servidor. La solicitud de subida se completa, el servidor acepta el flujo del archivo, pero al intentar escribirlo en almacenamiento temporal usando el nombre original, el sistema de archivos rechaza la codificación de caracteres. El archivo se cuenta como "recibido" por la capa HTTP pero nunca llega al disco para procesarse.

Cómo verificarlo: Revisa los nombres de archivo en busca de algo fuera de caracteres alfanuméricos estándar, guiones y guiones bajos. Un cambio de nombre masivo rápido — INV-2026-03-15-reembolso.pdf en lugar del original — elimina esta variable por completo.

Etapa 2: Subido pero Descartado Silenciosamente Durante el Procesamiento

Esta etapa es más difícil de diagnosticar porque la subida confirmó éxito. La herramienta muestra 30 archivos subidos, 30 indicadores verdes. Pero durante la fase de procesamiento — cuando la IA lee cada documento y extrae los datos — los archivos pueden caerse de la cinta transportadora sin activar un estado de error. La interfaz de procesamiento dice "Completado" porque el motor principal terminó su trabajo, pero procesó menos documentos de los que se subieron.

Límites de concurrencia y cola de espera

La extracción por IA es costosa computacionalmente. Cada documento requiere una inferencia del modelo de visión, lo que consume memoria de GPU y rendimiento de API. Para mantener la estabilidad, las herramientas de extracción imponen límites de concurrencia — normalmente de 4 a 8 espacios de procesamiento simultáneos por usuario. Cuando subes 50 archivos, entran en una cola y la herramienta los procesa en tandas: 4 a la vez, luego las siguientes 4, y así sucesivamente.

El problema surge cuando la cola tiene un límite máximo. Algunos sistemas descartan silenciosamente los archivos que exceden la profundidad de la cola. Si tu plan permite 50 archivos por lote pero solo 4 espacios concurrentes, y el motor de procesamiento encuentra un error persistente en uno de los primeros 4 archivos — por ejemplo, un PDF corrupto que bloquea el lector — puede detener toda la tanda el tiempo suficiente para que los archivos restantes en la cola expiren y sean descartados. La interfaz aún muestra "50 subidos, 46 procesados" — pero los 4 faltantes nunca fueron realmente intentados.

Cómo verificarlo: Divide tu carga en lotes más pequeños de 10 a 15 archivos y procésalos secuencialmente. Si un lote específico pierde archivos constantemente mientras que los lotes más pequeños no, la limitación de concurrencia es la culpable. Este comportamiento está documentado en múltiples sistemas de procesamiento por lotes — desde Google Document AI hasta pipelines de OCR autogestionados — donde la brecha entre los conteos de "subidos" y "procesados" es casi siempre un artefacto de la cola.

Tiempos de espera silenciosos en PDFs grandes o complejos

Un PDF con más de 100 páginas o gráficos incrustados complejos puede exceder el tiempo de espera por documento del motor de extracción. A diferencia de un error explícito de tiempo de espera — que te indicaría que el archivo falló — algunos sistemas manejan esto saltándose silenciosamente el archivo y continuando con el siguiente. El trabajo de procesamiento registra el archivo como "completado" porque el controlador de tiempo de espera cerró el hilo correctamente, pero no se generó ningún resultado de extracción.

Esto es especialmente común con PDFs escaneados que son esencialmente 100 imágenes JPEG separadas empaquetadas en un solo archivo. Cada página requiere un pase completo de OCR, y el tiempo acumulado puede superar el umbral de tiempo de espera en la página 70 — después de lo cual el procesador descarta el trabajo acumulado y continúa.

Cómo verificarlo: Sube el archivo problemático individualmente. Si se procesa correctamente como carga independiente pero se omite en modo lote, el tiempo de espera durante la cola del lote es la causa. Para PDFs de varias páginas que excedan las 30 páginas, considera dividirlos en documentos más pequeños antes de la carga por lotes.

Tipos de archivo mixtos con comportamiento diferente

No todos los tipos de archivo se procesan a la misma velocidad. Un lote que combina capturas de pantalla JPG de una sola página con PDFs escaneados de 50 páginas crea un ritmo de procesamiento desigual. Los JPG ligeros terminan rápido, mientras que los PDFs pesados consumen un tiempo de procesamiento desproporcionado. Si el tiempo de espera del lote se calcula sobre el tiempo total de procesamiento de todos los archivos, los PDFs lentos pueden hacer que los JPG que llegaron después a la cola se descarten, aunque los JPG se habrían procesado bien por sí solos.

Este es un problema a nivel de sistemas que afecta a cualquier herramienta de extracción por lotes, no es una peculiaridad de un producto en particular. La causa subyacente es que los pipelines de procesamiento suelen agrupar archivos de forma heterogénea, pero miden el tiempo de espera de forma homogénea.

Cómo verificarlo: Agrupa los archivos por tipo y tamaño antes de subirlos. Procesa todos los archivos JPG pequeños en un lote y luego maneja los PDFs grandes por separado. Esto aísla los archivos lentos de los rápidos y elimina la contaminación cruzada en la lógica de tiempo de espera.

Etapa 3: Procesados pero perdidos en la fusión

El modo de fallo más raro pero más engañoso. Los 30 archivos se subieron correctamente, los 30 fueron procesados por la IA, los 30 devolvieron resultados de extracción. Pero el resultado final fusionado —la hoja de cálculo única que descargaste— contiene solo 22 filas. Los otros 8 se procesaron como documentos individuales pero nunca se integraron en la exportación unificada.

Estructuras de archivo diferentes que producen filas desalineadas

Cuando ejecutas una extracción por lotes en un conjunto de documentos, el motor de procesamiento por lotes de la herramienta intenta fusionar los resultados en una sola tabla con encabezados de columna consistentes. Esto funciona sin problemas cuando todos los archivos son del mismo tipo —30 facturas, por ejemplo. Pero si tu lote contiene 25 facturas y 5 notas de crédito, las notas de crédito pueden tener campos diferentes (como "Número de Nota de Crédito" en lugar de "Número de Factura"), lo que hace que el algoritmo de fusión cree columnas duplicadas o —en algunas implementaciones— omita filas cuya estructura no coincida con el esquema mayoritario.

Esto no es una pérdida de datos en sentido estricto; la extracción fue exitosa. Pero la lógica de exportación trató estos 8 archivos como valores atípicos estructurales y los excluyó de la tabla unificada para preservar la consistencia de las columnas. La herramienta nunca te lo dijo porque, desde su perspectiva, entregó la fusión más limpia posible.

Cómo verificarlo: Busca diferencias entre tus archivos fuente. Si un subconjunto tiene una orientación de página diferente, un idioma diferente o un tipo de documento fundamentalmente distinto, procesa esos archivos como un lote separado. La definición de "lote" importa: tu flujo de trabajo debe agrupar archivos por similitud estructural, no por conveniencia de carpeta.

Este problema es particularmente común al procesar por lotes documentos similares pero no idénticos, como al extraer tablas de documentos con celdas combinadas o estructuras anidadas, donde el recuento de filas por documento varía de forma impredecible.

Lista de verificación previa a la carga — 30 segundos por lote

La mayoría de los modos de falla anteriores comparten un rasgo común: se pueden detectar antes de la carga con una revisión visual rápida de tu carpeta de origen. Trata esta lista como el filtro entre "listo para procesar" y "iniciar el lote". Lleva menos tiempo que solucionar 8 archivos faltantes después.

Auditoría de formato de archivo — Confirma que cada archivo sea JPG, PNG o PDF. Convierte cualquier TIFF, HEIC, BMP o WebP. Una ordenación rápida por extensión en el Explorador de archivos revela los valores atípicos de inmediato.
Revisión de tamaño de archivo — Verifica si hay archivos de más de 30 MB. Si ves alguno, divídelo o comprímelo.
Limpieza de nombres de archivo — Renombra archivos que contengan caracteres especiales (&, %, #, paréntesis) o letras no ASCII (é, ü, å, 中). Limítate a A-Z, 0-9, guiones y guiones bajos.
Verificación de homogeneidad de tipo — ¿Son todos los archivos del mismo tipo de documento? Si mezclas facturas con notas de crédito, órdenes de compra con recibos de entrega, sepáralos en lotes dedicados.
Prueba puntual con un archivo pesado — Sube tu PDF más grande individualmente y verifica que se procese correctamente. Si se agota el tiempo solo, definitivamente fallará en un lote.
Cordura del tamaño del lote — Si tienes más de 30 archivos, divídelos en lotes más pequeños de 10 a 15. Los lotes más pequeños aíslan problemas y se completan más rápido de principio a fin.

Cuándo escalar — ¿Es esta la herramienta adecuada para tus archivos?

Ser honesto sobre las limitaciones de la herramienta evita frustraciones repetidas. Si pierdes archivos constantemente en varios lotes y la lista de verificación previa a la carga no revela la causa, considera si tu conjunto de documentos tiene características que van en contra de las suposiciones de diseño de la mayoría de las herramientas de extracción.

Las herramientas de extracción por lotes, incluido ImageToTable.ai, están diseñadas para el caso común: documentos de oficina estándar, escaneos limpios y fotos con contenido legible. No están diseñadas para:

Documentos individuales extremadamente grandes — Los PDF de más de 500 páginas pertenecen a un canal de gestión de documentos dedicado, no a una cola de extracción por lotes.
Colecciones altamente heterogéneas — 15 tipos de documentos diferentes en una carpeta llevarán a cualquier motor de fusión al límite. Sepáralos.
PDF cifrados o con gestión de derechos — Los archivos protegidos por contraseña son omitidos por prácticamente todas las herramientas de extracción. Elimina la protección antes de subirlos.
Documentos que necesitan posicionamiento de píxel perfecto — Si tu caso de uso requiere conocer las coordenadas X,Y exactas de cada campo, una herramienta de OCR zonal basada en plantillas puede ser más apropiada que un motor de extracción semántica.

Si tus archivos caen en alguna de estas categorías, la solución no es una mejor resolución de problemas, sino ajustar tu flujo de trabajo para que coincida con el diseño de la herramienta. Eso no es un fallo de la herramienta ni de tu proceso. Es una señal de que las características específicas de tu documento necesitan un enfoque diferente para el proceso de extracción.

Preguntas Frecuentes

¿Por qué mi herramienta de extracción no muestra un error cuando fallan archivos?

La mayoría de las herramientas de extracción reportan a nivel de lote ("30 archivos subidos") en lugar de por archivo. Si un archivo falla durante la subida sin registrarse en la cola de procesamiento, la herramienta no tiene constancia de que estaba destinado a procesarse. La diferencia entre tu recuento mental y el de la herramienta existe en el límite donde la responsabilidad pasa de ti al sistema. Las herramientas que ofrecen seguimiento por archivo son la excepción, no la norma.

¿Puedo recuperar datos de archivos omitidos durante el procesamiento por lotes?

Sí, en la mayoría de los casos. Los archivos que fallan al subirse o procesarse suelen quedar intactos en tu máquina local. Pásalos por la lista de verificación previa a la subida, corrige el problema identificado (conversión de formato, renombrado, división) y procésalos individualmente o en un lote más pequeño.

¿El orden de los archivos en el diálogo de subida afecta qué archivos se omiten?

No en la mayoría de sistemas, pero puede parecerlo. Si subes 30 archivos y la cola los procesa en el orden recibido, los que llegan más tarde tienen más probabilidades de verse afectados por tiempos de espera acumulados. La solución es reducir el tamaño del lote, no reordenar los archivos.

¿Cómo sé si un archivo está dañado antes de subirlo?

Intenta abrirlo en su aplicación nativa: Adobe Acrobat para PDFs, un visor de fotos para imágenes. Si se abre sin advertencias, probablemente esté intacto. Para verificación por lotes, herramientas como pdfinfo (Linux) o la herramienta "Preflight" de Adobe Acrobat pueden escanear múltiples PDFs en busca de integridad estructural. Un reguardado rápido de archivos sospechosos suele resolver daños latentes.

¿Cuál es el número máximo de archivos que debería incluir en un solo lote?

La mayoría de herramientas admiten 30-50 archivos por lote, pero la fiabilidad suele ser máxima con 10-15. Los lotes más pequeños se completan más rápido, facilitan aislar archivos problemáticos y reducen el impacto de la limitación de concurrencia y los tiempos de espera acumulados. El tamaño del lote es una compensación de fiabilidad, no un límite de funcionalidad.

No adivines — diagnostica

Un archivo faltante en una extracción por lotes rara vez es un misterio cuando sabes dónde buscar. Los fallos de carga representan aproximadamente el 60% de los casos: formatos no compatibles, corrupción y problemas con nombres de archivo. Los fallos de procesamiento — caídas de concurrencia, tiempos de espera, conflictos de tipos mixtos — representan otro 30%. Las omisiones de fusión, el modo de fallo más silencioso, constituyen el 10% restante. Cada uno tiene una solución, y la mayoría de esas soluciones toman menos de un minuto en aplicarse.

Los 8 archivos que perdiste en tu último lote casi con certeza siguen en tu máquina, intactos y listos para procesar una vez que identifiques la puerta específica que no pudieron pasar. La diferencia entre "la extracción por lotes omite archivos" y "la extracción por lotes funciona de manera confiable" es saber qué puerta falló y por qué.

Ejecuta la lista de verificación en tu próximo lote. Seguirás teniendo 30 archivos entrando, pero obtendrás 30 filas saliendo.