Subir documentos
Qué acepta Ztract, hasta qué tamaño pueden llegar los archivos y cómo el motor gestiona los fallos para que no pagues por las páginas que no pudo leer.
Actualizado:
Formatos de archivo admitidos
Ztract lee los siguientes tipos de archivo:
| Categoría | Formatos |
|---|---|
| Documentos | PDF, OFD |
| Office | Word (.doc / .docx), Excel (.xls / .xlsx), PowerPoint (.ppt / .pptx) |
| Basados en texto | HTML (incluido .mhtml), TXT, CSV, RTF |
| Imágenes | JPG / JPEG, PNG, WebP, TIFF, BMP |
Los PDF pueden ser digitales (texto vectorial) o escaneados (basados en imagen); ambos funcionan. Las fotos de móvil de documentos físicos también funcionan, con la salvedad de que las tomas con poco contraste o muy inclinadas pueden producir una confianza menor en algunos campos individuales.
El motor no lee HEIC, archivos ZIP ni archivos de correo
(.eml) en la versión actual. Si tienes un flujo de trabajo que
necesita alguno de estos, escríbenos —
hacemos seguimiento de la demanda de nuevos formatos.
Límites de tamaño
- Por archivo: hasta 500 MB
Los archivos que superan el límite se rechazan al subirlos. Para PDF realmente grandes, puedes dividirlos en la herramienta de PDF que prefieras y subir los fragmentos como archivos independientes dentro del mismo proyecto.
Archivo único frente a subida por lotes
Arrastra un archivo a la vez, o suelta una carpeta o una selección múltiple. El dashboard procesa cada archivo en paralelo según el ancho de banda lo permita y muestra el progreso por documento. No hay tope en cuántos archivos puedes encolar en un lote — hemos visto cuentas subir miles de facturas en una sola sesión sin problemas.
Para lotes muy grandes (10.000+ archivos), súbelos en grupos más pequeños para que el dashboard se mantenga ágil. Estamos trabajando en una vía de subida masiva que gestione decenas de miles por sesión — hasta que se lance, los lotes de unos pocos miles funcionan sin contratiempos.
Qué pasa durante el procesamiento
- El archivo se sube al almacenamiento de objetos de Ztract.
- El motor determina cómo leer el archivo (PDF digital, imagen escaneada, Office, etc.) y lo enruta en consecuencia.
- La página se analiza y se aplica el esquema. Se capturan los bounding boxes de cada valor extraído.
- El resultado aparece en tu proyecto — habitualmente unos pocos segundos para un documento de una página, más para archivos de varias páginas o escaneados.
No necesitas esperar a que termine un único documento — empieza a revisar el primero en cuanto esté listo; los siguientes pueden terminar en segundo plano.
Extracción por documento frente a por página
La mayoría de los esquemas tratan cada documento como una sola unidad: un documento = una extracción con un único conjunto de campos. Eso es lo que Ztract hace por defecto, y es el modo correcto para facturas, recibos, contratos, documentos de identidad y casi todos los demás formularios.
Para documentos en los que cada página es un registro independiente — piensa en un extracto bancario de varias páginas donde cada página es su propia tabla de transacciones, o un montón de recibos escaneados en un único PDF — Ztract puede extraer por página en su lugar. Cada página pasa a ser su propia fila en la vista de datos extraídos, y cada página se cuenta y factura como su propia extracción.
La elección se hace por esquema, al crear el proyecto a partir de un documento de ejemplo. El diálogo de subida del ejemplo te pregunta qué modo encaja antes de construir el esquema.
Filtrar la lista de documentos
La pestaña Documentos del proyecto incluye dos filtros en la parte superior:
- Estado — pendiente, procesando, éxito, fallido, parcial. Útil cuando has hecho una subida en lote grande y quieres encontrar los fallos, o cuando estás esperando a que terminen los últimos.
- Vigencia del esquema — muestra solo los documentos cuya
extracción todavía coincide con el esquema actual del proyecto, o
solo los marcados como
Esquema actualizado(extraídos antes de que cambiara el esquema, candidatos a reejecución). Consulta Revisar y corregir.
Cuando una página no se puede leer
A veces una página no se puede procesar. Las razones más habituales:
- El archivo está corrupto o protegido por contraseña.
- El formato es compatible pero el motor no pudo abrir este archivo en concreto (por ejemplo, un TIFF con una compresión poco habitual).
- Se produjo un error interno.
Cuando ocurre, la página se reembolsa a tu paquete — solo pagas por las extracciones que produjeron un resultado. El dashboard marca la página fallida con el motivo del fallo para que decidas si vuelves a subirla tras arreglar el origen.
Este es uno de los pocos sitios donde nuestra facturación se diferencia de la mayoría de productos de OCR: la mayoría cobra independientemente de si obtuvieron un resultado útil. Nosotros no.
Qué cuenta como una página
Un recordatorio rápido, tratado en detalle en la página de Facturación:
- Un PDF o archivo de Office: una página por cada página del origen.
- Una imagen o un archivo basado en texto: normalmente una página — aunque los archivos muy grandes pueden ser divididos por el sistema en varias páginas.
- Volver a ejecutar el mismo documento con un esquema retocado: cuenta como una nueva extracción. Planifica tu esquema antes de procesar volumen.
Consejos prácticos
- Para mayor precisión en un documento escaneado, usa el PDF original si lo tienes. El texto vectorial se lee con más fiabilidad que el texto rasterizado.
- Para fotos de móvil, asegúrate de que el documento esté plano, completamente encuadrado y razonablemente iluminado. Los reflejos de un plastificado brillante se pueden manejar pero reducen la confianza.
- Para PDF muy largos (100+ páginas), valora si de verdad necesitas todas las páginas. Dividir un anexo legal de 500 páginas en las 30 páginas que contienen los datos sale más barato.
- Para documentos multilingües, no hace falta configuración especial — el motor gestiona páginas que mezclan escrituras latina, CJK, cirílica y árabe.