Envio de documentos
O que o Ztract aceita, qual o tamanho que os arquivos podem ter e como o motor lida com falhas para você não pagar por páginas que ele não conseguiu ler.
Atualizado:
Formatos de arquivo suportados
O Ztract lê os seguintes tipos de arquivo:
| Categoria | Formatos |
|---|---|
| Documentos | PDF, OFD |
| Office | Word (.doc / .docx), Excel (.xls / .xlsx), PowerPoint (.ppt / .pptx) |
| Baseados em texto | HTML (incluindo .mhtml), TXT, CSV, RTF |
| Imagens | JPG / JPEG, PNG, WebP, TIFF, BMP |
PDFs podem ser digitais (texto vetorial) ou escaneados (baseados em imagem); ambos funcionam. Fotos de celular de documentos físicos também funcionam, com a ressalva de que tomadas com baixo contraste ou muito enviesadas podem produzir confiança menor em campos individuais.
O motor não lê HEIC, arquivos ZIP nem arquivos de e-mail
(.eml) na versão atual. Se você tem um fluxo que precisa de um
desses, envie um e-mail —
a gente acompanha a demanda por novos formatos.
Limites de tamanho
- Por arquivo: até 500 MB
Arquivos acima do limite são rejeitados no envio. Para PDFs realmente grandes, você pode dividi-los na ferramenta de PDF que preferir e enviar os pedaços como arquivos separados no mesmo projeto.
Arquivo único vs. envio em lote
Arraste um arquivo por vez, ou solte uma pasta / múltipla seleção. O dashboard processa cada arquivo em paralelo conforme a banda permite e mostra o progresso por documento. Não há limite de quantos arquivos você pode enfileirar em um lote — já vimos contas mandarem milhares de notas fiscais em uma única sessão sem problema.
Para lotes muito grandes (10.000+ arquivos), envie em grupos menores para o dashboard se manter responsivo. Estamos trabalhando em um caminho de envio em massa que lida com dezenas de milhares por sessão — até isso entrar no ar, lotes de alguns milhares funcionam sem dificuldade.
O que acontece durante o processamento
- O arquivo é enviado para o armazenamento de objetos do Ztract.
- O motor determina como ler o arquivo (PDF digital, imagem escaneada, Office etc.) e roteia de acordo.
- A página é analisada e o esquema é aplicado. Bounding boxes são capturadas para cada valor extraído.
- O resultado cai no seu projeto — normalmente alguns segundos para um documento de uma página, mais tempo para arquivos com várias páginas ou escaneados.
Você não precisa esperar um único documento — comece a revisar o primeiro assim que ele terminar; os demais podem terminar em segundo plano.
Extração por documento vs. por página
A maioria dos esquemas trata cada documento como uma unidade única: um documento = uma extração com um conjunto de campos. É isso que o Ztract faz por padrão, e é o modo certo para notas fiscais, recibos, contratos, identidades e a maior parte dos outros formulários.
Para documentos em que cada página é um registro independente — pense num extrato bancário de várias páginas em que cada página é a sua própria tabela de transações, ou uma pilha de recibos escaneada num único PDF — o Ztract pode extrair por página. Cada página vira a sua própria linha na visão de dados extraídos, e cada página é contada e cobrada como sua própria extração.
A escolha é feita por esquema, definida quando você cria o projeto a partir de um documento de exemplo. O diálogo de envio do exemplo pergunta qual modo combina antes de construir o esquema.
Filtrando a lista de documentos
A aba Documentos do projeto traz dois filtros no topo:
- Status — pendente, processando, sucesso, falhou, parcial. Útil quando você fez um envio grande em lote e quer encontrar as falhas, ou quando está esperando as últimas terminarem.
- Atualização do esquema — mostre apenas documentos cuja
extração ainda corresponde ao esquema atual do projeto, ou apenas
aqueles marcados como
Esquema atualizado(extraídos antes de o esquema mudar, candidatos a reextração). Veja Revisar e corrigir.
Quando uma página não pode ser lida
Às vezes uma página não pode ser processada. Os motivos mais comuns:
- O arquivo está corrompido ou protegido por senha.
- O formato é suportado, mas o motor não conseguiu abrir esse arquivo específico (por exemplo, um TIFF com uma compressão incomum).
- Ocorreu um erro interno.
Quando isso acontece, a página é reembolsada para o seu pacote — você só paga por extrações que produziram resultado. O dashboard marca a página que falhou com o motivo da falha para você decidir se quer reenviar depois de consertar a origem.
Este é um dos poucos lugares em que a nossa cobrança difere da maioria dos produtos de OCR: a maioria cobra independentemente de ter produzido saída útil. A gente não.
O que conta como uma página
Um lembrete rápido, detalhado na página de Cobrança:
- Um arquivo PDF ou Office: uma página por página da origem.
- Um arquivo de imagem ou baseado em texto: normalmente uma página — embora arquivos muito grandes possam ser divididos pelo sistema em várias páginas.
- Reexecutar o mesmo documento com um esquema ajustado: conta como uma nova extração. Planeje seu esquema antes de processar volume.
Dicas práticas
- Para melhor precisão em um documento escaneado, use o PDF original se você tiver. Texto vetorial é lido com mais confiabilidade do que texto rasterizado.
- Para fotos de celular, garanta que o documento esteja plano, totalmente enquadrado e com iluminação razoável. Reflexo de laminação brilhante pode ser tratado, mas reduz a confiança.
- Para PDFs muito longos (100+ páginas), considere se você realmente precisa de todas as páginas. Dividir um anexo jurídico de 500 páginas nas 30 páginas que contêm os dados sai mais barato.
- Para documentos em vários idiomas, não tem configuração especial — o motor lida com páginas que misturam escritas Latina, CJK, Cirílica e Árabe.