Envio de documentos

O que o Ztract aceita, qual o tamanho que os arquivos podem ter e como o motor lida com falhas para você não pagar por páginas que ele não conseguiu ler.

Atualizado: 1 de junho de 2026

Formatos de arquivo suportados

O Ztract lê os seguintes tipos de arquivo:

Categoria	Formatos
Documentos	PDF, OFD
Office	Word (`.doc` / `.docx`), Excel (`.xls` / `.xlsx`), PowerPoint (`.ppt` / `.pptx`)
Baseados em texto	HTML (incluindo `.mhtml`), TXT, CSV, RTF
Imagens	JPG / JPEG, PNG, WebP, TIFF, BMP

PDFs podem ser digitais (texto vetorial) ou escaneados (baseados em imagem); ambos funcionam. Fotos de celular de documentos físicos também funcionam, com a ressalva de que tomadas com baixo contraste ou muito enviesadas podem produzir confiança menor em campos individuais.

O motor não lê HEIC, arquivos ZIP nem arquivos de e-mail (.eml) na versão atual. Se você tem um fluxo que precisa de um desses, envie um e-mail — a gente acompanha a demanda por novos formatos.

Limites de tamanho

Por arquivo: até 500 MB

Arquivos acima do limite são rejeitados no envio. Para PDFs realmente grandes, você pode dividi-los na ferramenta de PDF que preferir e enviar os pedaços como arquivos separados no mesmo projeto.

Arquivo único vs. envio em lote

Arraste um arquivo por vez, ou solte uma pasta / múltipla seleção. O dashboard processa cada arquivo em paralelo conforme a banda permite e mostra o progresso por documento. Não há limite de quantos arquivos você pode enfileirar em um lote — já vimos contas mandarem milhares de notas fiscais em uma única sessão sem problema.

Para lotes muito grandes (10.000+ arquivos), envie em grupos menores para o dashboard se manter responsivo. Estamos trabalhando em um caminho de envio em massa que lida com dezenas de milhares por sessão — até isso entrar no ar, lotes de alguns milhares funcionam sem dificuldade.

O que acontece durante o processamento

O arquivo é enviado para o armazenamento de objetos do Ztract.
O motor determina como ler o arquivo (PDF digital, imagem escaneada, Office etc.) e roteia de acordo.
A página é analisada e o esquema é aplicado. Bounding boxes são capturadas para cada valor extraído.
O resultado cai no seu projeto — normalmente alguns segundos para um documento de uma página, mais tempo para arquivos com várias páginas ou escaneados.

Você não precisa esperar um único documento — comece a revisar o primeiro assim que ele terminar; os demais podem terminar em segundo plano.

Extração por documento vs. por página

A maioria dos esquemas trata cada documento como uma unidade única: um documento = uma extração com um conjunto de campos. É isso que o Ztract faz por padrão, e é o modo certo para notas fiscais, recibos, contratos, identidades e a maior parte dos outros formulários.

Para documentos em que cada página é um registro independente — pense num extrato bancário de várias páginas em que cada página é a sua própria tabela de transações, ou uma pilha de recibos escaneada num único PDF — o Ztract pode extrair por página. Cada página vira a sua própria linha na visão de dados extraídos, e cada página é contada e cobrada como sua própria extração.

A escolha é feita por esquema, definida quando você cria o projeto a partir de um documento de exemplo. O diálogo de envio do exemplo pergunta qual modo combina antes de construir o esquema.

Filtrando a lista de documentos

A aba Documentos do projeto traz dois filtros no topo:

Status — pendente, processando, sucesso, falhou, parcial. Útil quando você fez um envio grande em lote e quer encontrar as falhas, ou quando está esperando as últimas terminarem.
Atualização do esquema — mostre apenas documentos cuja extração ainda corresponde ao esquema atual do projeto, ou apenas aqueles marcados como Esquema atualizado (extraídos antes de o esquema mudar, candidatos a reextração). Veja Revisar e corrigir.

Quando uma página não pode ser lida

Às vezes uma página não pode ser processada. Os motivos mais comuns:

O arquivo está corrompido ou protegido por senha.
O formato é suportado, mas o motor não conseguiu abrir esse arquivo específico (por exemplo, um TIFF com uma compressão incomum).
Ocorreu um erro interno.

Quando isso acontece, a página é reembolsada para o seu pacote — você só paga por extrações que produziram resultado. O dashboard marca a página que falhou com o motivo da falha para você decidir se quer reenviar depois de consertar a origem.

Este é um dos poucos lugares em que a nossa cobrança difere da maioria dos produtos de OCR: a maioria cobra independentemente de ter produzido saída útil. A gente não.

O que conta como uma página

Um lembrete rápido, detalhado na página de Cobrança:

Um arquivo PDF ou Office: uma página por página da origem.
Um arquivo de imagem ou baseado em texto: normalmente uma página — embora arquivos muito grandes possam ser divididos pelo sistema em várias páginas.
Reexecutar o mesmo documento com um esquema ajustado: conta como uma nova extração. Planeje seu esquema antes de processar volume.

Dicas práticas

Para melhor precisão em um documento escaneado, use o PDF original se você tiver. Texto vetorial é lido com mais confiabilidade do que texto rasterizado.
Para fotos de celular, garanta que o documento esteja plano, totalmente enquadrado e com iluminação razoável. Reflexo de laminação brilhante pode ser tratado, mas reduz a confiança.
Para PDFs muito longos (100+ páginas), considere se você realmente precisa de todas as páginas. Dividir um anexo jurídico de 500 páginas nas 30 páginas que contêm os dados sai mais barato.
Para documentos em vários idiomas, não tem configuração especial — o motor lida com páginas que misturam escritas Latina, CJK, Cirílica e Árabe.

← Voltar para toda a documentação