Ir para o conteúdo
Ztract

Envio de documentos

O que o Ztract aceita, qual o tamanho que os arquivos podem ter e como o motor lida com falhas para você não pagar por páginas que ele não conseguiu ler.

Atualizado:

Formatos de arquivo suportados

O Ztract lê os seguintes tipos de arquivo:

CategoriaFormatos
DocumentosPDF, OFD
OfficeWord (.doc / .docx), Excel (.xls / .xlsx), PowerPoint (.ppt / .pptx)
Baseados em textoHTML (incluindo .mhtml), TXT, CSV, RTF
ImagensJPG / JPEG, PNG, WebP, TIFF, BMP

PDFs podem ser digitais (texto vetorial) ou escaneados (baseados em imagem); ambos funcionam. Fotos de celular de documentos físicos também funcionam, com a ressalva de que tomadas com baixo contraste ou muito enviesadas podem produzir confiança menor em campos individuais.

O motor não lê HEIC, arquivos ZIP nem arquivos de e-mail (.eml) na versão atual. Se você tem um fluxo que precisa de um desses, envie um e-mail — a gente acompanha a demanda por novos formatos.

Limites de tamanho

  • Por arquivo: até 500 MB

Arquivos acima do limite são rejeitados no envio. Para PDFs realmente grandes, você pode dividi-los na ferramenta de PDF que preferir e enviar os pedaços como arquivos separados no mesmo projeto.

Arquivo único vs. envio em lote

Arraste um arquivo por vez, ou solte uma pasta / múltipla seleção. O dashboard processa cada arquivo em paralelo conforme a banda permite e mostra o progresso por documento. Não há limite de quantos arquivos você pode enfileirar em um lote — já vimos contas mandarem milhares de notas fiscais em uma única sessão sem problema.

Para lotes muito grandes (10.000+ arquivos), envie em grupos menores para o dashboard se manter responsivo. Estamos trabalhando em um caminho de envio em massa que lida com dezenas de milhares por sessão — até isso entrar no ar, lotes de alguns milhares funcionam sem dificuldade.

O que acontece durante o processamento

  1. O arquivo é enviado para o armazenamento de objetos do Ztract.
  2. O motor determina como ler o arquivo (PDF digital, imagem escaneada, Office etc.) e roteia de acordo.
  3. A página é analisada e o esquema é aplicado. Bounding boxes são capturadas para cada valor extraído.
  4. O resultado cai no seu projeto — normalmente alguns segundos para um documento de uma página, mais tempo para arquivos com várias páginas ou escaneados.

Você não precisa esperar um único documento — comece a revisar o primeiro assim que ele terminar; os demais podem terminar em segundo plano.

Extração por documento vs. por página

A maioria dos esquemas trata cada documento como uma unidade única: um documento = uma extração com um conjunto de campos. É isso que o Ztract faz por padrão, e é o modo certo para notas fiscais, recibos, contratos, identidades e a maior parte dos outros formulários.

Para documentos em que cada página é um registro independente — pense num extrato bancário de várias páginas em que cada página é a sua própria tabela de transações, ou uma pilha de recibos escaneada num único PDF — o Ztract pode extrair por página. Cada página vira a sua própria linha na visão de dados extraídos, e cada página é contada e cobrada como sua própria extração.

A escolha é feita por esquema, definida quando você cria o projeto a partir de um documento de exemplo. O diálogo de envio do exemplo pergunta qual modo combina antes de construir o esquema.

Filtrando a lista de documentos

A aba Documentos do projeto traz dois filtros no topo:

  • Status — pendente, processando, sucesso, falhou, parcial. Útil quando você fez um envio grande em lote e quer encontrar as falhas, ou quando está esperando as últimas terminarem.
  • Atualização do esquema — mostre apenas documentos cuja extração ainda corresponde ao esquema atual do projeto, ou apenas aqueles marcados como Esquema atualizado (extraídos antes de o esquema mudar, candidatos a reextração). Veja Revisar e corrigir.

Quando uma página não pode ser lida

Às vezes uma página não pode ser processada. Os motivos mais comuns:

  • O arquivo está corrompido ou protegido por senha.
  • O formato é suportado, mas o motor não conseguiu abrir esse arquivo específico (por exemplo, um TIFF com uma compressão incomum).
  • Ocorreu um erro interno.

Quando isso acontece, a página é reembolsada para o seu pacote — você só paga por extrações que produziram resultado. O dashboard marca a página que falhou com o motivo da falha para você decidir se quer reenviar depois de consertar a origem.

Este é um dos poucos lugares em que a nossa cobrança difere da maioria dos produtos de OCR: a maioria cobra independentemente de ter produzido saída útil. A gente não.

O que conta como uma página

Um lembrete rápido, detalhado na página de Cobrança:

  • Um arquivo PDF ou Office: uma página por página da origem.
  • Um arquivo de imagem ou baseado em texto: normalmente uma página — embora arquivos muito grandes possam ser divididos pelo sistema em várias páginas.
  • Reexecutar o mesmo documento com um esquema ajustado: conta como uma nova extração. Planeje seu esquema antes de processar volume.

Dicas práticas

  • Para melhor precisão em um documento escaneado, use o PDF original se você tiver. Texto vetorial é lido com mais confiabilidade do que texto rasterizado.
  • Para fotos de celular, garanta que o documento esteja plano, totalmente enquadrado e com iluminação razoável. Reflexo de laminação brilhante pode ser tratado, mas reduz a confiança.
  • Para PDFs muito longos (100+ páginas), considere se você realmente precisa de todas as páginas. Dividir um anexo jurídico de 500 páginas nas 30 páginas que contêm os dados sai mais barato.
  • Para documentos em vários idiomas, não tem configuração especial — o motor lida com páginas que misturam escritas Latina, CJK, Cirílica e Árabe.

← Voltar para toda a documentação