Ir para o conteúdo
Ztract

Revisar e corrigir

A maior diferença do Ztract para um serviço de OCR comum: cada valor está ancorado à sua origem, o motor te diz em quais campos ele não está seguro, e você pode consertar valores errados sem pagar por uma reexecução.

Atualizado:

Abrindo o visualizador lado a lado

Quando um documento termina de ser processado, clique nele na lista de documentos do projeto. O dashboard abre o visualizador lado a lado: o documento original à esquerda, os campos extraídos à direita. O visualizador é feito para dois gestos que você vai repetir centenas de vezes:

  • Confirmar que um valor bate com o que está na página.
  • Corrigir um que não bate.

Clique num campo, veja a origem

Clique em qualquer campo extraído à direita e a região correspondente acende no documento original à esquerda. Clique numa região do documento e o campo correspondente entra na vista à direita. Isso funciona para tudo — campos escalares, células de itens em uma tabela, chips individuais em um array de múltiplos valores. Cada valor tem um bounding box, e é esse bounding box que ancora o campo à sua origem.

Documentos com várias páginas (como contratos) empilham as páginas de origem verticalmente. Clique num campo que mora na página 6 de um contrato de 7 páginas e o visualizador rola até a página 6 com o valor centralizado. Acabaram as adivinhações de “de onde veio esse número?” durante auditorias ou passagens de bastão.

Revisar e corrigir

Pontuações de confiança por campo

Cada valor extraído vem com uma pontuação de confiança do motor. Valores nos quais o motor tem alta confiança (o nome do fornecedor impresso em corpo 24 no topo da página) ficam sem marcação. Valores nos quais o motor está menos seguro (uma data rabiscada na margem, um número que pode ser 8 ou B) são marcados visualmente para você saber exatamente quais campos verificar.

Isso importa porque o custo de precisão perfeita em cada campo é muito maior do que o custo de pegar os poucos que podem estar errados. Os indicadores de confiança te deixam revisar pontualmente os 5% suspeitos em vez de reler 100% da saída.

Corrigindo um valor errado

Para entrar no modo de edição, clique em Editar no topo do painel Dados extraídos. Cada valor vira um campo de entrada inline. Percorra os campos sinalizados:

  1. Clique no valor do campo.
  2. Digite o correto.
  3. Aperte Enter, ou vá para outro campo.

Quando terminar, clique em Salvar — o botão do painel mostra quantos campos você mexeu, por exemplo “Salvar (3)”. Para sair sem manter as edições, clique em Cancelar.

Três coisas para saber sobre correções:

  • Você não paga por uma reexecução. O motor não é chamado de novo quando você edita um campo; você está atualizando uma camada de sobreposição por documento em cima da extração original. De graça.
  • O bounding box original continua vinculado ao valor corrigido. Se uma pessoa auditora perguntar “de onde veio esse número?”, o visualizador lado a lado ainda aponta para a região certa no documento de origem.
  • As correções são persistentes. Elas sobrevivem a reexportações, edições de esquema e sessões da conta. Você não precisa corrigir o mesmo campo de novo na semana que vem.

Revisar e corrigir

Revertendo uma edição

Campos editados são marcados com um pequeno selo de lápis no painel. Você tem duas formas de voltar atrás:

  • Por campo de nível superior: abra o cabeçalho do campo no painel e clique em Reverter — o valor original do motor volta só para aquele campo.
  • Todas as edições desta extração: clique em Limpar todas as edições no topo do painel.

As duas ações são imediatas; a próxima exportação reflete o resultado.

O que as correções não fazem

Uma correção é uma sobreposição por documento. Ela não:

  • Muda o arquivo de origem do documento (PDFs e imagens são imutáveis no armazenamento).
  • Diz ao motor para fazer algo diferente no próximo documento. Se você fica corrigindo o mesmo campo em vários documentos, a alavanca é o esquema ou a qualidade do documento, não as correções.
  • Dispara uma reexecução da extração. Se você quer uma extração nova com um esquema diferente, veja a próxima seção.

Reexecutando com um esquema diferente

Se você muda o esquema depois que um documento foi processado, a extração existente reflete o esquema antigo. Os documentos afetados são marcados com um selo âmbar Esquema atualizado na lista de documentos, e o diálogo de detalhe adiciona o mesmo aviso no topo para você identificá-los de relance.

Para ter o novo formato, você reexecutaria aquele documento com o esquema novo. Duas opções:

  • Um documento por vez. Abra o menu da linha e escolha Reextrair, ou use a mesma ação de dentro do diálogo de detalhe. O status volta para pendente enquanto o worker pega o documento; o diálogo faz polling e atualiza automaticamente.
  • Todos os documentos desatualizados de uma vez. O botão Reextrair documentos desatualizados no topo da lista de documentos reexecuta todos os documentos sinalizados no projeto. O diálogo te informa o custo em páginas antes de você confirmar.

Reexecuções custam páginas — cada passagem pelo motor desconta páginas na mesma taxa por página da primeira execução. Por isso, a maioria dos times finaliza o esquema em um lote pequeno (digamos, 5 a 10 documentos) antes de processar volume. Acerte os nomes dos campos, o aninhamento e os tipos na amostra, depois aumente o volume.

Páginas que falharam

Se uma página falhou durante a extração inicial, o dashboard mostra a página com o motivo. Você pode:

  • Reenviar a origem se você consertou (por exemplo, removeu a proteção por senha, reexportou o PDF da ferramenta original).
  • Pular se não vale a pena resolver.

Páginas que falharam são reembolsadas para o seu pacote — você não paga por aquilo que o motor não conseguiu ler.

← Voltar para toda a documentação