Aller au contenu
Ztract

Téléverser des documents

Ce que Ztract accepte, la taille maximale des fichiers, et comment le moteur gère les échecs pour que vous ne payiez pas pour des pages qu'il n'a pas pu lire.

Mis à jour:

Formats de fichiers pris en charge

Ztract lit les types de fichiers suivants :

CatégorieFormats
DocumentsPDF, OFD
BureautiqueWord (.doc / .docx), Excel (.xls / .xlsx), PowerPoint (.ppt / .pptx)
TexteHTML (y compris .mhtml), TXT, CSV, RTF
ImagesJPG / JPEG, PNG, WebP, TIFF, BMP

Les PDF peuvent être numériques (texte vectoriel) ou scannés (à base d’images) ; les deux fonctionnent. Les photos de documents physiques prises au téléphone fonctionnent aussi, avec la réserve que des clichés à faible contraste ou fortement inclinés peuvent produire un score de confiance plus bas sur certains champs.

Le moteur ne lit pas les fichiers HEIC, les archives ZIP, ni les fichiers d’e-mail (.eml) dans la version actuelle. Si vous avez un workflow qui en a besoin, écrivez-nous — nous suivons la demande pour de nouveaux formats.

Limites de taille

  • Par fichier : jusqu’à 500 MB

Les fichiers au-delà de la limite sont rejetés au téléversement. Pour de très gros PDF, vous pouvez les découper dans l’outil PDF de votre choix et téléverser les morceaux comme des fichiers distincts dans le même projet.

Fichier unique ou téléversement par lot

Glissez un fichier à la fois, ou déposez un dossier / une sélection multiple. Le tableau de bord traite chaque fichier en parallèle selon la bande passante disponible et affiche la progression par document. Il n’y a aucune limite au nombre de fichiers que vous pouvez mettre en file d’attente dans un lot — nous avons vu des comptes pousser des milliers de factures en une seule session sans difficulté.

Pour les lots très volumineux (10 000+ fichiers), téléversez par groupes plus petits afin que le tableau de bord reste réactif. Nous travaillons sur un chemin de téléversement en masse qui gère des dizaines de milliers de fichiers par session — en attendant, des lots de quelques milliers fonctionnent proprement.

Ce qu’il se passe pendant le traitement

  1. Le fichier est téléversé vers le stockage objet de Ztract.
  2. Le moteur détermine comment lire le fichier (PDF numérique, image scannée, fichier bureautique, etc.) et le route en conséquence.
  3. La page est analysée et le schéma est appliqué. Des zones d’ancrage sont capturées pour chaque valeur extraite.
  4. Le résultat arrive dans votre projet — généralement quelques secondes pour un document d’une page, plus long pour des fichiers multi-pages ou scannés.

Vous n’avez pas besoin d’attendre sur un document — commencez à vérifier le premier dès qu’il est terminé ; les suivants peuvent se finir en arrière-plan.

Extraction par document ou par page

La plupart des schémas traitent chaque document comme une unité unique : un document = une extraction avec un seul jeu de champs. C’est ce que Ztract fait par défaut, et c’est le bon mode pour les factures, les reçus, les contrats, les pièces d’identité et la plupart des autres formulaires.

Pour les documents où chaque page est un enregistrement indépendant — par exemple un relevé bancaire multi-pages où chaque page a son propre tableau de transactions, ou une pile de reçus scannés dans un même PDF — Ztract peut extraire par page. Chaque page devient sa propre ligne dans la vue des données extraites, et chaque page est comptée et facturée comme sa propre extraction.

Le choix se fait par schéma, défini au moment où vous créez le projet à partir d’un document d’exemple. Le dialogue de téléversement de l’exemple vous demande quel mode convient avant de construire le schéma.

Filtrer la liste des documents

L’onglet Documents du projet propose deux filtres en haut :

  • Statut — en attente, en cours, succès, échec, partiel. Utile quand vous avez téléversé un gros lot et voulez repérer les échecs, ou quand vous attendez la fin des derniers documents.
  • Fraîcheur du schéma — n’affichez que les documents dont l’extraction correspond encore au schéma actuel du projet, ou uniquement ceux marqués Schéma mis à jour (extraits avant la modification du schéma, candidats à une ré-extraction). Voir Vérifier et corriger.

Quand une page ne peut pas être lue

Parfois, une page ne peut pas être traitée. Les raisons les plus fréquentes :

  • Le fichier est corrompu ou protégé par un mot de passe.
  • Le format est pris en charge mais le moteur n’a pas pu ouvrir ce fichier précis (par exemple, un TIFF avec une compression inhabituelle).
  • Une erreur interne s’est produite.

Quand cela arrive, la page est recréditée sur votre pack — vous ne payez que pour les extractions qui ont produit un résultat. Le tableau de bord indique sur la page en échec la raison de l’échec, afin que vous décidiez s’il faut la téléverser à nouveau après avoir corrigé la source.

C’est l’un des rares points où notre facturation diffère de la plupart des produits OCR : la plupart facturent indépendamment du fait qu’ils aient produit un résultat utile. Pas nous.

Ce qui compte comme une page

Un rappel rapide, détaillé sur la page Facturation :

  • Un fichier PDF ou bureautique : une page par page de la source.
  • Un fichier image ou texte : généralement une page — bien que les fichiers très volumineux puissent être découpés par le système en plusieurs pages.
  • Relancer le même document avec un schéma modifié : compte comme une nouvelle extraction. Stabilisez votre schéma avant de traiter du volume.

Conseils pratiques

  • Pour une précision optimale sur un document scanné, utilisez le PDF d’origine si vous en disposez. Le texte vectoriel se lit plus fiablement que le texte rastérisé.
  • Pour les photos prises au téléphone, assurez-vous que le document est à plat, entièrement dans le cadre et raisonnablement éclairé. Les reflets sur une plastification brillante peuvent être gérés mais réduisent le score de confiance.
  • Pour les très longs PDF (100+ pages), demandez-vous si vous avez réellement besoin de chaque page. Découper une pièce juridique de 500 pages pour ne garder que les 30 pages qui contiennent les données coûte moins cher.
  • Pour les documents multilingues, aucun réglage particulier — le moteur gère les pages qui mélangent les écritures latine, CJK, cyrillique et arabe.

← Retour à toute la documentation