Aller au contenu
Ztract

Comment extraire les données de factures vers Excel — quelle que soit la mise en page

Chaque fournisseur envoie ses factures dans une mise en page différente, et c'est précisément ce qui rend leur saisie dans un tableur si pénible. Voici comment récupérer le numéro de facture, les dates, les totaux et les lignes de détail dans un Excel, un CSV ou un JSON propre — quelle que soit la mise en page, sans construire un modèle par fournisseur.

L'équipe Ztract 7 min read
  • tutorial
  • invoices
Une facture posée sur un bureau à côté d'un ordinateur portable et d'une calculatrice — la paperasse des comptes fournisseurs qui finit ressaisie à la main dans un tableur.

Si votre boîte de réception se remplit de factures fournisseurs chaque mois, vous connaissez déjà le refrain : ouvrir chaque PDF, repérer le numéro de facture, la date, le total, recopier chaque ligne de détail, puis tout saisir dans un tableur. Et recommencer pour le fournisseur suivant — dont la facture ne ressemble en rien à la précédente.

C’est cette dernière partie qui pose vraiment problème. Ce n’est pas le volume de factures ; c’est qu’aucun fournisseur ne les présente de la même façon. Le total se trouve à un autre endroit, les dates suivent un autre format, le tableau des lignes de détail comporte d’autres colonnes. Un humain s’adapte à chacune sans même y penser. La plupart des logiciels, non — et c’est pourquoi tant d’équipes baissent les bras et ressaisissent tout à la main.

Cet article explique comment faire sortir les données de vos factures dans un Excel, un CSV ou un JSON propre — quelle que soit la mise en page — sans construire ni maintenir un modèle distinct pour chaque fournisseur.

Pourquoi les factures sont plus difficiles à extraire qu’il n’y paraît

Un modèle de facture unique et figé, c’est facile. Le souci, c’est que vous n’en avez presque jamais qu’un seul. Quelques raisons pour lesquelles les factures résistent à une extraction propre :

  • La mise en page de chaque fournisseur est différente. Il n’existe aucune norme du secteur indiquant où placer le numéro de facture, l’adresse de facturation ou les totaux. Le modèle que vous configurez pour un fournisseur s’effondre dès qu’un nouveau fournisseur envoie sa première facture.
  • « Le montant » est ambigu. Une seule facture porte un sous-total, une taxe, des frais de port, un total avant remise et un montant final dû — souvent empilés juste les uns à côté des autres. Demandez « le montant » sans préciser lequel, et vous obtiendrez celui que le moteur aura deviné.
  • Les lignes de détail forment une liste, pas une valeur. Chaque facture a un seul numéro de facture mais plusieurs lignes de détail, chacune avec sa propre description, sa quantité, son prix unitaire et son total de ligne. Aplatissez tout cela de travers et vous obtiendrez un fouillis là où vous vouliez des lignes propres.
  • PDF, scan ou photo. Une facture envoyée par e-mail au format PDF, c’est du texte propre. La même facture scannée à l’accueil ou photographiée avec un téléphone est une image — il vous faut désormais de l’OCR avant de pouvoir extraire quoi que ce soit, et l’OCR apporte ses propres erreurs.

Tout outil qui prétend « simplement extraire les factures » doit avoir une réponse à tout cela. La frustration de la saisie manuelle vit dans cette variété, pas dans une facture isolée.

Les approches courantes, et le point où chacune cesse de fonctionner

Il n’existe pas d’outil idéal unique — tout dépend du nombre de fournisseurs auxquels vous avez affaire et de la régularité de leurs mises en page.

La saisie à la main. Aucune configuration, fiable si vous êtes soigneux, et totalement impossible à mettre à l’échelle. Parfait pour une poignée de factures par mois ; rédhibitoire dès que vous en traitez des dizaines provenant de nombreux fournisseurs.

Les analyseurs basés sur des modèles. Vous définissez, une fois pour toutes, l’emplacement de chaque champ sur la page. Rapide et économique si toutes les factures sont identiques. Mais comme chaque fournisseur diffère, vous finissez par construire et maintenir un modèle par fournisseur — et à le reconstruire le jour où un fournisseur retouche sa mise en page. Avec trois ou quatre fournisseurs réguliers, c’est gérable. Avec une longue liste de fournisseurs qui évolue, le coût de configuration mange le temps gagné.

L’extraction en langage naturel. Au lieu de marquer des positions, vous décrivez les champs souhaités en langage courant et le moteur s’adapte à chaque mise en page. Cela règle directement le problème du « chaque fournisseur est différent », et c’est bien plus tolérant face aux scans et aux formatages atypiques. La contrepartie, c’est que vous voulez un outil qui vous permet de vérifier le résultat — parce que vous faites confiance à un modèle pour lire la page, et non à une coordonnée figée.

C’est dans cette dernière catégorie que se situe Ztract, alors voyons cela concrètement.

Pas à pas : de la facture à Excel dans Ztract

Voici le flux complet — le même que vous traitiez une seule facture ou un dossier de cinquante factures provenant d’une douzaine de fournisseurs différents.

1. Créez un projet et décrivez ce que vous voulez

Un projet n’est qu’un conteneur pour des documents liés et le schéma que vous allez leur appliquer. Pour les factures, vous avez trois façons de définir ce schéma :

  • Partez du schéma de facture prêt à l’emploi et ajustez-le. C’est le démarrage le plus rapide — il connaît déjà les numéros de facture, les dates, les coordonnées du fournisseur, les totaux et les lignes de détail.

  • Décrivez les champs en langage courant. Par exemple :

    « Pour chaque facture, extrais le numéro de facture, la date d’émission, le nom du fournisseur et le montant total dû (après taxes et remises). Puis, pour chaque ligne de détail, extrais la description, la quantité, le prix unitaire et le total de ligne. Si un champ est absent, laisse-le vide plutôt que de deviner. »

    Remarquez deux choses dans cet exemple. « Le montant total dû (après taxes et remises) » indique au moteur exactement lequel des différents montants vous voulez dire. Et « pour chaque ligne de détail » marque les lignes de détail comme une liste répétée, de sorte que vous récupérez des lignes propres au lieu de tout voir tassé dans une seule cellule. Ces deux réflexes constituent l’essentiel de ce qui sépare une sortie de facture fiable d’un fouillis.

  • Déduire à partir d’un échantillon. Déposez une facture représentative et laissez Ztract vous proposer un schéma à partir d’elle. Utile lorsque la facture d’un nouveau fournisseur comporte des champs auxquels vous ne vous attendiez pas.

L’avantage clé : le même schéma fonctionne pour tous les fournisseurs. Vous décrivez les données que vous voulez, et non la position qu’elles occupent — si bien qu’une mise en page que vous n’avez jamais vue est traitée de la même façon qu’une mise en page connue. Pas de modèle par fournisseur.

2. Téléversez les factures

Glissez-déposez vos fichiers — PDF, Word, Excel, scans ou photos prises au téléphone, jusqu’à 500 MB par fichier. Les PDF textuels comme les scans sous forme d’images fonctionnent tous les deux ; les scans passent simplement d’abord par l’OCR. Si les factures d’un mois arrivent sous forme de fichiers distincts provenant de différents fournisseurs, téléversez-les toutes ensemble et le même schéma s’applique à chacune.

3. Vérifiez et corrigez — l’étape qui fait vraiment gagner du temps

Voici ce que les gens sous-estiment : avec les factures, l’extraction n’est pas ce qui prend du temps — c’est la vérification. Si vous ne pouvez pas faire confiance au résultat, vous finissez par relire chaque facture en la confrontant au tableur, et vous n’avez rien gagné.

Ztract est conçu autour de cela. Chaque valeur extraite est ancrée à sa position exacte sur le document source : cliquez sur un chiffre dans les résultats et il met en surbrillance l’endroit de la facture d’où il provient. C’est cette vue côte à côte qui rend la vérification rapide. Au lieu de revérifier chaque champ, vous repérez d’un coup d’œil ceux qui semblent faux — un total qui a pris le sous-total par erreur, une ligne de détail qui a fusionné deux rangées — et vous les corrigez en un clic.

Et comme nous ne facturons que l’extraction, corriger une valeur ne vous coûte rien. L’édition qui suit est gratuite ; seules les pages que vous extrayez sont décomptées de votre pack, pas le nettoyage.

4. Exportez

Une fois que tout semble correct, exportez vers Excel, CSV ou JSON — une seule facture ou l’ensemble du projet d’un coup. De là, le tout s’intègre directement à votre flux de comptes fournisseurs, à l’import de votre logiciel comptable, ou partout où les chiffres doivent ensuite aller.

Les cas qui nécessitent encore un œil humain

Nous préférons vous dire où cela devient délicat plutôt que de prétendre le contraire. Quelques situations à surveiller :

  • Les avoirs et les remboursements. Un avoir ressemble à une facture, mais les montants vont dans l’autre sens. Soyez explicite dans votre schéma sur la manière de traiter les montants négatifs, et vérifiez deux fois le signe à l’étape de vérification.
  • Les fournisseurs multidevises. Si vous achetez auprès de fournisseurs dans différentes devises, saisissez la devise comme un champ à part entière pour chaque facture plutôt que de supposer une devise unique pour tout le lot — sinon un total de « 1 000 » ne vous dit rien.
  • Les scans gravement dégradés. Une facture faxée puis rescannée, à l’impression pâle, est difficile à lire pour n’importe qui, l’OCR compris. Si la source est illisible à vos yeux, attendez-vous à devoir vérifier de plus près — un scan plus net vaut mieux que n’importe quelle quantité de correction après coup.

Si une mise en page que nous devrions gérer revient erronée, nous avons réellement envie de la voir — envoyez un échantillon (anonymisé au besoin) à support@ztract.com et nous creuserons. Les documents que les gens nous envoient sont la façon dont le moteur s’améliore.

Un mot sur les données des fournisseurs

Les factures contiennent des informations commerciales sensibles — qui sont vos fournisseurs, ce que vous payez, vos numéros de compte — alors autant être clairs : nous n’entraînons pas de modèles sur les documents que vous téléversez. Ni notre propre moteur, ni les LLM tiers par lesquels nous transitons ; les API commerciales que nous utilisons interdisent l’entraînement sur les données soumises, et nous nous appuyons sur ces engagements. Lorsque vous supprimez une facture, elle disparaît immédiatement du stockage actif et sous 14 jours des sauvegardes. Le tableau complet figure dans notre Politique de confidentialité et notre Accord de traitement des données.

Essayez sur vos propres factures

La façon la plus rapide de savoir si cela convient à votre flux de travail est de l’essayer sur une poignée de factures réelles que vous saisiriez sinon à la main — idéalement de plusieurs fournisseurs différents, afin de voir le même schéma gérer différentes mises en page. Les nouveaux comptes reçoivent 30 pages gratuites, sans carte bancaire — de quoi extraire un lot de bout en bout et vérifier les totaux vous-même.

Et si vous traitez des factures en volume et que vous accepteriez de partager un retour honnête sur ce qui a fonctionné et ce qui n’a pas fonctionné, contactez-nous — nous accueillons nos premiers utilisateurs et façonnons la suite de ce que nous construisons autour des documents qui posent réellement problème aux gens. Les factures sont tout en haut de cette liste.

Consultez notre page de cas d’usage pour en savoir plus sur l’extraction de données de factures.

← Back to all posts