Zum Inhalt springen
Ztract

So beschreiben Sie ein gutes Extraktionsschema in einfacher Sprache

Das Schema ist einfach eine Beschreibung dessen, was Sie aus einem Dokument herausziehen möchten. Sie müssen dafür keine Syntax lernen — aber ein paar Gewohnheiten machen den Unterschied zwischen Ergebnissen, denen Sie vertrauen, und Ergebnissen, die Sie ständig überwachen müssen. Hier erfahren Sie, wie Sie beschreiben, was Sie wollen, damit das System es gleich beim ersten Mal richtig erfasst.

Das Ztract-Team 7 min read
  • tutorial
  • schema design
Eine Hand, die neben einem Laptop Notizen in ein Notizbuch schreibt — der Akt, in einfachen Worten zu beschreiben, was man aus einem Dokument haben möchte.

Das Erste, was die meisten Menschen in Ztract tun, ist, ein Projekt anzulegen. Das Zweite — und das entscheidet darüber, wie gut Ihre Ergebnisse werden — ist, uns mitzuteilen, was daraus herausgezogen werden soll. Diese Beschreibung ist Ihr Schema.

Und jetzt kommt der Teil, der viele überrascht: Sie schreiben es nicht in Code. Es gibt keine Syntax zu lernen, keine Feldtypen zu deklarieren, keine Vorlage, die Sie auf die Seite zeichnen müssten. Sie beschreiben, was Sie wollen, so wie Sie es einer neuen Kollegin erklären würden: „Hol mir für jede Rechnung den Lieferanten, die Gesamtsumme und alle Einzelposten.” Den Rest erledigt das System.

Genau diese Freiheit ist der Sinn der Sache — sie bedeutet aber auch, dass die Qualität Ihrer Ergebnisse der Qualität Ihrer Beschreibung folgt. Eine vage Anfrage liefert vage Ergebnisse. Eine präzise liefert saubere Daten, denen Sie schon beim ersten Durchgang vertrauen können. In diesem Beitrag geht es um die paar Gewohnheiten, die Ihr Schema in einfacher Sprache präzise machen — ganz gleich, mit welcher Art von Dokument Sie arbeiten.

Wie ein gutes Schema aussieht

Bevor es um die Regeln geht, hier die Form einer Beschreibung, die gut funktioniert. Angenommen, Sie extrahieren Rechnungen:

„Extrahiere für jede Rechnung die Rechnungsnummer, das Ausstellungsdatum, den Namen des Lieferanten und den fälligen Gesamtbetrag. Extrahiere außerdem jeden Einzelposten mit seiner Beschreibung, Menge, Stückpreis und Positionssumme. Wenn ein Feld auf dem Dokument nicht vorhanden ist, lass es leer, statt zu raten.”

Achten Sie darauf, was das bewirkt. Es benennt konkrete Felder, nicht „die wichtigen Sachen”. Es trennt die Dinge, von denen es pro Dokument nur eines gibt (Rechnungsnummer, Gesamtsumme), von denen, von denen es viele gibt (Einzelposten). Und es sagt, was zu tun ist, wenn etwas fehlt. Nichts davon ist technisch — es ist einfach präzise. Die fünf Gewohnheiten weiter unten zeigen, wie Sie dorthin kommen.

Fünf Gewohnheiten, die ein Schema präzise machen

1. Sagen Sie genau, welchen Wert Sie meinen

Dokumente sind voll von Zahlen und Daten, die einander ähneln. „Der Betrag” auf einer Rechnung könnte die Zwischensumme sein, die Steuer, der Betrag vor Rabatt oder der schließlich fällige Betrag. Wenn Sie „extrahiere den Betrag” schreiben, überlassen Sie die Auswahl dem Zufall.

Benennen Sie genau den richtigen:

  • „das Datum” → ✅ „das Ausstellungsdatum der Rechnung (nicht das Fälligkeitsdatum)”
  • „der Betrag” → ✅ „der fällige Gesamtbetrag, nach Steuern und Rabatten”
  • „der Name” → ✅ „der Firmenname des Lieferanten (nicht die Ansprechperson)”

Je mehr ähnlich aussehende Felder ein Dokument enthält, desto wichtiger ist das.

2. Sagen Sie, in welchem Format Sie es haben möchten

Das System liest, was auf der Seite steht, aber oft möchten Sie es in etwas Einheitliches überführt haben — besonders bei Daten, Zahlen und Währungsbeträgen. Wenn das Format Ihnen wichtig ist, dann fordern Sie es ein:

  • „Gib alle Daten im Format YYYY-MM-DD aus.”
  • „Stelle Beträge als reine Zahlen dar, ohne Währungssymbole und ohne Tausendertrennzeichen.”
  • „Erfasse Soll-Buchungen als negative Zahlen.”
  • „Nimm den Währungscode (USD, EUR usw.) als eigenes Feld auf.”

Ohne diese Angabe bekommen Sie, was das Dokument eben zeigt — $1,250.00, 1.250,00, (1,250.00) — und Sie räumen es hinterher in der Tabelle auf. Ein Satz vorab erspart Ihnen diese Arbeit.

3. Trennen Sie „eines pro Dokument” von „eines pro Zeile”

Das ist der eine Punkt, an dem die meisten stolpern, und es lohnt sich, hier langsamer zu machen. Manche Felder kommen pro Dokument nur einmal vor — eine Rechnungsnummer, ein Kontoauszugszeitraum, ein Kontoinhaber. Andere wiederholen sich — jeder Einzelposten, jede Buchung, jeder Passagier auf einem Ticket.

Wenn Sie die beiden nicht unterscheiden, landen Sie womöglich bei einem einzelnen Wert, wo Sie eine Liste wollten, oder bei einem platt gewalzten Durcheinander, wo Sie Struktur wollten. Die Abhilfe ist, es ausdrücklich zu sagen:

„Extrahiere die Felder auf Auszugsebene einmal: Kontoinhaber, Kontonummer, Anfangssaldo, Endsaldo. Extrahiere dann jede Buchung als eigene Zeile, mit Datum, Beschreibung und Betrag.”

Die Worte „für jede” sind Ihr Freund. „Für jeden Einzelposten…”, „für jede Buchung…” — sie sagen dem System, dass es eine Liste erwarten soll, und geben Ihnen saubere, sich wiederholende Zeilen zurück statt eines Wirrwarrs.

4. Fügen Sie bei verwechselbaren Feldern ein klärendes Wort hinzu

Manche Felder sind wirklich mehrdeutig, und kein noch so genaues Lesen der Seite löst das auf — nur Ihre Absicht tut das. Ein Zolldokument kann sowohl eine Rechnungsnummer als auch eine Bestellnummer tragen, sowohl eine Liefer- als auch eine Rechnungsadresse, sowohl ein Brutto- als auch ein Nettogewicht.

Wenn zwei Felder verwechselt werden könnten, ergänzen Sie eine kurze Klarstellung:

  • „die Rechnungsnummer (die des Verkäufers, mit ‚INV’ gekennzeichnet — nicht die PO-Nummer)”
  • „die Lieferadresse (wohin die Ware geliefert wird, nicht die Rechnungsadresse)”

Sie wissen, welches Feld Sie tatsächlich brauchen. Es zu sagen, nimmt das Rätselraten heraus.

5. Legen Sie fest, was passiert, wenn ein Feld fehlt

Echte Dokumente sind uneinheitlich. Die eine Rechnung hat eine PO-Nummer, die nächste nicht. Wenn Sie nicht sagen, was zu tun ist, lassen Sie es offen — und bei der Extraktion ist die sichere Standardvorgabe, die Sie fast immer wollen: erfinde nichts:

„Wenn ein Feld auf dem Dokument nicht vorhanden ist, lass es leer. Rate niemals und setze keinen Platzhalter ein.”

Diese eine Zeile lohnt sich ganz besonders bei Finanz-, Rechts- und medizinischen Dokumenten, wo ein selbstbewusst falscher Wert weit gefährlicher ist als eine leere Zelle, die Sie sehen und nachverfolgen können.

Drei Wege, ein Schema anzulegen — und wann Sie welchen nutzen

Ztract bietet Ihnen drei Ausgangspunkte. Die obigen Gewohnheiten gelten für alle drei; die Frage ist nur, wo Sie beginnen.

  • Mit einem fertigen Schema starten. Für gängige Dokumente — Rechnungen, Belege, Kontoauszüge, Ausweise, Lebensläufe, Verträge, Laborberichte, Zollpapiere — gibt es eine Vorlage, die die üblichen Felder bereits kennt. Am besten, wenn Ihr Dokument von einem Standardtyp ist und Sie schnell loslegen und dann anpassen möchten.
  • Die Felder selbst beschreiben. Schreiben Sie die Beschreibung in einfacher Sprache von Grund auf. Am besten, wenn Ihr Dokument ungewöhnlich ist oder wenn Sie genau diese Felder wollen und nichts sonst. Hier zahlen sich die fünf Gewohnheiten aus.
  • Aus einer Probe ableiten. Laden Sie ein repräsentatives Dokument hoch und lassen Sie das System aus dem, was es sieht, ein Schema vorschlagen. Am besten, wenn Sie noch nicht wissen, welche Felder ein Dokument enthält, bevor Sie sich eins angesehen haben — und Sie den Vorschlag dann in einfacher Sprache verfeinern.

Die meisten kombinieren am Ende beides: Sie starten mit einer Vorlage oder einer Probe und schärfen die Beschreibung dann von Hand mit den obigen Gewohnheiten nach.

Weitere Informationen finden Sie auf unserer Dokumentationsseite zum Gestalten Ihres Schemas.

Eine kurze Tabelle zur Fehlerbehebung

Wenn die Ausgabe nicht das ist, was Sie erwartet haben, liegt die Ursache meist in der Beschreibung. Die häufigsten Fälle:

Was Sie sehenWahrscheinliche UrsacheDie Lösung
Falsche Zahl beim „Betrag” gezogenFeld war nicht konkret genugBenennen Sie den genauen Wert: „Gesamtsumme fällig nach Steuern”
Daten in gemischten FormatenKein Format angefordertErgänzen Sie „gib alle Daten im Format YYYY-MM-DD aus”
Ein einzelner Wert, wo Sie eine Liste wolltenSich wiederholendes Feld nicht gekennzeichnetVerwenden Sie „extrahiere für jede(n) … …”
Liste in eine Zelle zusammengequetschtWie obenGenauso — benennen Sie die Felder pro Zeile ausdrücklich
Ein Feld aus dem Nichts erfundenKeine Regel für fehlende FelderErgänzen Sie „leer lassen, wenn nicht vorhanden, niemals raten”
Zwei ähnliche Felder vertauschtKeine KlarstellungErgänzen Sie eine Präzisierung: „die PO-Nummer, nicht die Rechnungsnummer”

Das Schema ist nur die halbe Schleife

Selbst ein gut geschriebenes Schema profitiert von einem zweiten Blick, und Ztract ist genau darum herum gebaut. Jeder extrahierte Wert ist an seine Position auf dem Quelldokument geknüpft — klicken Sie auf einen Wert und Sie sehen genau, woher er stammt. Sie suchen die heraus, die schief aussehen, korrigieren sie mit einem Klick, und fertig. Korrekturen kosten nichts; nur die Extraktion zählt auf Ihre Seiten an, nicht das Bearbeiten danach.

Das Ziel eines guten Schemas ist also nicht Perfektion beim ersten Versuch — es ist, nahe genug heranzukommen, dass der Prüfschritt ein kurzer Blick statt einer Neufassung ist. Die fünf Gewohnheiten oben bringen Sie dorthin.

Probieren Sie es an einem echten Dokument aus

Am schnellsten bekommen Sie ein Gefühl dafür, wenn Sie eine Beschreibung für ein Dokument schreiben, mit dem Sie wirklich arbeiten, und sehen, was zurückkommt. Neue Konten erhalten 30 kostenlose Seiten, ohne Kreditkarte — mehr als genug, um ein Schema zu entwerfen, es zu verfeinern und zuzusehen, wie sich die Ausgabe dabei Stück für Stück schärft.

Und falls ein Dokumenttyp oder ein Schema, das Sie zu beschreiben versucht haben, Sie ins Stolpern gebracht hat — falls Ihnen die Worte gefehlt haben, um das gewünschte Ergebnis zu erhalten — dann ist das genau die Rückmeldung, auf die wir aus sind. Sagen Sie es uns; Schemagestaltung für Menschen, die keine Ingenieure sind, selbstverständlich anfühlen zu lassen, ist der Teil des Produkts, der uns am meisten am Herzen liegt.

← Back to all posts