So beschreiben Sie ein gutes Extraktionsschema in einfacher Sprache
Das Schema ist einfach eine Beschreibung dessen, was Sie aus einem Dokument herausziehen möchten. Sie müssen dafür keine Syntax lernen — aber ein paar Gewohnheiten machen den Unterschied zwischen Ergebnissen, denen Sie vertrauen, und Ergebnissen, die Sie ständig überwachen müssen. Hier erfahren Sie, wie Sie beschreiben, was Sie wollen, damit das System es gleich beim ersten Mal richtig erfasst.
- tutorial
- schema design
Das Erste, was die meisten Menschen in Ztract tun, ist, ein Projekt anzulegen. Das Zweite — und das entscheidet darüber, wie gut Ihre Ergebnisse werden — ist, uns mitzuteilen, was daraus herausgezogen werden soll. Diese Beschreibung ist Ihr Schema.
Und jetzt kommt der Teil, der viele überrascht: Sie schreiben es nicht in Code. Es gibt keine Syntax zu lernen, keine Feldtypen zu deklarieren, keine Vorlage, die Sie auf die Seite zeichnen müssten. Sie beschreiben, was Sie wollen, so wie Sie es einer neuen Kollegin erklären würden: „Hol mir für jede Rechnung den Lieferanten, die Gesamtsumme und alle Einzelposten.” Den Rest erledigt das System.
Genau diese Freiheit ist der Sinn der Sache — sie bedeutet aber auch, dass die Qualität Ihrer Ergebnisse der Qualität Ihrer Beschreibung folgt. Eine vage Anfrage liefert vage Ergebnisse. Eine präzise liefert saubere Daten, denen Sie schon beim ersten Durchgang vertrauen können. In diesem Beitrag geht es um die paar Gewohnheiten, die Ihr Schema in einfacher Sprache präzise machen — ganz gleich, mit welcher Art von Dokument Sie arbeiten.
Wie ein gutes Schema aussieht
Bevor es um die Regeln geht, hier die Form einer Beschreibung, die gut funktioniert. Angenommen, Sie extrahieren Rechnungen:
„Extrahiere für jede Rechnung die Rechnungsnummer, das Ausstellungsdatum, den Namen des Lieferanten und den fälligen Gesamtbetrag. Extrahiere außerdem jeden Einzelposten mit seiner Beschreibung, Menge, Stückpreis und Positionssumme. Wenn ein Feld auf dem Dokument nicht vorhanden ist, lass es leer, statt zu raten.”
Achten Sie darauf, was das bewirkt. Es benennt konkrete Felder, nicht „die wichtigen Sachen”. Es trennt die Dinge, von denen es pro Dokument nur eines gibt (Rechnungsnummer, Gesamtsumme), von denen, von denen es viele gibt (Einzelposten). Und es sagt, was zu tun ist, wenn etwas fehlt. Nichts davon ist technisch — es ist einfach präzise. Die fünf Gewohnheiten weiter unten zeigen, wie Sie dorthin kommen.
Fünf Gewohnheiten, die ein Schema präzise machen
1. Sagen Sie genau, welchen Wert Sie meinen
Dokumente sind voll von Zahlen und Daten, die einander ähneln. „Der Betrag” auf einer Rechnung könnte die Zwischensumme sein, die Steuer, der Betrag vor Rabatt oder der schließlich fällige Betrag. Wenn Sie „extrahiere den Betrag” schreiben, überlassen Sie die Auswahl dem Zufall.
Benennen Sie genau den richtigen:
- ❌ „das Datum” → ✅ „das Ausstellungsdatum der Rechnung (nicht das Fälligkeitsdatum)”
- ❌ „der Betrag” → ✅ „der fällige Gesamtbetrag, nach Steuern und Rabatten”
- ❌ „der Name” → ✅ „der Firmenname des Lieferanten (nicht die Ansprechperson)”
Je mehr ähnlich aussehende Felder ein Dokument enthält, desto wichtiger ist das.
2. Sagen Sie, in welchem Format Sie es haben möchten
Das System liest, was auf der Seite steht, aber oft möchten Sie es in etwas Einheitliches überführt haben — besonders bei Daten, Zahlen und Währungsbeträgen. Wenn das Format Ihnen wichtig ist, dann fordern Sie es ein:
- „Gib alle Daten im Format YYYY-MM-DD aus.”
- „Stelle Beträge als reine Zahlen dar, ohne Währungssymbole und ohne Tausendertrennzeichen.”
- „Erfasse Soll-Buchungen als negative Zahlen.”
- „Nimm den Währungscode (USD, EUR usw.) als eigenes Feld auf.”
Ohne diese Angabe bekommen Sie, was das Dokument eben zeigt — $1,250.00,
1.250,00, (1,250.00) — und Sie räumen es hinterher in der Tabelle auf.
Ein Satz vorab erspart Ihnen diese Arbeit.
3. Trennen Sie „eines pro Dokument” von „eines pro Zeile”
Das ist der eine Punkt, an dem die meisten stolpern, und es lohnt sich, hier langsamer zu machen. Manche Felder kommen pro Dokument nur einmal vor — eine Rechnungsnummer, ein Kontoauszugszeitraum, ein Kontoinhaber. Andere wiederholen sich — jeder Einzelposten, jede Buchung, jeder Passagier auf einem Ticket.
Wenn Sie die beiden nicht unterscheiden, landen Sie womöglich bei einem einzelnen Wert, wo Sie eine Liste wollten, oder bei einem platt gewalzten Durcheinander, wo Sie Struktur wollten. Die Abhilfe ist, es ausdrücklich zu sagen:
„Extrahiere die Felder auf Auszugsebene einmal: Kontoinhaber, Kontonummer, Anfangssaldo, Endsaldo. Extrahiere dann jede Buchung als eigene Zeile, mit Datum, Beschreibung und Betrag.”
Die Worte „für jede” sind Ihr Freund. „Für jeden Einzelposten…”, „für jede Buchung…” — sie sagen dem System, dass es eine Liste erwarten soll, und geben Ihnen saubere, sich wiederholende Zeilen zurück statt eines Wirrwarrs.
4. Fügen Sie bei verwechselbaren Feldern ein klärendes Wort hinzu
Manche Felder sind wirklich mehrdeutig, und kein noch so genaues Lesen der Seite löst das auf — nur Ihre Absicht tut das. Ein Zolldokument kann sowohl eine Rechnungsnummer als auch eine Bestellnummer tragen, sowohl eine Liefer- als auch eine Rechnungsadresse, sowohl ein Brutto- als auch ein Nettogewicht.
Wenn zwei Felder verwechselt werden könnten, ergänzen Sie eine kurze Klarstellung:
- „die Rechnungsnummer (die des Verkäufers, mit ‚INV’ gekennzeichnet — nicht die PO-Nummer)”
- „die Lieferadresse (wohin die Ware geliefert wird, nicht die Rechnungsadresse)”
Sie wissen, welches Feld Sie tatsächlich brauchen. Es zu sagen, nimmt das Rätselraten heraus.
5. Legen Sie fest, was passiert, wenn ein Feld fehlt
Echte Dokumente sind uneinheitlich. Die eine Rechnung hat eine PO-Nummer, die nächste nicht. Wenn Sie nicht sagen, was zu tun ist, lassen Sie es offen — und bei der Extraktion ist die sichere Standardvorgabe, die Sie fast immer wollen: erfinde nichts:
„Wenn ein Feld auf dem Dokument nicht vorhanden ist, lass es leer. Rate niemals und setze keinen Platzhalter ein.”
Diese eine Zeile lohnt sich ganz besonders bei Finanz-, Rechts- und medizinischen Dokumenten, wo ein selbstbewusst falscher Wert weit gefährlicher ist als eine leere Zelle, die Sie sehen und nachverfolgen können.
Drei Wege, ein Schema anzulegen — und wann Sie welchen nutzen
Ztract bietet Ihnen drei Ausgangspunkte. Die obigen Gewohnheiten gelten für alle drei; die Frage ist nur, wo Sie beginnen.
- Mit einem fertigen Schema starten. Für gängige Dokumente — Rechnungen, Belege, Kontoauszüge, Ausweise, Lebensläufe, Verträge, Laborberichte, Zollpapiere — gibt es eine Vorlage, die die üblichen Felder bereits kennt. Am besten, wenn Ihr Dokument von einem Standardtyp ist und Sie schnell loslegen und dann anpassen möchten.
- Die Felder selbst beschreiben. Schreiben Sie die Beschreibung in einfacher Sprache von Grund auf. Am besten, wenn Ihr Dokument ungewöhnlich ist oder wenn Sie genau diese Felder wollen und nichts sonst. Hier zahlen sich die fünf Gewohnheiten aus.
- Aus einer Probe ableiten. Laden Sie ein repräsentatives Dokument hoch und lassen Sie das System aus dem, was es sieht, ein Schema vorschlagen. Am besten, wenn Sie noch nicht wissen, welche Felder ein Dokument enthält, bevor Sie sich eins angesehen haben — und Sie den Vorschlag dann in einfacher Sprache verfeinern.
Die meisten kombinieren am Ende beides: Sie starten mit einer Vorlage oder einer Probe und schärfen die Beschreibung dann von Hand mit den obigen Gewohnheiten nach.
Weitere Informationen finden Sie auf unserer Dokumentationsseite zum Gestalten Ihres Schemas.
Eine kurze Tabelle zur Fehlerbehebung
Wenn die Ausgabe nicht das ist, was Sie erwartet haben, liegt die Ursache meist in der Beschreibung. Die häufigsten Fälle:
| Was Sie sehen | Wahrscheinliche Ursache | Die Lösung |
|---|---|---|
| Falsche Zahl beim „Betrag” gezogen | Feld war nicht konkret genug | Benennen Sie den genauen Wert: „Gesamtsumme fällig nach Steuern” |
| Daten in gemischten Formaten | Kein Format angefordert | Ergänzen Sie „gib alle Daten im Format YYYY-MM-DD aus” |
| Ein einzelner Wert, wo Sie eine Liste wollten | Sich wiederholendes Feld nicht gekennzeichnet | Verwenden Sie „extrahiere für jede(n) … …” |
| Liste in eine Zelle zusammengequetscht | Wie oben | Genauso — benennen Sie die Felder pro Zeile ausdrücklich |
| Ein Feld aus dem Nichts erfunden | Keine Regel für fehlende Felder | Ergänzen Sie „leer lassen, wenn nicht vorhanden, niemals raten” |
| Zwei ähnliche Felder vertauscht | Keine Klarstellung | Ergänzen Sie eine Präzisierung: „die PO-Nummer, nicht die Rechnungsnummer” |
Das Schema ist nur die halbe Schleife
Selbst ein gut geschriebenes Schema profitiert von einem zweiten Blick, und Ztract ist genau darum herum gebaut. Jeder extrahierte Wert ist an seine Position auf dem Quelldokument geknüpft — klicken Sie auf einen Wert und Sie sehen genau, woher er stammt. Sie suchen die heraus, die schief aussehen, korrigieren sie mit einem Klick, und fertig. Korrekturen kosten nichts; nur die Extraktion zählt auf Ihre Seiten an, nicht das Bearbeiten danach.
Das Ziel eines guten Schemas ist also nicht Perfektion beim ersten Versuch — es ist, nahe genug heranzukommen, dass der Prüfschritt ein kurzer Blick statt einer Neufassung ist. Die fünf Gewohnheiten oben bringen Sie dorthin.
Probieren Sie es an einem echten Dokument aus
Am schnellsten bekommen Sie ein Gefühl dafür, wenn Sie eine Beschreibung für ein Dokument schreiben, mit dem Sie wirklich arbeiten, und sehen, was zurückkommt. Neue Konten erhalten 30 kostenlose Seiten, ohne Kreditkarte — mehr als genug, um ein Schema zu entwerfen, es zu verfeinern und zuzusehen, wie sich die Ausgabe dabei Stück für Stück schärft.
Und falls ein Dokumenttyp oder ein Schema, das Sie zu beschreiben versucht haben, Sie ins Stolpern gebracht hat — falls Ihnen die Worte gefehlt haben, um das gewünschte Ergebnis zu erhalten — dann ist das genau die Rückmeldung, auf die wir aus sind. Sagen Sie es uns; Schemagestaltung für Menschen, die keine Ingenieure sind, selbstverständlich anfühlen zu lassen, ist der Teil des Produkts, der uns am meisten am Herzen liegt.