Zum Inhalt springen
Ztract

Dokumente hochladen

Was Ztract akzeptiert, wie groß Dateien sein dürfen und wie die Engine mit Fehlern umgeht, damit Sie nicht für Seiten zahlen, die sie nicht lesen konnte.

Aktualisiert:

Unterstützte Dateiformate

Ztract liest die folgenden Dateitypen:

KategorieFormate
DokumentePDF, OFD
OfficeWord (.doc / .docx), Excel (.xls / .xlsx), PowerPoint (.ppt / .pptx)
TextbasiertHTML (inklusive .mhtml), TXT, CSV, RTF
BilderJPG / JPEG, PNG, WebP, TIFF, BMP

PDFs können entweder digital (Vektortext) oder gescannt (bildbasiert) sein; beides funktioniert. Handyfotos physischer Dokumente funktionieren ebenfalls — mit dem Vorbehalt, dass kontrastarme oder stark verzerrte Aufnahmen bei einzelnen Feldern zu geringeren Konfidenzwerten führen können.

Die Engine liest in der aktuellen Version kein HEIC, keine ZIP-Archive und keine E-Mail-Dateien (.eml). Wenn Sie einen Arbeitsablauf haben, der eines dieser Formate benötigt, schreiben Sie uns — wir erfassen den Bedarf nach neuen Formaten.

Größenlimits

  • Pro Datei: bis zu 500 MB

Dateien oberhalb dieser Grenze werden beim Upload abgewiesen. Für wirklich umfangreiche PDFs können Sie diese in Ihrem bevorzugten PDF-Werkzeug aufteilen und die Teile als separate Dateien im selben Projekt hochladen.

Einzeldatei oder Stapelupload

Ziehen Sie eine Datei nach der anderen hinein oder legen Sie einen Ordner bzw. eine Mehrfachauswahl ab. Das Dashboard verarbeitet jede Datei parallel, soweit die Bandbreite es zulässt, und zeigt den Fortschritt pro Dokument an. Es gibt keine Obergrenze, wie viele Dateien Sie in einem Stapel in die Warteschlange stellen können — wir haben Konten gesehen, die in einer einzigen Sitzung Tausende von Rechnungen ohne Probleme verarbeitet haben.

Bei sehr großen Stapeln (10.000+ Dateien) laden Sie in kleineren Gruppen hoch, damit das Dashboard responsiv bleibt. Wir arbeiten an einem Bulk-Upload-Pfad, der Zehntausende pro Sitzung bewältigt — bis dieser verfügbar ist, funktionieren Stapel von einigen Tausend sauber.

Was während der Verarbeitung passiert

  1. Die Datei wird in den Objektspeicher von Ztract hochgeladen.
  2. Die Engine ermittelt, wie die Datei zu lesen ist (digitales PDF, gescanntes Bild, Office usw.) und leitet sie entsprechend weiter.
  3. Die Seite wird geparst und das Schema angewendet. Für jeden extrahierten Wert werden Bounding Boxes erfasst.
  4. Das Ergebnis landet in Ihrem Projekt — typischerweise nach wenigen Sekunden bei einem einseitigen Dokument, länger bei mehrseitigen oder gescannten Dateien.

Sie müssen nicht auf ein einzelnes Dokument warten — beginnen Sie mit der Prüfung des ersten, sobald es fertig ist; spätere können im Hintergrund abschließen.

Gesamtdokument vs. seitenweise Extraktion

Die meisten Schemata behandeln jedes Dokument als eine Einheit: ein Dokument = eine Extraktion mit einem Satz Felder. Das ist die Voreinstellung von Ztract und der richtige Modus für Rechnungen, Belege, Verträge, Ausweisdokumente und die meisten anderen Formulare.

Für Dokumente, in denen jede Seite ein eigenständiger Datensatz ist — denken Sie an einen mehrseitigen Kontoauszug, bei dem jede Seite ihre eigene Transaktionstabelle ist, oder an einen Stapel Belege, die in ein einziges PDF gescannt wurden — kann Ztract stattdessen pro Seite extrahieren. Jede Seite wird zu ihrer eigenen Zeile in der Ansicht der geparsten Daten, und jede Seite wird als eigene Extraktion gezählt und abgerechnet.

Die Wahl wird pro Schema getroffen, festgelegt beim Anlegen des Projekts anhand eines Beispieldokuments. Der Dialog zum Beispielupload fragt vor dem Erstellen des Schemas, welcher Modus passt.

Dokumentenliste filtern

Der Tab Dokumente im Projekt bietet oben zwei Filter:

  • Status — ausstehend, in Bearbeitung, erfolgreich, fehlgeschlagen, teilweise. Nützlich, wenn Sie einen großen Upload als Stapel verarbeitet haben und die fehlgeschlagenen finden möchten, oder wenn Sie auf die letzten paar warten, bis sie fertig sind.
  • Schema-Aktualität — nur Dokumente anzeigen, deren Extraktion noch zum aktuellen Schema des Projekts passt, oder nur diejenigen, die mit Schema aktualisiert markiert sind (extrahiert, bevor sich das Schema änderte, Kandidaten für eine erneute Extraktion). Siehe Prüfen und korrigieren.

Wenn eine Seite nicht gelesen werden kann

Manchmal kann eine Seite nicht verarbeitet werden. Die häufigsten Gründe:

  • Die Datei ist beschädigt oder passwortgeschützt.
  • Das Format wird unterstützt, aber die Engine konnte diese konkrete Datei nicht öffnen (zum Beispiel ein TIFF mit ungewöhnlicher Komprimierung).
  • Ein interner Fehler ist aufgetreten.

In diesem Fall wird die Seite Ihrem Paket gutgeschrieben — Sie zahlen nur für Extraktionen, die ein Ergebnis geliefert haben. Das Dashboard kennzeichnet die fehlgeschlagene Seite mit dem Grund des Fehlschlags, damit Sie entscheiden können, ob Sie nach Korrektur der Quelle erneut hochladen möchten.

Das ist einer der wenigen Punkte, an denen sich unsere Abrechnung von den meisten OCR-Produkten unterscheidet: die meisten berechnen unabhängig davon, ob sie ein brauchbares Ergebnis erzeugt haben. Wir nicht.

Was als Seite zählt

Eine kurze Erinnerung, ausführlich behandelt auf der Seite Abrechnung:

  • Eine PDF- oder Office-Datei: eine Seite pro Seite der Quelle.
  • Eine Bild- oder textbasierte Datei: typischerweise eine Seite — sehr große Dateien können vom System jedoch in mehrere Seiten aufgeteilt werden.
  • Dasselbe Dokument mit einem angepassten Schema erneut zu verarbeiten: zählt als neue Extraktion. Planen Sie Ihr Schema, bevor Sie größere Mengen verarbeiten.

Praktische Tipps

  • Für die beste Genauigkeit bei einem gescannten Dokument verwenden Sie das Original-PDF, falls Sie eines haben. Vektortext lässt sich zuverlässiger lesen als rasterisierter Text.
  • Achten Sie bei Handyfotos darauf, dass das Dokument flach liegt, vollständig im Bild ist und ausreichend beleuchtet wird. Reflexe von glänzender Laminierung lassen sich verarbeiten, mindern aber die Konfidenz.
  • Bei sehr langen PDFs (100+ Seiten) überlegen Sie, ob Sie wirklich jede Seite benötigen. Ein 500-seitiges juristisches Beweisstück auf die 30 Seiten zu reduzieren, die die Daten enthalten, ist günstiger.
  • Bei mehrsprachigen Dokumenten ist keine besondere Konfiguration nötig — die Engine verarbeitet Seiten, die lateinische, CJK-, kyrillische und arabische Schriften mischen.

← Zurück zur Doku-Übersicht