データのエクスポート
3 つのフォーマット、2 つの粒度。下流のツールが期待する形式を選び、そのまま渡すだけです。
更新日:
3 つのフォーマット
Ztract は抽出したデータを 3 つのフォーマットで出力します。下流の ツールがそのまま読み込めるものをお選びください。
JSON
構造化された形式です。JSON はスキーマの形をそのまま保持します — ネストされたオブジェクト、オブジェクトの配列、文字列の配列が、 エンジンの返した状態のまま残ります。次のような場合に向いています。
- スクリプトやワークフロー経由で別のシステムにデータを流し込むとき。
- 下流のツールが JSON をネイティブに読み込めるとき(最近のアプリは ほとんど対応しています)。
- ネスト構造を保ちたいとき(契約書の当事者、仕入先契約の支払条件、 明細単位の税を含む明細行など)。
CSV
フラットな形式です。CSV はスカラーフィールドについてドキュメント 1 件あたり 1 行を出力し、明細行は別の CSV として出力します。 次のような場合に向いています。
- データベース、BI ツール、その他フラットなテーブルを前提とする 仕組みに読み込ませるとき。
- コマンドラインのツール(
awk/cut/csvkit)で扱うとき。 - どの表計算ソフトでも区切り文字に手を入れずに開ける形式が ほしいとき。
ネストされたフィールドはドット区切りのパスで平坦化されます
(例:parties_involved.party_1_name)。
Excel
スプレッドシートの形式です。スキーマに配列がある場合、Excel エクスポートは複数のシートを使います — ドキュメントレベルの スカラーフィールドが 1 シート、配列ごと(明細行、取引履歴など)に 1 シートです。ヘッダーは人が読みやすい表記です。次のような場合に 向いています。
- 受け取る相手が技術者ではなく、ファイルを直接開いて使う場合。
- 抽出したデータに数式を組み合わせてから誰かに渡したい場合。
エクスポートはどこから行うか
プロジェクトを開いて 抽出データ タブに切り替え、エクスポート を クリックします。フォーマットを選び、必要に応じて解析日範囲で絞り込み、 確定します。エクスポートはプロジェクト単位 — そのプロジェクト内で 日付フィルターに合致する解析済みドキュメントがすべてファイルに 含まれます。
エクスポートの仕組み
エクスポートは直接ダウンロードではなく、バックグラウンドジョブとして 実行されます。エクスポート をクリックすると、プロジェクトの エクスポート履歴 タブにジョブが表示され、次の 3 つのいずれかの ステータスになります。
- 待機中 — ワーカーが処理を取りに来るのを待っている状態です。
- 処理中 — ファイルを生成している状態です。
- 準備完了 — 完了です。クリックでダウンロードできます。
ダッシュボードはキューを自動でポーリングするため、再読み込みは 不要です。小さなプロジェクトであれば通常は数秒で準備完了になります。 数千件のドキュメントを含むプロジェクトでは数分かかることもあります。 ダッシュボードを閉じて後から戻ってきても問題ありません — プロジェクトを 削除しない限り、ファイルは残り続けます。
それぞれのフォーマットに含まれる内容
- JSON:ドキュメントオブジェクトの配列で、各オブジェクトが スキーマに対応します — ネストされたオブジェクト、オブジェクトの 配列、文字列の配列はそのまま保持されます。
- CSV:解析済みドキュメント 1 件につき 1 行(ページ単位モードで あれば解析済みページごとに 1 行)のフラットなレイアウトです。 ネストされたフィールドはドットパスになります。
- Excel:CSV と同じフラットな形のワークブックで、直接開ける ように整形されています。
エクスポートには必ず最新の編集内容が反映されます — 並列ビューア で値を修正していた場合、エクスポートでは自動的に修正後の値が使われます (修正内容は元の抽出結果の上にオーバーレイとして保存され、エンジンが 再実行されることはありません)。
レビューとエクスポートを繰り返す
よくある流れです。
- 初回の抽出(エンジン)。
- 信頼度フラグの付いたフィールドを確認し、必要に応じて修正。
- エクスポートを実行し、ファイルを利用。
- 見落としていた値に気づいたら? 修正してから再エクスポートします。 無料です — エンジンの再実行はページを消費しますが、新しい エクスポートジョブはページを消費しません。
API でのエクスポート
HTTP API によるプログラム経由のエクスポートはロードマップに あります。現時点では、すべてのエクスポートはダッシュボードから 行います。API アクセスが業務上のブロッカーになっており、提供開始 時にすぐ知らせてほしい場合は、 [support@ztract.com](mailto:support@ztract.com?subject=API early access) までメールしてください。