ドキュメントをアップロードする
Ztract が受け付ける形式、ファイルサイズの上限、そしてエンジンが読み取れなかったページに対して課金されないように失敗をどう扱うか。
更新日:
対応ファイル形式
Ztract は次のファイル形式を読み取れます。
| カテゴリ | 形式 |
|---|---|
| ドキュメント | PDF, OFD |
| Office | Word(.doc / .docx)、Excel(.xls / .xlsx)、PowerPoint(.ppt / .pptx) |
| テキスト系 | HTML(.mhtml を含む)、TXT、CSV、RTF |
| 画像 | JPG / JPEG、PNG、WebP、TIFF、BMP |
PDF はデジタル(ベクターテキスト)でもスキャン(画像ベース)でも 構いません。どちらも問題なく動作します。物理的な書類をスマートフォンで 撮影した写真も使えますが、コントラストが低い、または大きく傾いた 写真では、フィールドごとの信頼度が下がることがあります。
エンジンは現バージョンでは HEIC、ZIP アーカイブ、メールファイル
(.eml)を 読み取れません。これらを必要とするワークフローが
あれば、ご連絡ください —
新しい形式の要望は追跡しています。
サイズ上限
- 1 ファイルあたり:最大 500 MB
上限を超えるファイルはアップロード時に拒否されます。本当に大きな PDF の場合は、お使いの PDF ツールで分割し、同じプロジェクト内に 別ファイルとしてアップロードしてください。
単一ファイルと一括アップロード
1 ファイルずつドラッグすることも、フォルダや複数選択をまとめて ドロップすることもできます。ダッシュボードは帯域が許す範囲で ファイルを並列に処理し、ドキュメントごとの進捗を表示します。 1 回のバッチでキューに入れられるファイル数に上限はありません — 1 セッションで数千件の請求書を投入したアカウントも問題なく動作しています。
非常に大きなバッチ(10,000 件以上のファイル)の場合は、ダッシュボードの 応答性を保つために、より小さなグループに分けてアップロードしてください。 1 セッションで数万件を扱える一括アップロードの経路を準備中です — それが提供されるまでは、数千件単位のバッチであれば問題なく動作します。
処理中に行われること
- ファイルが Ztract のオブジェクトストレージにアップロードされます。
- エンジンがファイルの読み取り方(デジタル PDF、スキャン画像、Office など)を 判定し、適切な処理経路に振り分けます。
- ページが解析され、スキーマが適用されます。抽出された各値について バウンディングボックスが記録されます。
- 結果がプロジェクトに反映されます — 1 ページの書類なら通常数秒、 複数ページやスキャンファイルの場合はもう少し長くかかります。
1 つのドキュメントを待つ必要はありません — 最初の 1 件が終わったら すぐにレビューを始めてください。後続はバックグラウンドで完了します。
ドキュメント全体抽出とページ単位抽出
ほとんどのスキーマでは、各ドキュメントを 1 つの単位として扱います。 1 ドキュメント = 1 回の抽出 = 1 セットのフィールドです。Ztract の 既定動作はこれで、請求書、領収書、契約書、身分証など、ほとんどの 書式に適したモードです。
各ページが独立したレコードとなるドキュメント — たとえば、各ページが 独自の取引テーブルを持つ複数ページの銀行明細や、1 つの PDF に まとめてスキャンされた領収書の束など — については、Ztract は ページ単位 で抽出することもできます。各ページが解析データビューの 独立した行となり、それぞれが独立した抽出としてカウントされ課金されます。
この選択はスキーマごとに行います。サンプルドキュメントから プロジェクトを作成する際に設定します。サンプルアップロードの ダイアログが、スキーマを構築する前にどちらのモードが適切かを 尋ねます。
ドキュメント一覧をフィルターする
プロジェクトの「ドキュメント」タブの上部には、2 つのフィルターがあります。
- ステータス — 待機中、処理中、成功、失敗、一部成功。 大量にアップロードしたあと、失敗したものを探したいときや、 最後の数件の完了を待っているときに便利です。
- スキーマ鮮度 — 抽出結果がプロジェクトの現在のスキーマと
一致しているドキュメントだけを表示するか、
スキーマ更新済みと マークされたもの(スキーマ変更前に抽出された、再抽出の候補)だけを 表示します。レビューと修正 を参照してください。
ページが読み取れなかったとき
ページを処理できないことがあります。よくある原因は次のとおりです。
- ファイルが壊れている、またはパスワードで保護されている。
- 形式は対応しているが、エンジンがその特定のファイルを開けなかった (例:特殊な圧縮の TIFF)。
- 内部エラーが発生した。
このような場合、そのページはパックに払い戻されます — 結果を返せた 抽出に対してのみ課金されます。ダッシュボードは失敗したページに 失敗理由を表示するので、元データを直したうえで再アップロードするか どうかを判断できます。
これは Ztract の課金方式が他の OCR 製品の多くと異なる数少ない点の 1 つです — 多くの製品は、有用な出力が得られたかどうかにかかわらず 課金します。Ztract はそうしません。
ページの数え方
請求、パッケージ、返金 のページで詳しく解説していますが、 かんたんに振り返ると次のとおりです。
- PDF や Office ファイル:元書類の 1 ページにつき 1 ページ。
- 画像やテキスト系ファイル:通常は 1 ページ — ただし非常に大きな ファイルはシステムによって複数ページに分割されることがあります。
- 同じドキュメントをスキーマを変更して再実行する場合:新しい抽出として カウントされます。処理量が膨らむ前にスキーマを固めましょう。
実用的なヒント
- スキャンされたドキュメントで最も高い精度を出すには、可能であれば 元の PDF を使ってください。ベクターテキストはラスター化された テキストより安定して読み取れます。
- スマートフォンの写真では、書類が平らで、画面に完全に収まり、 十分に明るい状態であることを確認してください。光沢ラミネートの 反射光は扱えますが、信頼度は下がります。
- 非常に長い PDF(100 ページ以上)では、すべてのページが本当に 必要かを検討してください。500 ページの法的証拠資料のうち、 データが含まれる 30 ページだけを切り出した方が安く済みます。
- 多言語混在のドキュメントには、特別な設定は不要です — エンジンは ラテン文字、CJK、キリル文字、アラビア文字が混在するページを そのまま扱います。