ドキュメントをアップロードする

Ztract が受け付ける形式、ファイルサイズの上限、そしてエンジンが読み取れなかったページに対して課金されないように失敗をどう扱うか。

更新日: 2026年6月1日

対応ファイル形式

Ztract は次のファイル形式を読み取れます。

カテゴリ	形式
ドキュメント	PDF, OFD
Office	Word(`.doc` / `.docx`)、Excel(`.xls` / `.xlsx`)、PowerPoint(`.ppt` / `.pptx`)
テキスト系	HTML(`.mhtml` を含む)、TXT、CSV、RTF
画像	JPG / JPEG、PNG、WebP、TIFF、BMP

PDF はデジタル(ベクターテキスト)でもスキャン(画像ベース)でも構いません。どちらも問題なく動作します。物理的な書類をスマートフォンで撮影した写真も使えますが、コントラストが低い、または大きく傾いた写真では、フィールドごとの信頼度が下がることがあります。

エンジンは現バージョンでは HEIC、ZIP アーカイブ、メールファイル (.eml)を 読み取れません。これらを必要とするワークフローがあれば、ご連絡ください — 新しい形式の要望は追跡しています。

サイズ上限

1 ファイルあたり:最大 500 MB

上限を超えるファイルはアップロード時に拒否されます。本当に大きな PDF の場合は、お使いの PDF ツールで分割し、同じプロジェクト内に別ファイルとしてアップロードしてください。

単一ファイルと一括アップロード

1 ファイルずつドラッグすることも、フォルダや複数選択をまとめてドロップすることもできます。ダッシュボードは帯域が許す範囲でファイルを並列に処理し、ドキュメントごとの進捗を表示します。 1 回のバッチでキューに入れられるファイル数に上限はありません — 1 セッションで数千件の請求書を投入したアカウントも問題なく動作しています。

非常に大きなバッチ(10,000 件以上のファイル)の場合は、ダッシュボードの応答性を保つために、より小さなグループに分けてアップロードしてください。 1 セッションで数万件を扱える一括アップロードの経路を準備中です — それが提供されるまでは、数千件単位のバッチであれば問題なく動作します。

処理中に行われること

ファイルが Ztract のオブジェクトストレージにアップロードされます。
エンジンがファイルの読み取り方(デジタル PDF、スキャン画像、Office など)を判定し、適切な処理経路に振り分けます。
ページが解析され、スキーマが適用されます。抽出された各値についてバウンディングボックスが記録されます。
結果がプロジェクトに反映されます — 1 ページの書類なら通常数秒、複数ページやスキャンファイルの場合はもう少し長くかかります。

1 つのドキュメントを待つ必要はありません — 最初の 1 件が終わったらすぐにレビューを始めてください。後続はバックグラウンドで完了します。

ドキュメント全体抽出とページ単位抽出

ほとんどのスキーマでは、各ドキュメントを 1 つの単位として扱います。 1 ドキュメント = 1 回の抽出 = 1 セットのフィールドです。Ztract の既定動作はこれで、請求書、領収書、契約書、身分証など、ほとんどの書式に適したモードです。

各ページが独立したレコードとなるドキュメント — たとえば、各ページが独自の取引テーブルを持つ複数ページの銀行明細や、1 つの PDF にまとめてスキャンされた領収書の束など — については、Ztract は ページ単位 で抽出することもできます。各ページが解析データビューの独立した行となり、それぞれが独立した抽出としてカウントされ課金されます。

この選択はスキーマごとに行います。サンプルドキュメントからプロジェクトを作成する際に設定します。サンプルアップロードのダイアログが、スキーマを構築する前にどちらのモードが適切かを尋ねます。

ドキュメント一覧をフィルターする

プロジェクトの「ドキュメント」タブの上部には、2 つのフィルターがあります。

ステータス — 待機中、処理中、成功、失敗、一部成功。大量にアップロードしたあと、失敗したものを探したいときや、最後の数件の完了を待っているときに便利です。
スキーマ鮮度 — 抽出結果がプロジェクトの現在のスキーマと一致しているドキュメントだけを表示するか、スキーマ更新済み とマークされたもの(スキーマ変更前に抽出された、再抽出の候補)だけを表示します。レビューと修正を参照してください。

ページが読み取れなかったとき

ページを処理できないことがあります。よくある原因は次のとおりです。

ファイルが壊れている、またはパスワードで保護されている。
形式は対応しているが、エンジンがその特定のファイルを開けなかった (例:特殊な圧縮の TIFF)。
内部エラーが発生した。

このような場合、そのページはパックに払い戻されます — 結果を返せた抽出に対してのみ課金されます。ダッシュボードは失敗したページに失敗理由を表示するので、元データを直したうえで再アップロードするかどうかを判断できます。

これは Ztract の課金方式が他の OCR 製品の多くと異なる数少ない点の 1 つです — 多くの製品は、有用な出力が得られたかどうかにかかわらず課金します。Ztract はそうしません。

ページの数え方

請求、パッケージ、返金のページで詳しく解説していますが、かんたんに振り返ると次のとおりです。

PDF や Office ファイル:元書類の 1 ページにつき 1 ページ。
画像やテキスト系ファイル:通常は 1 ページ — ただし非常に大きなファイルはシステムによって複数ページに分割されることがあります。
同じドキュメントをスキーマを変更して再実行する場合:新しい抽出としてカウントされます。処理量が膨らむ前にスキーマを固めましょう。

実用的なヒント

スキャンされたドキュメントで最も高い精度を出すには、可能であれば元の PDF を使ってください。ベクターテキストはラスター化されたテキストより安定して読み取れます。
スマートフォンの写真では、書類が平らで、画面に完全に収まり、十分に明るい状態であることを確認してください。光沢ラミネートの反射光は扱えますが、信頼度は下がります。
非常に長い PDF(100 ページ以上)では、すべてのページが本当に必要かを検討してください。500 ページの法的証拠資料のうち、データが含まれる 30 ページだけを切り出した方が安く済みます。
多言語混在のドキュメントには、特別な設定は不要です — エンジンはラテン文字、CJK、キリル文字、アラビア文字が混在するページをそのまま扱います。

← すべてのドキュメントへ戻る