上传文档

Ztract 能吃哪些文件、最大能传多大，以及引擎如何处理失败 —— 读不出来的页，不会让你白付钱。

更新于: 2026年6月1日

支持的文件格式

Ztract 可以读以下这些文件类型：

类别	格式
文档	PDF、OFD
Office	Word（`.doc` / `.docx`）、Excel（`.xls` / `.xlsx`）、PowerPoint（`.ppt` / `.pptx`）
文本类	HTML（包括 `.mhtml`）、TXT、CSV、RTF
图片	JPG / JPEG、PNG、WebP、TIFF、BMP

PDF 可以是数字版（带矢量文字）也可以是扫描版（纯图像），两种都行。用手机拍的实体文档照片也能处理，只是低对比度或者拍得严重歪斜的照片，单个字段的置信度可能会低一些。

引擎目前不支持 HEIC、ZIP 压缩包、以及邮件文件（.eml）。如果你的工作流需要其中某一种，发邮件告诉我们 —— 我们会统计需求决定要不要加。

超过上限的文件会在上传环节直接被拒。对于真的非常大的 PDF，你可以先用顺手的 PDF 工具拆分，再把各部分作为同一个项目下的独立文件分别上传。

可以一次拖一个文件，也可以拖一整个文件夹，或者多选拖进来。 Dashboard 会在带宽允许的范围内并行处理每个文件，并按文档逐个显示进度。一次批量里能排多少文件没有硬上限 —— 我们见过有账号一次塞进上千张发票也跑得顺顺的。

如果一次性要上特别多（10,000+ 个文件），建议分成更小的批次上传，这样 dashboard 会更顺畅。我们正在做一条专为单次几万份文件设计的批量上传通道 —— 在它上线之前，一次几千份是没问题的。

你不用盯着单份文档等 —— 第一份处理完就可以开始审，后面的可以在后台慢慢跑。

大多数 schema 把每份文档当成一个整体：一份文档 = 一次抽取 = 一组字段。这是 Ztract 的默认行为，也是发票、收据、合同、证件、以及大多数表单类文档该用的模式。

对于每一页都是一条独立记录的文档 —— 比如一份每页都是独立交易表格的多页银行对账单，或者把一摞收据扫成同一个 PDF —— Ztract 可以改成按页抽取。每一页在解析数据视图里成为单独的一行，也作为单独的一次抽取计费。

这个选项是 per-schema 的，在你用样本文档创建项目时选定。样本上传对话框会在构建 schema 之前先问你用哪种模式。

项目的「文档」标签顶部有两个筛选器：

状态 —— 等待中、处理中、成功、失败、部分成功。在大批量上传之后想快速找到失败的，或者在等最后几份处理完时，特别有用。
schema 新旧 —— 只看那些当前抽取结果还匹配项目当前 schema 的文档，或者只看被标为 Schema 已更新 的（在 schema 变更之前抽取过、可以重跑的候选）。详见审核与改正。

有时候某一页就是处理不了，最常见的原因是：

这种情况下，那一页会退回到你的页数包里 —— 你只为真的产出结果的抽取付费。Dashboard 会在失败页上标出失败原因，方便你决定要不要修一下源文件再传。

这是我们的计费跟大多数 OCR 产品不一样的地方之一：大多数产品不管有没有抽出有用结果都照收钱。我们不这么干。

简单提一下，详细规则见计费、套餐与退款这篇：