上传文档
Ztract 能吃哪些文件、最大能传多大,以及引擎如何处理失败 —— 读不出来的页,不会让你白付钱。
更新于:
支持的文件格式
Ztract 可以读以下这些文件类型:
| 类别 | 格式 |
|---|---|
| 文档 | PDF、OFD |
| Office | Word(.doc / .docx)、Excel(.xls / .xlsx)、PowerPoint(.ppt / .pptx) |
| 文本类 | HTML(包括 .mhtml)、TXT、CSV、RTF |
| 图片 | JPG / JPEG、PNG、WebP、TIFF、BMP |
PDF 可以是数字版(带矢量文字)也可以是扫描版(纯图像), 两种都行。用手机拍的实体文档照片也能处理,只是低对比度或者 拍得严重歪斜的照片,单个字段的置信度可能会低一些。
引擎目前不支持 HEIC、ZIP 压缩包、以及邮件文件
(.eml)。如果你的工作流需要其中某一种,发邮件告诉我们 ——
我们会统计需求决定要不要加。
体积上限
- 单文件:最大 500 MB
超过上限的文件会在上传环节直接被拒。对于真的非常大的 PDF, 你可以先用顺手的 PDF 工具拆分,再把各部分作为同一个项目下的 独立文件分别上传。
单文件上传 vs 批量上传
可以一次拖一个文件,也可以拖一整个文件夹,或者多选拖进来。 Dashboard 会在带宽允许的范围内并行处理每个文件,并按文档逐个 显示进度。一次批量里能排多少文件没有硬上限 —— 我们见过有账号 一次塞进上千张发票也跑得顺顺的。
如果一次性要上特别多(10,000+ 个文件),建议分成更小的批次上传, 这样 dashboard 会更顺畅。我们正在做一条专为单次几万份文件设计的 批量上传通道 —— 在它上线之前,一次几千份是没问题的。
处理过程中发生了什么
- 文件先上传到 Ztract 的对象存储。
- 引擎判断这份文件该怎么读(数字版 PDF、扫描图、Office 等等), 再路由到对应的处理流程。
- 页面被解析,schema 被应用到上面。每个抽出来的值都会带上 bounding box。
- 结果回到你的项目里 —— 一页的文档通常几秒就好,多页或扫描件 会久一些。
你不用盯着单份文档等 —— 第一份处理完就可以开始审,后面的 可以在后台慢慢跑。
整份文档抽取 vs 逐页抽取
大多数 schema 把每份文档当成一个整体:一份文档 = 一次抽取 = 一组字段。这是 Ztract 的默认行为,也是发票、收据、合同、 证件、以及大多数表单类文档该用的模式。
对于每一页都是一条独立记录的文档 —— 比如一份每页都是独立交易 表格的多页银行对账单,或者把一摞收据扫成同一个 PDF —— Ztract 可以改成按页抽取。每一页在解析数据视图里成为单独的一行, 也作为单独的一次抽取计费。
这个选项是 per-schema 的,在你用样本文档创建项目时选定。样本 上传对话框会在构建 schema 之前先问你用哪种模式。
筛选文档列表
项目的「文档」标签顶部有两个筛选器:
- 状态 —— 等待中、处理中、成功、失败、部分成功。 在大批量上传之后想快速找到失败的,或者在等最后几份处理完时, 特别有用。
- schema 新旧 —— 只看那些当前抽取结果还匹配项目当前
schema 的文档,或者只看被标为
Schema 已更新的(在 schema 变更之前抽取过、可以重跑的候选)。详见 审核与改正。
某一页读不出来的时候
有时候某一页就是处理不了,最常见的原因是:
- 文件损坏,或者带密码保护。
- 格式本身支持,但引擎打不开这份具体的文件(比如某种压缩方式 不太常见的 TIFF)。
- 内部错误。
这种情况下,那一页会退回到你的页数包里 —— 你只为真的产出 结果的抽取付费。Dashboard 会在失败页上标出失败原因,方便你 决定要不要修一下源文件再传。
这是我们的计费跟大多数 OCR 产品不一样的地方之一:大多数产品 不管有没有抽出有用结果都照收钱。我们不这么干。
什么算一页
简单提一下,详细规则见 计费、套餐与退款 这篇:
- PDF 或 Office 文件:源文件每一页算一页。
- 图片或文本类文件:通常算一页 —— 不过特别大的文件可能会被 系统拆成多页。
- 在同一份文档上用调过的 schema 重跑:算一次新抽取。所以最好 在大规模处理之前先把 schema 定稿。
一些实用小建议
- 想要扫描件抽得更准,手上有原版 PDF 就用原版。矢量文字比栅格化 文字读起来更稳。
- 用手机拍照时,让文档平整、完整入框、光线别太暗。亮膜反光也能 处理,但会拉低置信度。
- 特别长的 PDF(100+ 页)先想一下你是不是真的每页都要。把一份 500 页的法律证据材料拆成只含数据的 30 页,更省钱。
- 混合语言文档不需要任何特殊设置 —— 引擎可以处理同一页里混 Latin、CJK、Cyrillic 和 Arabic 文字的情况。