跳转到正文
Ztract

上传文档

Ztract 能吃哪些文件、最大能传多大,以及引擎如何处理失败 —— 读不出来的页,不会让你白付钱。

更新于:

支持的文件格式

Ztract 可以读以下这些文件类型:

类别格式
文档PDF、OFD
OfficeWord(.doc / .docx)、Excel(.xls / .xlsx)、PowerPoint(.ppt / .pptx
文本类HTML(包括 .mhtml)、TXT、CSV、RTF
图片JPG / JPEG、PNG、WebP、TIFF、BMP

PDF 可以是数字版(带矢量文字)也可以是扫描版(纯图像), 两种都行。用手机拍的实体文档照片也能处理,只是低对比度或者 拍得严重歪斜的照片,单个字段的置信度可能会低一些。

引擎目前支持 HEIC、ZIP 压缩包、以及邮件文件 (.eml)。如果你的工作流需要其中某一种,发邮件告诉我们 —— 我们会统计需求决定要不要加。

体积上限

  • 单文件:最大 500 MB

超过上限的文件会在上传环节直接被拒。对于真的非常大的 PDF, 你可以先用顺手的 PDF 工具拆分,再把各部分作为同一个项目下的 独立文件分别上传。

单文件上传 vs 批量上传

可以一次拖一个文件,也可以拖一整个文件夹,或者多选拖进来。 Dashboard 会在带宽允许的范围内并行处理每个文件,并按文档逐个 显示进度。一次批量里能排多少文件没有硬上限 —— 我们见过有账号 一次塞进上千张发票也跑得顺顺的。

如果一次性要上特别多(10,000+ 个文件),建议分成更小的批次上传, 这样 dashboard 会更顺畅。我们正在做一条专为单次几万份文件设计的 批量上传通道 —— 在它上线之前,一次几千份是没问题的。

处理过程中发生了什么

  1. 文件先上传到 Ztract 的对象存储。
  2. 引擎判断这份文件该怎么读(数字版 PDF、扫描图、Office 等等), 再路由到对应的处理流程。
  3. 页面被解析,schema 被应用到上面。每个抽出来的值都会带上 bounding box。
  4. 结果回到你的项目里 —— 一页的文档通常几秒就好,多页或扫描件 会久一些。

你不用盯着单份文档等 —— 第一份处理完就可以开始审,后面的 可以在后台慢慢跑。

整份文档抽取 vs 逐页抽取

大多数 schema 把每份文档当成一个整体:一份文档 = 一次抽取 = 一组字段。这是 Ztract 的默认行为,也是发票、收据、合同、 证件、以及大多数表单类文档该用的模式。

对于每一页都是一条独立记录的文档 —— 比如一份每页都是独立交易 表格的多页银行对账单,或者把一摞收据扫成同一个 PDF —— Ztract 可以改成按页抽取。每一页在解析数据视图里成为单独的一行, 也作为单独的一次抽取计费。

这个选项是 per-schema 的,在你用样本文档创建项目时选定。样本 上传对话框会在构建 schema 之前先问你用哪种模式。

筛选文档列表

项目的「文档」标签顶部有两个筛选器:

  • 状态 —— 等待中、处理中、成功、失败、部分成功。 在大批量上传之后想快速找到失败的,或者在等最后几份处理完时, 特别有用。
  • schema 新旧 —— 只看那些当前抽取结果还匹配项目当前 schema 的文档,或者只看被标为 Schema 已更新 的(在 schema 变更之前抽取过、可以重跑的候选)。详见 审核与改正

某一页读不出来的时候

有时候某一页就是处理不了,最常见的原因是:

  • 文件损坏,或者带密码保护。
  • 格式本身支持,但引擎打不开这份具体的文件(比如某种压缩方式 不太常见的 TIFF)。
  • 内部错误。

这种情况下,那一页会退回到你的页数包里 —— 你只为真的产出 结果的抽取付费。Dashboard 会在失败页上标出失败原因,方便你 决定要不要修一下源文件再传。

这是我们的计费跟大多数 OCR 产品不一样的地方之一:大多数产品 不管有没有抽出有用结果都照收钱。我们不这么干。

什么算一页

简单提一下,详细规则见 计费、套餐与退款 这篇:

  • PDF 或 Office 文件:源文件每一页算一页
  • 图片或文本类文件:通常算一页 —— 不过特别大的文件可能会被 系统拆成多页。
  • 在同一份文档上用调过的 schema 重跑:算一次新抽取。所以最好 在大规模处理之前先把 schema 定稿。

一些实用小建议

  • 想要扫描件抽得更准,手上有原版 PDF 就用原版。矢量文字比栅格化 文字读起来更稳。
  • 用手机拍照时,让文档平整、完整入框、光线别太暗。亮膜反光也能 处理,但会拉低置信度。
  • 特别长的 PDF(100+ 页)先想一下你是不是真的每页都要。把一份 500 页的法律证据材料拆成只含数据的 30 页,更省钱。
  • 混合语言文档不需要任何特殊设置 —— 引擎可以处理同一页里混 Latin、CJK、Cyrillic 和 Arabic 文字的情况。

← 返回全部文档