导出你的数据
三种格式、两种粒度。挑一个下游工具能直接吃的,把文件丢进去就好。
更新于:
三种格式
Ztract 把抽取出来的数据导出成三种格式。挑一个你下游工具能原生读的就行。
JSON
结构化的那种。JSON 完整保留 schema 的形状 —— 嵌套对象、对象数组、字符串数组 —— 完全按引擎返回的样子。下面这些场景适合用 JSON:
- 你要通过脚本或工作流把数据灌进另一个系统。
- 你的下游工具原生读 JSON(大多数现代应用都行)。
- 你在意嵌套结构(合同上的当事人、供应商协议里的付款条款、带逐行税额的明细行)。
CSV
铺平的那种。CSV 的标量字段是一份文档一行,存在明细行的时候会单独导出一份 CSV。 下面这些场景适合用 CSV:
- 你要把数据导入数据库、BI 工具,或者任何要求扁平表的地方。
- 你在命令行工具里干活(
awk/cut/csvkit)。 - 你想要一种在任何电子表格里都能正常打开、不用折腾分隔符的格式。
嵌套字段会用点号路径拍平(例如
parties_involved.party_1_name)。
Excel
电子表格那种。当你的 schema 里有数组时,Excel 导出会用多个 sheet —— 文档级标量 字段一个 sheet,每个数组一个 sheet(明细行、交易记录等等)。表头是可读的文字。 下面这些场景适合用 Excel:
- 接收方是非技术用户,会直接打开文件。
- 你要在转交之前把抽取出的数据和公式拼一拼。
从哪里导出
打开一个项目,切到 解析数据 标签,点 导出。选格式,按需要按解析日期范围 筛一下,确认就行。导出是项目级的 —— 文件里包含该项目下所有匹配你日期筛选条件的 已解析文档。
导出是怎么产生的
导出是后台任务,不是直接下载。点了 导出 之后,任务会出现在项目的 导出记录 标签里,状态有三种:
- 排队中 —— 等着 worker 接走。
- 处理中 —— 文件正在构建。
- 就绪 —— 完成;点一下就能下载。
Dashboard 会自动轮询队列,你不用刷新。小项目通常几秒就好;几千份文档的项目可能 要几分钟。你可以关掉 dashboard 过会儿再回来 —— 文件会一直在那儿,直到你删除 项目。
每种格式里会有什么
- JSON:一个文档对象数组,每个对象都和 schema 匹配 —— 嵌套对象、对象数组、 字符串数组都原样保留。
- CSV:扁平结构,每份已解析文档一行(在按页模式下是每个已解析页一行)。 嵌套字段用点号路径表示。
- Excel:一个工作簿,和 CSV 一样的扁平结构,已经排版好可以直接打开。
每一次导出都会用上你最新的改动 —— 如果你在并排查看器里改过某个值,导出会 自动用改正后的值(改正以叠加层的形式存在原始抽取结果之上;不会重新触发引擎跑)。
审核和导出的循环
一个常见的循环:
- 第一遍抽取(引擎)。
- 抽查带置信度标记的字段,按需改正。
- 跑一次导出,用上文件。
- 发现漏了一个值?改正它。重新导出。免费 —— 重跑引擎要扣页数,但新的导出任务 不要钱。
API 导出
通过 HTTP API 进行程序化导出还在路线图上。现在所有导出都通过 dashboard 完成。 如果 API 是你的卡点,希望上线后第一时间收到通知,给我们发邮件: [support@ztract.com](mailto:support@ztract.com?subject=API early access)。