본문으로 건너뛰기
Ztract

문서 업로드하기

Ztract가 받는 파일, 용량의 한계, 그리고 엔진이 읽을 수 없었던 페이지에 대해 비용을 청구하지 않도록 실패를 다루는 방식.

업데이트:

지원되는 파일 형식

Ztract는 다음 파일 형식을 읽습니다.

분류형식
문서PDF, OFD
오피스Word (.doc / .docx), Excel (.xls / .xlsx), PowerPoint (.ppt / .pptx)
텍스트 기반HTML (.mhtml 포함), TXT, CSV, RTF
이미지JPG / JPEG, PNG, WebP, TIFF, BMP

PDF는 디지털(벡터 텍스트)이든 스캔본(이미지 기반)이든 모두 작동합니다. 종이 문서를 휴대폰으로 찍은 사진도 받습니다. 다만 대비가 낮거나 심하게 기울어진 사진은 개별 필드의 신뢰도가 낮게 나올 수 있습니다.

엔진은 현재 릴리스에서 HEIC, ZIP 아카이브, 이메일 파일(.eml)은 읽지 않습니다. 이 중 하나가 필요한 업무 흐름이 있으시다면 이메일로 알려주세요 — 새 형식에 대한 수요를 모으고 있습니다.

용량 제한

  • 파일당: 최대 500 MB

이를 넘는 파일은 업로드 시 거부됩니다. 정말로 큰 PDF라면, 사용하시는 PDF 도구로 나눈 뒤 같은 프로젝트에 별도의 파일로 업로드하시면 됩니다.

단일 파일과 일괄 업로드

한 번에 한 파일씩 끌어다 놓으셔도 되고, 폴더나 여러 파일을 한꺼번에 놓으셔도 됩니다. 대시보드는 대역폭이 허용하는 만큼 각 파일을 병렬로 처리하며, 문서별 진행 상황을 보여줍니다. 하나의 배치에 큐로 넣을 수 있는 파일 수에는 상한이 없습니다 — 한 세션에서 수천 장의 송장을 무리 없이 처리하시는 사례를 보아 왔습니다.

배치가 아주 클 때(10,000+ 개 파일)는 대시보드가 반응성을 유지하도록 더 작은 묶음으로 나눠 업로드하시기를 권합니다. 세션당 수만 건을 처리하는 대량 업로드 경로를 준비 중입니다 — 그것이 출시되기 전까지는 수천 단위 배치가 깔끔하게 동작합니다.

처리 중에 일어나는 일

  1. 파일이 Ztract의 객체 저장소로 업로드됩니다.
  2. 엔진이 파일을 어떻게 읽을지 판단하고(디지털 PDF, 스캔 이미지, 오피스 등) 그에 맞게 라우팅합니다.
  3. 페이지가 파싱되고 스키마가 적용됩니다. 추출된 모든 값에 대해 바운딩 박스가 기록됩니다.
  4. 결과가 프로젝트에 도착합니다 — 한 페이지짜리 문서는 보통 몇 초, 여러 페이지나 스캔본은 더 오래 걸립니다.

단일 문서가 끝나기를 기다리실 필요는 없습니다 — 끝나는 즉시 첫 번째 문서부터 검토를 시작하시면 됩니다. 나머지는 백그라운드에서 끝날 수 있습니다.

문서 전체 추출과 페이지별 추출

대부분의 스키마는 각 문서를 하나의 단위로 다룹니다. 문서 한 건 = 한 번의 추출 = 한 묶음의 필드. Ztract의 기본 동작이며, 송장, 영수증, 계약서, 신분증, 그리고 대부분의 다른 양식에 알맞은 모드입니다.

페이지마다 독립된 레코드인 문서라면 — 예를 들어 각 페이지가 그 자체로 거래 내역 표인 여러 페이지짜리 은행 명세서, 또는 영수증을 한 PDF로 모아 스캔한 묶음 — Ztract는 페이지 단위로 추출할 수 있습니다. 각 페이지가 파싱된 데이터 뷰에서 자체 행이 되며, 각 페이지가 자체 추출로 집계되고 청구됩니다.

이 선택은 스키마별로 이루어지며, 샘플 문서로 프로젝트를 만드실 때 설정합니다. 샘플 업로드 다이얼로그가 스키마를 만들기 전에 어떤 모드가 적합한지 묻습니다.

문서 목록 필터링

프로젝트의 문서 탭 상단에는 두 개의 필터가 있습니다.

  • 상태 — 대기, 처리 중, 성공, 실패, 부분 성공. 대규모 업로드를 일괄로 돌린 뒤 실패 건을 찾거나, 마지막 몇 건이 끝나기를 기다리실 때 유용합니다.
  • 스키마 신선도 — 추출 결과가 프로젝트의 현재 스키마와 여전히 일치하는 문서만, 또는 스키마 업데이트됨으로 표시된 문서만 (스키마가 바뀌기 전에 추출된, 재추출 후보) 보여줍니다. 검토하고 수정하기를 참고하세요.

페이지를 읽을 수 없을 때

가끔 페이지를 처리할 수 없는 경우가 있습니다. 가장 흔한 이유는 다음과 같습니다.

  • 파일이 손상되었거나 비밀번호로 보호되어 있을 때.
  • 형식은 지원되지만 엔진이 이 특정 파일을 열지 못했을 때 (예: 흔치 않은 압축이 적용된 TIFF).
  • 내부 오류가 발생했을 때.

이런 일이 생기면, 해당 페이지는 패키지로 환불됩니다 — 결과를 만들어 낸 추출에 대해서만 비용을 지불하시면 됩니다. 대시보드는 실패한 페이지에 실패 사유를 표시하므로, 원본을 고친 뒤 다시 올리실지 결정하실 수 있습니다.

이것이 일반적인 OCR 제품과 과금 방식이 다른 몇 가지 지점 중 하나입니다. 대부분은 쓸 만한 결과를 냈는지와 상관없이 비용을 청구합니다. 저희는 그러지 않습니다.

무엇이 한 페이지로 집계되는가

결제, 패키지, 환불 페이지에서 자세히 다루지만, 간단히 정리하면 다음과 같습니다.

  • PDF 또는 오피스 파일: 원본의 페이지당 한 페이지.
  • 이미지 또는 텍스트 기반 파일: 일반적으로 한 페이지 — 다만 아주 큰 파일은 시스템이 여러 페이지로 나눌 수 있습니다.
  • 같은 문서를 수정한 스키마로 다시 돌리는 경우: 새로운 추출로 집계됩니다. 대량으로 처리하시기 전에 스키마를 먼저 확정하세요.

실용적인 팁

  • 스캔본의 정확도를 높이고 싶다면, 원본 PDF가 있으시면 그것을 사용하세요. 벡터 텍스트가 래스터화된 텍스트보다 더 안정적으로 읽힙니다.
  • 휴대폰 사진은 문서를 평평하게 두고, 화면 안에 다 들어오도록, 적당히 밝게 찍으세요. 광택 코팅의 반사광도 처리되지만 신뢰도가 떨어집니다.
  • 아주 긴 PDF(100페이지 이상)는 정말로 모든 페이지가 필요한지 먼저 생각해 보세요. 500페이지짜리 법률 증거 자료에서 데이터가 들어 있는 30페이지만 추려내는 편이 더 경제적입니다.
  • 여러 언어가 섞인 문서에는 별도의 설정이 필요 없습니다 — 엔진은 라틴, CJK, 키릴, 아랍 문자가 섞인 페이지를 처리합니다.

← 전체 문서로 돌아가기