문서 업로드하기
Ztract가 받는 파일, 용량의 한계, 그리고 엔진이 읽을 수 없었던 페이지에 대해 비용을 청구하지 않도록 실패를 다루는 방식.
업데이트:
지원되는 파일 형식
Ztract는 다음 파일 형식을 읽습니다.
| 분류 | 형식 |
|---|---|
| 문서 | PDF, OFD |
| 오피스 | Word (.doc / .docx), Excel (.xls / .xlsx), PowerPoint (.ppt / .pptx) |
| 텍스트 기반 | HTML (.mhtml 포함), TXT, CSV, RTF |
| 이미지 | JPG / JPEG, PNG, WebP, TIFF, BMP |
PDF는 디지털(벡터 텍스트)이든 스캔본(이미지 기반)이든 모두 작동합니다. 종이 문서를 휴대폰으로 찍은 사진도 받습니다. 다만 대비가 낮거나 심하게 기울어진 사진은 개별 필드의 신뢰도가 낮게 나올 수 있습니다.
엔진은 현재 릴리스에서 HEIC, ZIP 아카이브, 이메일 파일(.eml)은
읽지 않습니다. 이 중 하나가 필요한 업무 흐름이 있으시다면
이메일로 알려주세요 —
새 형식에 대한 수요를 모으고 있습니다.
용량 제한
- 파일당: 최대 500 MB
이를 넘는 파일은 업로드 시 거부됩니다. 정말로 큰 PDF라면, 사용하시는 PDF 도구로 나눈 뒤 같은 프로젝트에 별도의 파일로 업로드하시면 됩니다.
단일 파일과 일괄 업로드
한 번에 한 파일씩 끌어다 놓으셔도 되고, 폴더나 여러 파일을 한꺼번에 놓으셔도 됩니다. 대시보드는 대역폭이 허용하는 만큼 각 파일을 병렬로 처리하며, 문서별 진행 상황을 보여줍니다. 하나의 배치에 큐로 넣을 수 있는 파일 수에는 상한이 없습니다 — 한 세션에서 수천 장의 송장을 무리 없이 처리하시는 사례를 보아 왔습니다.
배치가 아주 클 때(10,000+ 개 파일)는 대시보드가 반응성을 유지하도록 더 작은 묶음으로 나눠 업로드하시기를 권합니다. 세션당 수만 건을 처리하는 대량 업로드 경로를 준비 중입니다 — 그것이 출시되기 전까지는 수천 단위 배치가 깔끔하게 동작합니다.
처리 중에 일어나는 일
- 파일이 Ztract의 객체 저장소로 업로드됩니다.
- 엔진이 파일을 어떻게 읽을지 판단하고(디지털 PDF, 스캔 이미지, 오피스 등) 그에 맞게 라우팅합니다.
- 페이지가 파싱되고 스키마가 적용됩니다. 추출된 모든 값에 대해 바운딩 박스가 기록됩니다.
- 결과가 프로젝트에 도착합니다 — 한 페이지짜리 문서는 보통 몇 초, 여러 페이지나 스캔본은 더 오래 걸립니다.
단일 문서가 끝나기를 기다리실 필요는 없습니다 — 끝나는 즉시 첫 번째 문서부터 검토를 시작하시면 됩니다. 나머지는 백그라운드에서 끝날 수 있습니다.
문서 전체 추출과 페이지별 추출
대부분의 스키마는 각 문서를 하나의 단위로 다룹니다. 문서 한 건 = 한 번의 추출 = 한 묶음의 필드. Ztract의 기본 동작이며, 송장, 영수증, 계약서, 신분증, 그리고 대부분의 다른 양식에 알맞은 모드입니다.
페이지마다 독립된 레코드인 문서라면 — 예를 들어 각 페이지가 그 자체로 거래 내역 표인 여러 페이지짜리 은행 명세서, 또는 영수증을 한 PDF로 모아 스캔한 묶음 — Ztract는 페이지 단위로 추출할 수 있습니다. 각 페이지가 파싱된 데이터 뷰에서 자체 행이 되며, 각 페이지가 자체 추출로 집계되고 청구됩니다.
이 선택은 스키마별로 이루어지며, 샘플 문서로 프로젝트를 만드실 때 설정합니다. 샘플 업로드 다이얼로그가 스키마를 만들기 전에 어떤 모드가 적합한지 묻습니다.
문서 목록 필터링
프로젝트의 문서 탭 상단에는 두 개의 필터가 있습니다.
- 상태 — 대기, 처리 중, 성공, 실패, 부분 성공. 대규모 업로드를 일괄로 돌린 뒤 실패 건을 찾거나, 마지막 몇 건이 끝나기를 기다리실 때 유용합니다.
- 스키마 신선도 — 추출 결과가 프로젝트의 현재 스키마와 여전히
일치하는 문서만, 또는
스키마 업데이트됨으로 표시된 문서만 (스키마가 바뀌기 전에 추출된, 재추출 후보) 보여줍니다. 검토하고 수정하기를 참고하세요.
페이지를 읽을 수 없을 때
가끔 페이지를 처리할 수 없는 경우가 있습니다. 가장 흔한 이유는 다음과 같습니다.
- 파일이 손상되었거나 비밀번호로 보호되어 있을 때.
- 형식은 지원되지만 엔진이 이 특정 파일을 열지 못했을 때 (예: 흔치 않은 압축이 적용된 TIFF).
- 내부 오류가 발생했을 때.
이런 일이 생기면, 해당 페이지는 패키지로 환불됩니다 — 결과를 만들어 낸 추출에 대해서만 비용을 지불하시면 됩니다. 대시보드는 실패한 페이지에 실패 사유를 표시하므로, 원본을 고친 뒤 다시 올리실지 결정하실 수 있습니다.
이것이 일반적인 OCR 제품과 과금 방식이 다른 몇 가지 지점 중 하나입니다. 대부분은 쓸 만한 결과를 냈는지와 상관없이 비용을 청구합니다. 저희는 그러지 않습니다.
무엇이 한 페이지로 집계되는가
결제, 패키지, 환불 페이지에서 자세히 다루지만, 간단히 정리하면 다음과 같습니다.
- PDF 또는 오피스 파일: 원본의 페이지당 한 페이지.
- 이미지 또는 텍스트 기반 파일: 일반적으로 한 페이지 — 다만 아주 큰 파일은 시스템이 여러 페이지로 나눌 수 있습니다.
- 같은 문서를 수정한 스키마로 다시 돌리는 경우: 새로운 추출로 집계됩니다. 대량으로 처리하시기 전에 스키마를 먼저 확정하세요.
실용적인 팁
- 스캔본의 정확도를 높이고 싶다면, 원본 PDF가 있으시면 그것을 사용하세요. 벡터 텍스트가 래스터화된 텍스트보다 더 안정적으로 읽힙니다.
- 휴대폰 사진은 문서를 평평하게 두고, 화면 안에 다 들어오도록, 적당히 밝게 찍으세요. 광택 코팅의 반사광도 처리되지만 신뢰도가 떨어집니다.
- 아주 긴 PDF(100페이지 이상)는 정말로 모든 페이지가 필요한지 먼저 생각해 보세요. 500페이지짜리 법률 증거 자료에서 데이터가 들어 있는 30페이지만 추려내는 편이 더 경제적입니다.
- 여러 언어가 섞인 문서에는 별도의 설정이 필요 없습니다 — 엔진은 라틴, CJK, 키릴, 아랍 문자가 섞인 페이지를 처리합니다.