Tổng quan
PDFlib TET (Text Extraction Toolkit) xử lý việc trích xuất text, images và metadata từ tệp PDF, đồng thời cung cấp dữ liệu đầu ra dưới dạng Unicode strings hoặc structured XML. Bộ công cụ này còn trả về thông tin glyph, font và vị trí văn bản trên trang để phục vụ các tác vụ phân tích sâu hơn.

Phần content analysis của TET bao gồm các thuật toán xác định ranh giới từ, ghép lại từ bị ngắt dòng, loại bỏ text trùng lặp như shadow hoặc artificial bold, tái tạo dòng văn bản và sắp xếp paragraph theo reading order.

Cách tiếp cận này phù hợp khi cần lấy nội dung PDF sạch hơn so với mức ký tự thô.

Tính năng nổi bật
- Trích xuất text, images và metadata từ bất kỳ tệp PDF.
- Camera Metadata — Xuất nội dung PDF thành Unicode strings hoặc structured XML.
- Cung cấp thông tin glyph, font và vị trí văn bản trên trang.
- Chuẩn hóa text PDF sang Unicode để xử lý nhất quán.
- Trả về UTF-8 hoặc UTF-16 trong C và Unicode native ở binding khác.
- Phân rã ligatures thành chuỗi ký tự Unicode cấu thành.
- Nhận diện PUA mappings và ánh xạ sang Unicode common area khi có thể.
Ứng dụng thực tế
- Lưu text trích xuất từ PDF vào cơ sở dữ liệu.
- Xây dựng search engine để xử lý nội dung PDF.
- Chuyển nội dung trang PDF sang XML cho các công cụ xử lý khác.
- Xử lý tài liệu PDF dựa trên nội dung thực tế của trang.
- Tích hợp thư viện vào desktop application hoặc server application.
Đối tượng sử dụng phù hợp
- Lập trình viên xây dựng hệ thống xử lý tài liệu PDF
- Dev lead cần tích hợp text extraction vào ứng dụng desktop hoặc server
- Đội backend triển khai batch processing PDF trên hạ tầng đa nền tảng
- Nhóm kỹ thuật cần truy xuất metadata, hypertext và cấu trúc nội dung PDF
Thông tin kỹ thuật
Câu hỏi thường gặp
PDFlib TET có những hình thức triển khai nào?
Có hai hình thức chính: programming library/component để tích hợp vào ứng dụng và command-line tool để xử lý batch.
PDFlib TET có xuất nội dung PDF sang XML không?
Có. Công cụ hỗ trợ chuyển text content của PDF pages sang XML với Unicode text, có hoặc không kèm character metrics.
PDFlib TET có hỗ trợ PDF mã hóa không?
Có. Sản phẩm hỗ trợ encrypted PDF với mã hóa 40-bit và 128-bit khi có quyền phù hợp hoặc password.
PDFlib TET có hỗ trợ tiếng Trung, Nhật và Hàn không?
Có. Bộ công cụ hỗ trợ đầy đủ Chinese, Japanese và Korean text extraction, bao gồm predefined CJK CMaps và cả horizontal, vertical writing modes.
PDFlib TET có phù hợp cho ứng dụng server đa luồng không?
Có. TET là thread-safe cho deployment trong multi-threaded server applications.





Bình luận