Ứng dụngCOM, C
Nền tảngWindows, macOS, Linux
License1 User License, 1 Server License, 1
LoạiPDF Text Extraction Toolkit
PDFlib

PDFlib TET

PDFlib TET trích xuất văn bản, hình ảnh và metadata từ PDF dưới dạng Unicode hoặc XML có cấu trúc. Bộ công cụ hỗ trợ library/component và command-line tool cho xử lý batch.

  • Trích xuất text, images và metadata từ bất kỳ tệp PDF.
  • Xuất nội dung PDF thành Unicode strings hoặc structured XML.
  • Cung cấp thông tin glyph, font và vị trí văn bản trên trang.
  • Chuẩn hóa text PDF sang Unicode để xử lý nhất quán.
Bản quyền chính hãngTư vấn phiên bản và license phù hợp theo nhu cầu sử dụng.
Tư vấn license phù hợpHỗ trợ lựa chọn license theo quy mô triển khai và ngân sách.
Hỗ trợ doanh nghiệpTư vấn mua hàng, triển khai và hồ sơ doanh nghiệp.
Báo giá theo nhu cầuBáo giá theo phiên bản, số lượng và hình thức license.

Tổng quan

PDFlib TET (Text Extraction Toolkit) xử lý việc trích xuất text, images và metadata từ tệp PDF, đồng thời cung cấp dữ liệu đầu ra dưới dạng Unicode strings hoặc structured XML. Bộ công cụ này còn trả về thông tin glyph, font và vị trí văn bản trên trang để phục vụ các tác vụ phân tích sâu hơn.

PDFlibPDFlib is a developer toolbox for generating and manipulating files in the Portable Document Format (PDF). PDFlib’s main targets are dynamic PDF creation

Phần content analysis của TET bao gồm các thuật toán xác định ranh giới từ, ghép lại từ bị ngắt dòng, loại bỏ text trùng lặp như shadow hoặc artificial bold, tái tạo dòng văn bản và sắp xếp paragraph theo reading order.

PDF OutputGenerate PDF documents on disk file or directly in memory (for Web servers). High-volume output and arbitrary PDF file size (even beyond 10 GB). Suspe

Cách tiếp cận này phù hợp khi cần lấy nội dung PDF sạch hơn so với mức ký tự thô.

PDF MergeMerge multiple PDF documents. (Requires PDFlib+PDI/PPS 7)

Tính năng nổi bật

  • Trích xuất text, images và metadata từ bất kỳ tệp PDF.
  • Camera Metadata — Xuất nội dung PDF thành Unicode strings hoặc structured XML.
  • Cung cấp thông tin glyph, font và vị trí văn bản trên trang.
  • Chuẩn hóa text PDF sang Unicode để xử lý nhất quán.
  • Trả về UTF-8 hoặc UTF-16 trong C và Unicode native ở binding khác.
  • Phân rã ligatures thành chuỗi ký tự Unicode cấu thành.
  • Nhận diện PUA mappings và ánh xạ sang Unicode common area khi có thể.

Ứng dụng thực tế

  • Lưu text trích xuất từ PDF vào cơ sở dữ liệu.
  • Xây dựng search engine để xử lý nội dung PDF.
  • Chuyển nội dung trang PDF sang XML cho các công cụ xử lý khác.
  • Xử lý tài liệu PDF dựa trên nội dung thực tế của trang.
  • Tích hợp thư viện vào desktop application hoặc server application.

Đối tượng sử dụng phù hợp

  • Lập trình viên xây dựng hệ thống xử lý tài liệu PDF
  • Dev lead cần tích hợp text extraction vào ứng dụng desktop hoặc server
  • Đội backend triển khai batch processing PDF trên hạ tầng đa nền tảng
  • Nhóm kỹ thuật cần truy xuất metadata, hypertext và cấu trúc nội dung PDF

Thông tin kỹ thuật

Supported PDF input:PDF 1.0 up to PDF 1.7 extension level 8 and PDF 2.0, corresponding to Acrobat 1-XI.
Supported font and encoding types:base 14 fonts, TrueType, PostScript, OpenType, CID fonts.
Encrypted PDF support:40-bit and 128-bit encryption, with appropriate permission settings or password required.
Language bindings:COM, C, C++, Java, and.NET.
Component types:.NET Class,.NET Core DLL, Java Class, Java on all platforms Java 8+.
.NET support:Windows x86, Windows x64, Linux x64, macOS x64 and ARM64, Alpine Linux x64.
Nhận báo giá phần mềm bản quyền

Điền thông tin để chúng tôi có thể gửi báo giá phù hợp trong thời gian sớm nhất.

Câu hỏi thường gặp

PDFlib TET có những hình thức triển khai nào?

Có hai hình thức chính: programming library/component để tích hợp vào ứng dụng và command-line tool để xử lý batch.

PDFlib TET có xuất nội dung PDF sang XML không?

Có. Công cụ hỗ trợ chuyển text content của PDF pages sang XML với Unicode text, có hoặc không kèm character metrics.

PDFlib TET có hỗ trợ PDF mã hóa không?

Có. Sản phẩm hỗ trợ encrypted PDF với mã hóa 40-bit và 128-bit khi có quyền phù hợp hoặc password.

PDFlib TET có hỗ trợ tiếng Trung, Nhật và Hàn không?

Có. Bộ công cụ hỗ trợ đầy đủ Chinese, Japanese và Korean text extraction, bao gồm predefined CJK CMaps và cả horizontal, vertical writing modes.

PDFlib TET có phù hợp cho ứng dụng server đa luồng không?

Có. TET là thread-safe cho deployment trong multi-threaded server applications.

Bình luận

Để lại bình luận

Email của bạn sẽ không được công khai. Trường bắt buộc có dấu *.