Name: Bản quyền PDFlib TET chính hãng
Brand: PDFlib
SKU: CSI99458234
Price: 64695000 VND
Availability: InStock

PDFlib TET

PDFlib TET trích xuất văn bản, hình ảnh và metadata từ PDF dưới dạng Unicode hoặc XML có cấu trúc. Bộ công cụ hỗ trợ library/component và command-line tool cho xử lý batch.

Trích xuất text, images và metadata từ bất kỳ tệp PDF.
Xuất nội dung PDF thành Unicode strings hoặc structured XML.
Cung cấp thông tin glyph, font và vị trí văn bản trên trang.
Chuẩn hóa text PDF sang Unicode để xử lý nhất quán.

Tổng quan

PDFlib TET (Text Extraction Toolkit) xử lý việc trích xuất text, images và metadata từ tệp PDF, đồng thời cung cấp dữ liệu đầu ra dưới dạng Unicode strings hoặc structured XML. Bộ công cụ này còn trả về thông tin glyph, font và vị trí văn bản trên trang để phục vụ các tác vụ phân tích sâu hơn.

PDFlibPDFlib is a developer toolbox for generating and manipulating files in the Portable Document Format (PDF). PDFlib’s main targets are dynamic PDF creation

Phần content analysis của TET bao gồm các thuật toán xác định ranh giới từ, ghép lại từ bị ngắt dòng, loại bỏ text trùng lặp như shadow hoặc artificial bold, tái tạo dòng văn bản và sắp xếp paragraph theo reading order.

PDF OutputGenerate PDF documents on disk file or directly in memory (for Web servers). High-volume output and arbitrary PDF file size (even beyond 10 GB). Suspe

Cách tiếp cận này phù hợp khi cần lấy nội dung PDF sạch hơn so với mức ký tự thô.

PDF MergeMerge multiple PDF documents. (Requires PDFlib+PDI/PPS 7)

Tính năng nổi bật

Trích xuất text, images và metadata từ bất kỳ tệp PDF.
Camera Metadata — Xuất nội dung PDF thành Unicode strings hoặc structured XML.
Cung cấp thông tin glyph, font và vị trí văn bản trên trang.
Chuẩn hóa text PDF sang Unicode để xử lý nhất quán.
Trả về UTF-8 hoặc UTF-16 trong C và Unicode native ở binding khác.
Phân rã ligatures thành chuỗi ký tự Unicode cấu thành.
Nhận diện PUA mappings và ánh xạ sang Unicode common area khi có thể.

Ứng dụng thực tế

Lưu text trích xuất từ PDF vào cơ sở dữ liệu.
Xây dựng search engine để xử lý nội dung PDF.
Chuyển nội dung trang PDF sang XML cho các công cụ xử lý khác.
Xử lý tài liệu PDF dựa trên nội dung thực tế của trang.
Tích hợp thư viện vào desktop application hoặc server application.

Đối tượng sử dụng phù hợp

Lập trình viên xây dựng hệ thống xử lý tài liệu PDF
Dev lead cần tích hợp text extraction vào ứng dụng desktop hoặc server
Đội backend triển khai batch processing PDF trên hạ tầng đa nền tảng
Nhóm kỹ thuật cần truy xuất metadata, hypertext và cấu trúc nội dung PDF

Thông tin kỹ thuật

Supported PDF input:PDF 1.0 up to PDF 1.7 extension level 8 and PDF 2.0, corresponding to Acrobat 1-XI.

Supported font and encoding types:base 14 fonts, TrueType, PostScript, OpenType, CID fonts.

Encrypted PDF support:40-bit and 128-bit encryption, with appropriate permission settings or password required.

Language bindings:COM, C, C++, Java, and.NET.

Component types:.NET Class,.NET Core DLL, Java Class, Java on all platforms Java 8+.

.NET support:Windows x86, Windows x64, Linux x64, macOS x64 and ARM64, Alpine Linux x64.

Câu hỏi thường gặp

PDFlib TET có những hình thức triển khai nào?

Có hai hình thức chính: programming library/component để tích hợp vào ứng dụng và command-line tool để xử lý batch.

PDFlib TET có xuất nội dung PDF sang XML không?

Có. Công cụ hỗ trợ chuyển text content của PDF pages sang XML với Unicode text, có hoặc không kèm character metrics.

PDFlib TET có hỗ trợ PDF mã hóa không?

Có. Sản phẩm hỗ trợ encrypted PDF với mã hóa 40-bit và 128-bit khi có quyền phù hợp hoặc password.

PDFlib TET có hỗ trợ tiếng Trung, Nhật và Hàn không?

Có. Bộ công cụ hỗ trợ đầy đủ Chinese, Japanese và Korean text extraction, bao gồm predefined CJK CMaps và cả horizontal, vertical writing modes.

PDFlib TET có phù hợp cho ứng dụng server đa luồng không?

Có. TET là thread-safe cho deployment trong multi-threaded server applications.

PDFlib TET

Tổng quan

Tính năng nổi bật

Ứng dụng thực tế

Đối tượng sử dụng phù hợp

Thông tin kỹ thuật

Câu hỏi thường gặp

Sản phẩm liên quan

Bình luận

Để lại bình luận Cancel reply

Tin công ty

Chính sách chung

Hướng dẫn chung