Tổng quan
Antenna House PDFXML Conversion Library tập trung vào việc mở khóa nội dung từ các tệp PDF legacy để tái sử dụng trong những quy trình xử lý tài liệu hiện đại. Thay vì gõ lại nội dung hoặc cố tái dựng dữ liệu từ định dạng nhị phân của PDF, thư viện này chuyển phần nội dung đó sang AHPDFXML, một cấu trúc XML trung gian do Antenna House định nghĩa.

Bộ thư viện hoạt động dưới dạng C/C++ library và đi kèm chương trình command-line. Công nghệ PDF Analyzer của Antenna House được dùng để tạo XML có cấu trúc phong phú từ từng trang PDF, bao gồm văn bản, bảng và hình ảnh.
Thư viện C/C++ chuyển đổi PDF sang AHPDFXML để trích xuất văn bản, bảng và hình ảnh, rồi biến đổi tiếp sang XML, HTML5, XSL-FO hoặc DocBook bằng XSLT.
Tính năng nổi bật
- Chuyển nội dung từ PDF legacy sang AHPDFXML để tái sử dụng dữ liệu.
- Trích xuất văn bản, bảng và hình ảnh trực tiếp từ tài liệu PDF.
- Tạo XML có cấu trúc phong phú bằng PDF Analyzer Technology.
- Xử lý khối lượng lớn PDF cho nhu cầu chuyển đổi trong tổ chức.
- Nạp thông tin riêng cho từng trang PDF trước khi phân tích.
- Nhận diện các đường dọc và ngang từ line drawings.
- Phân tích cấu trúc bảng và tạo văn bản theo từng ô.
Ứng dụng thực tế
- Khai thác lại nội dung từ kho PDF cũ để đưa vào hệ thống XML publishing.
- Chuyển PDF sang cấu trúc XML trung gian trước khi biến đổi bằng XSLT.
- Trích xuất bảng và văn bản từ PDF cho nhu cầu search và indexing.
- Chuẩn hóa tài liệu PDF sang HTML5, DocBook hoặc XSL-FO.
- Tích hợp dữ liệu PDF vào quy trình interoperability và data integration.
Đối tượng sử dụng phù hợp
- Nhóm phát triển C/C++ cần thư viện chuyển đổi PDF sang XML
- Tổ chức xử lý khối lượng lớn tài liệu PDF legacy
- Đội kỹ thuật xây dựng pipeline XSLT và XML publishing
- Bộ phận quản lý tài liệu cần tăng khả năng tìm kiếm và tái sử dụng nội dung
Thông tin kỹ thuật
Câu hỏi thường gặp
Antenna House PDFXML Conversion Library tạo ra đầu ra gì?
Đầu ra gốc là AHPDFXML, sau đó có thể dùng XSLT để biến đổi sang XML, HTML5, XSL-FO, DocBook hoặc text.
Sản phẩm có phải chỉ là thư viện không?
Gói này là thư viện C/C++ và có kèm chương trình command-line.
Những loại nội dung nào được trích xuất từ PDF?
Thư viện trích xuất văn bản, bảng và hình ảnh từ PDF.
Sản phẩm hỗ trợ môi trường nào?
Sản phẩm hỗ trợ nhiều phiên bản Windows và Linux 64bit, đồng thời tương thích Microsoft Visual Studio 2015 và Microsoft Visual C++ 2015.
Có hỗ trợ các phiên bản PDF tiêu chuẩn không?
Có. Sản phẩm hỗ trợ PDF 1.3—1.7 và PDF compliant with ISO 32000-1:2008.





Bình luận