Tổng quan
GroupDocs.Parser for Java tập trung vào bài toán trích xuất text, image và metadata từ tài liệu, bản trình bày, archive và email trong ứng dụng Java. API này hỗ trợ parsing raw text, structured text và formatted text, phù hợp cho các quy trình đọc nội dung tài liệu hoặc thu thập dữ liệu từ nhiều nguồn tệp.

Khả năng xử lý file có mật khẩu là điểm đáng chú ý khi làm việc với các định dạng phổ biến như word processing documents, Microsoft Excel spreadsheets, Microsoft PowerPoint presentations, Microsoft OneNote, PDF files và ZIP archives.
Metadata của các định dạng được hỗ trợ cũng có thể được truy xuất trực tiếp.
Tính năng nổi bật
- Trích xuất text từ office documents, PDF files và images.
- Lấy image từ office documents và PDF files.
- Quét và giải mã QR code trong tài liệu và nội dung hình ảnh.
- Trích xuất metadata của các định dạng tệp được hỗ trợ.
- Nhận diện và tách dữ liệu bảng từ PDF documents.
- Tìm hyperlink và email address trong office documents hoặc PDF files.
- Parse dữ liệu từ PDF Forms có trường nhập liệu.
Ứng dụng thực tế
- Xây dựng dịch vụ backend Java để trích xuất nội dung và metadata từ kho tài liệu doanh nghiệp.
- Tự động đọc bảng, hyperlink hoặc dữ liệu biểu mẫu từ PDF trong quy trình xử lý hồ sơ.
- Phân tích file đính kèm email và archive để thu thập dữ liệu phục vụ indexing hoặc kiểm tra nội dung.
- Tạo công cụ tìm kiếm nội dung tài liệu theo từ khóa hoặc pattern trong hệ thống nội bộ.
- Xử lý tài liệu số hóa có chứa QR code hoặc hình ảnh cần trích xuất.
Đối tượng sử dụng phù hợp
- Java developers xây dựng hệ thống xử lý tài liệu
- Technical leads phụ trách tích hợp API parsing vào backend services
- QA và test engineers cần kiểm tra dữ liệu trích xuất từ nhiều định dạng tệp
- Đội ngũ kỹ thuật mua sắm thư viện Java cho nhu cầu document parsing và metadata extraction
Thông tin kỹ thuật
Câu hỏi thường gặp
GroupDocs.Parser for Java dùng để làm gì?
API này dùng để trích xuất text, image và metadata từ documents, presentations, archives và emails trong ứng dụng Java.
Có hỗ trợ file có mật khẩu không?
Có. API hỗ trợ trích xuất text và metadata từ password protected files trong nhiều định dạng phổ biến.
Có thể parse dữ liệu từ PDF Forms không?
Có. API hỗ trợ parse dữ liệu từ PDF Forms với các trường nhập liệu.
Những hệ điều hành nào được hỗ trợ?
Sản phẩm hỗ trợ Windows, Linux, Mac OS X và Microsoft Azure.
Java version nào tương thích?
Hỗ trợ J2SE 6.0 (1.6), J2SE 7.0 (1.7), J2SE 8.0 (1.8) hoặc cao hơn.




Bình luận