Tổng quan
GroupDocs.Parser for.NET tập trung vào bài toán trích xuất text, metadata và image trong ứng dụng nghiệp vụ viết bằng C#, ASP.NET và các công nghệ.NET khác. API hỗ trợ lấy raw text, formatted text và structured text từ nhiều loại tệp, phù hợp cho các quy trình đọc nội dung và phân tích tài liệu.

Phạm vi định dạng được hỗ trợ khá rộng, bao gồm Microsoft Word, Excel, PowerPoint, PDF, ảnh, HTML, MHTML, archive và ebook. Danh sách này cho phép cùng một API xử lý nhiều nguồn dữ liệu đầu vào trong hệ thống.NET mà không cần tách riêng từng công cụ theo định dạng.
API trích xuất text, metadata và image cho ứng dụng C#, ASP.NET và.NET, hỗ trợ nhiều định dạng tài liệu, PDF, ảnh, archive và ebook. Có thể parse tài liệu có mật khẩu, bảng, hyperlink, QR code và PDF Forms.
Tính năng nổi bật
- Camera Metadata — Trích xuất raw, formatted và structured text từ nhiều định dạng tài liệu.
- Đọc metadata từ các tệp thuộc danh sách định dạng được hỗ trợ.
- Lấy image từ office documents và PDF files.
- Quét và giải mã QR codes trong tài liệu và nội dung hình ảnh.
- Thu thập dữ liệu từ email attachments và nguồn dữ liệu nén.
- Nhận diện và trích xuất bảng từ PDF documents.
- Tách hyperlink và email addresses trong office documents hoặc PDF files.
Ứng dụng thực tế
- Xây dựng module đọc nội dung tài liệu trong hệ thống quản lý hồ sơ.NET.
- Trích xuất bảng và metadata từ PDF để phục vụ kiểm tra hoặc đối soát dữ liệu.
- Thu thập hyperlink, email addresses và text từ office documents.
- Xử lý dữ liệu từ archive và file đính kèm trong quy trình nhập liệu.
- Tạo mẫu parse riêng cho PDF files có cấu trúc lặp lại.
Đối tượng sử dụng phù hợp
- Lập trình viên.NET phát triển ứng dụng C# hoặc ASP.NET
- Tech lead phụ trách xử lý tài liệu và tích hợp dữ liệu
- QA hoặc test engineer cần kiểm tra nội dung trích xuất từ nhiều định dạng
- Đội kỹ thuật xây dựng quy trình đọc PDF, office documents, archive và ebook
Thông tin kỹ thuật
Câu hỏi thường gặp
GroupDocs.Parser for.NET hỗ trợ những loại dữ liệu nào?
API hỗ trợ trích xuất text, metadata, image, bảng trong PDF, hyperlink, email addresses, dữ liệu từ PDF Forms và QR codes.
Có thể dùng với ứng dụng C# và ASP.NET không?
Có. Mô tả sản phẩm nêu rõ API dành cho ứng dụng nghiệp vụ phát triển bằng C#, ASP.NET và các công nghệ.NET khác.
API có xử lý tài liệu có mật khẩu không?
Có. Sản phẩm hỗ trợ parse password protected documents cho Word, Excel, PowerPoint, OneNote, PDF files và ZIP archives.
Những framework.NET nào được hỗ trợ?
Danh sách gồm.NET Framework 4.6.1 or higher,.NET Standard 2.0 or higher,.NET Core 2.0 or higher,.NET 5,.NET 6,.NET 7,.NET 8,.NET 9 và.NET 10.
Có thể phát triển bằng Visual Studio nào?
Các môi trường được liệt kê gồm Microsoft Visual Studio 2026,2022,2019,2017,2015,2013,2012,2011 và 2010, cùng Xamarin và MonoDevelop.




Bình luận