Tổng quan
LEADTOOLS OCR Module tập trung vào bài toán nhận dạng ký tự quang học trong ứng dụng với khả năng chia một trang thành nhiều vùng OCR riêng biệt. Mỗi vùng có thể dùng engine, bộ lọc và thiết lập khác nhau, phù hợp cho biểu mẫu, tài liệu nhiều cột hoặc bố cục không đồng nhất.

Các mức confidence và accuracy đặt trước giúp kiểm soát quá trình nhận dạng ngay từ đầu. Lexicon tích hợp sẵn và lexicon do người dùng định nghĩa hỗ trợ giới hạn kiểu văn bản cần nhận dạng trong từng vùng, từ đó cải thiện kết quả trên các tài liệu có từ vựng chuyên biệt.

Module OCR cho phép thêm nhiều vùng nhận dạng trên cùng một trang, đặt engine và bộ lọc riêng cho từng vùng, hỗ trợ hơn 100 ngôn ngữ và xuất ra hơn 40 định dạng.

Tính năng nổi bật
- Thêm nhiều vùng OCR trên cùng một trang với engine và bộ lọc riêng.
- Thiết lập mức confidence và accuracy trước khi bắt đầu nhận dạng.
- Giới hạn kiểu văn bản bằng lexicon tích hợp và lexicon tự định nghĩa.
- Kiểm tra hoặc sửa văn bản trong và sau quá trình nhận dạng.
- Hỗ trợ hơn 100 ngôn ngữ cho các kịch bản OCR đa ngôn ngữ.
- Dùng MOR OCR Engine với 114 ngôn ngữ và tối đa 500 vùng.
- Chọn MTX OCR Engine khi cần engine nhanh nhất trong nhóm selectable.
Ứng dụng thực tế
- Số hóa biểu mẫu có nhiều vùng dữ liệu cần cấu hình OCR riêng.
- Xử lý tài liệu nhiều cột, bảng hoặc bố cục không đều.
- Nhận dạng tài liệu đa ngôn ngữ trong quy trình nhập liệu.
- OCR cho fax, dot matrix, newsprint và tài liệu chất lượng thấp.
- Xây dựng hệ thống document processing cần tách text và graphics.
Đối tượng sử dụng phù hợp
- Lập trình viên xây dựng ứng dụng OCR và document imaging
- Nhóm kỹ thuật phát triển hệ thống số hóa tài liệu doanh nghiệp
- Dev lead cần tích hợp OCR vào ứng dụng desktop, web hoặc mobile
- QA và technical buyer đánh giá SDK OCR theo nền tảng và yêu cầu triển khai
Thông tin kỹ thuật
Câu hỏi thường gặp
LEADTOOLS OCR Module có hỗ trợ nhiều ngôn ngữ không?
Có. Phần mô tả nêu hỗ trợ hơn 100 ngôn ngữ, trong khi từng OCR engine có số lượng ngôn ngữ hỗ trợ khác nhau.
Có thể cấu hình nhiều vùng OCR trên cùng một trang không?
Có. Mỗi vùng có thể có OCR engine, filter và các tùy chọn riêng.
Có hỗ trợ kiểm tra và sửa kết quả nhận dạng không?
Có. Văn bản có thể được verify hoặc correct trong và sau khi nhận dạng, dựa trên confidence levels đã đặt.
Module này xuất được những định dạng nào?
Kết quả OCR có thể xuất sang hơn 40 định dạng, gồm MS Word, PDF, MS Excel, Dbase, WordPerfect và XDoc/XDoc Lite.
Cần phần mềm nào để sử dụng module?
Yêu cầu phần mềm ghi rõ cần LEADTOOLS Document Imaging hoặc Medical Imaging SDK.





Bình luận