Giải pháp của kỹ sư Việt là đưa bảng biểu trong ảnh vào file Excel, có thể nhận dạng ở tốc độ 40 khung hình/giây, chênh lệch 2% so với dữ liệu gốc.
Tại hội nghị trí tuệ nhân tạo ECAI 2024 diễn ra cuối tuần trước tại Tây Ban Nha, Viettel AI đã trình diễn giải pháp nhận dạng và trích xuất thông tin từ bảng “nhanh gấp 4 lần” so với các giải pháp hiện tại, lấy được cấu trúc và thông tin từ dữ liệu dạng bảng theo thời gian thực.
Sử dụng công nghệ tự động nhận dạng và trích xuất văn bản từ hình ảnh không có gì mới nhờ các công nghệ như OCR và AI. Tuy nhiên, qua nhiều năm, thách thức của giải pháp là không thể xử lý nhanh chóng các hình ảnh chứa bảng do tính đa dạng của cấu trúc bảng, chẳng hạn như bảng không viền, nhiều ô trống và các ô có kích thước khác nhau.
“Mặc dù quá trình xử lý chữ viết tay đã trở nên khá hiệu quả nhưng việc trích xuất chính xác thông tin từ các bảng tài liệu vẫn còn là một thách thức”, đại diện Viettel AI đánh giá. “Việc tự động hóa quy trình này giúp giảm nỗ lực nhập dữ liệu thủ công và tăng độ chính xác cũng như tốc độ xử lý văn bản.”
Nhóm cho biết họ đã xem xét việc giảm quá trình xử lý xuống một giai đoạn thay vì nhiều giai đoạn như yêu cầu truyền thống, do đó giúp xử lý các bảng có nhiều hàng và cột nhanh hơn. Ngoài ra, giải pháp còn giảm độ phức tạp của quá trình xử lý, giúp tiết kiệm bộ nhớ và quá trình đào tạo mô hình AI. Theo công bố của ECAI, giải pháp của các kỹ sư Việt Nam cho phép trích xuất 40 khung hình/giây trong một số trường hợp nhất định, với dữ liệu nhận được chênh lệch khoảng 2% so với dữ liệu tiêu chuẩn.
Các chuyên gia cho rằng hiệu quả của công nghệ cần được đánh giá thêm trong sử dụng thực tế. Khi thử nghiệm với hình ảnh chứa hai bảng, giải pháp có thể xuất ngay dữ liệu có cùng cấu trúc bảng, bảng tiêu chuẩn và cấu trúc dữ liệu. Tuy nhiên, vẫn còn một số lĩnh vực cần cải thiện, chẳng hạn như biểu tượng “>=” trong văn bản thông thường không được sao chép chính xác.
Đại diện nhóm nghiên cứu cho biết, công nghệ này cũng đã được tích hợp vào giải pháp xử lý tài liệu thông minh IDP của Viettel, có thể tự động trích xuất thông tin hình ảnh trong thời gian chưa đầy 2 giây cho mỗi trang tài liệu, tốc độ tăng 60-80 lần. So với việc nhập dữ liệu thủ công, tỷ lệ chính xác lên tới 90%, giúp người dùng tiết kiệm 80% thời gian phê duyệt tài liệu.
Một đại diện nhóm cho biết: “Công nghệ được công bố tại hội nghị ECAI 2024 là bước đầu tiên hướng tới việc tăng tốc độ xử lý của các giải pháp được thiết kế để xử lý thông tin không chỉ trong hai giây mà ngay lập tức”.