Xây dựng một bộ dữ liệu nguồn mở Việt Nam để phục vụ AI

Xây dựng một bộ dữ liệu nguồn mở Việt Nam để phục vụ AI

Dự án Vigen đã phát triển một bộ dữ liệu nguồn mở cho Việt Nam để đào tạo và đánh giá chức năng của các mô hình AI phục vụ Việt Nam.

Đại diện của Trung tâm Đổi mới Quốc gia NIC cho biết tại lễ thông báo về Thử thách đổi mới năm 2025 rằng kế hoạch đặt ra các mục tiêu để thúc đẩy sự phát triển của trí tuệ nhân tạo ở Việt Nam. Trong khi đó, NIC cũng đã công bố dự án Vigen xây dựng các bộ dữ liệu Việt Nam lớn và chất lượng cao.

Bộ dữ liệu (bộ dữ liệu) là một nền tảng quan trọng để tạo các mô hình ngôn ngữ lớn (LLM) trước khi được đưa vào ứng dụng. Bộ dữ liệu chất lượng càng cao, độ chính xác của LLM càng cao.





Ông Tran Viet Hung, đồng sáng lập Việt Nam AI, bộ phận triển khai của Vigen đã chia sẻ bên lề thông báo. Ảnh: Luu QUY

Ông Tran Viet Hung, đồng sáng lập Việt Nam AI, bộ phận triển khai của Vigen đã chia sẻ bên lề thông báo. hình ảnh: Luu QUY

Theo ông Tran Việt Hung, đồng sáng lập Việt Nam AI, Việt Nam – Việt và Việt Nam được hơn 100 triệu người dùng triển khai, nhưng hiện đang dựa trên đào tạo 1% cho các mô hình ngôn ngữ lớn. Ông Hong nói: “Đây là lý do tại sao đầu ra của các mô hình AI hiện tại có giá trị thông tin, nhưng không tự nhiên, nhưng không truyền đạt giá trị của ngôn ngữ Việt Nam, vì vậy nó không hữu ích và không hiệu quả.”

Đại diện dự án cho biết họ sẽ xây dựng một bộ dữ liệu Việt Nam lớn hơn và chất lượng cao để đào tạo và đánh giá chức năng của các mô hình AI. Điều này giúp đảm bảo sự phát triển của AI tại Việt Nam theo các giá trị văn hóa và tiêu chuẩn đạo đức của Việt Nam, nhằm mục đích thiết lập một hệ sinh thái AI nguồn mở dựa trên BOI địa phương và có trách nhiệm.

Lộ trình dự án đã được vào năm 2027 trong ba năm. Trong số đó, các nhiệm vụ liên quan đến việc xây dựng và phát triển các bộ dữ liệu sẽ được thực hiện vào năm 2025 trước khi chúng được hoàn thành và đưa vào ứng dụng.





Lộ trình ba năm cho dự án mở rộng. Ảnh: AI của Việt Nam

Lộ trình ba năm cho dự án mở rộng. hình ảnh: Ai đang đến Việt Nam

Vigen là kết quả của sự hợp tác ba bên, bao gồm Tuples, Nic Center và Việt Nam AI. Cụ thể, NIC đóng vai trò quản lý, điều phối và đảm bảo rằng dự án phù hợp với các mục tiêu quốc gia Việt Nam. AI của Việt Nam là đối tác triển khai. Meta cung cấp hỗ trợ kỹ thuật và tài chính. Ngoài ra, nhóm cho biết họ sẽ đóng góp cho các bộ dữ liệu nguồn mở của các chương trình và dữ liệu AI và lợi ích cộng đồng của nó, bao gồm thông tin về kết nối di động và xã hội, cũng như đào tạo dữ liệu từ bản đồ dân số AI. Nhiều đối tác chiến lược của dự án bao gồm NVIDIA, Viện khoa học và công nghệ Viettel và Việt Nam.

Theo ông Hong, với tốc độ tăng trưởng hiện tại của AI, cơ hội sẽ được trải nghiệm ngay cả khi chúng không được sử dụng nhanh chóng. Sự phát triển của bộ dữ liệu Việt Nam mở giúp các dự án dành quá nhiều thời gian và nguồn lực để đào tạo và đầu tư. “Nhiệm vụ của Viden là tạo ra các mô hình AI hỗ trợ tự nhiên và toàn diện Việt Nam từ cốt lõi, từ đó 'mở khóa tiềm năng của các ứng dụng trí tuệ nhân tạo của Việt Nam'.”

Dự án, được đánh giá bởi Giáo sư Yann Lecun, kiến ​​trúc sư dẫn đầu meta, được đặt tên là không chỉ quảng bá công nghệ, mà còn xây dựng tích hợp AI, tôn trọng và tích hợp tương lai của di sản văn hóa và văn hóa độc đáo của Việt Nam.

Ông Vo Xuan Hoai, phó giám đốc của NIC, nhấn mạnh vào thông báo rằng AI đang thay đổi thế giới, vì vậy sự phát triển của các bộ dữ liệu Việt Nam lớn, chất lượng cao và mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.

Theo ông, Wyden phù hợp với Nghị quyết 57 của Bộ Chính trị để thúc đẩy các bước đột phá về khoa học, công nghệ, đổi mới và dân số quốc gia, nhưng yêu cầu các nhà hoạch định chính sách, nhóm nghiên cứu, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng phải làm việc cùng nhau.

“Các lực lượng liên quan sẽ biến AI thành một công cụ mạnh mẽ cho người dân Việt Nam và biến Việt Nam thành một trí tuệ nhân tạo toàn cầu”, Hoai nói.

Đây là năm thứ ba tổ chức Chương trình Thử thách Đổi mới Việt Nam. Bắt đầu từ năm 2022, chương trình sẽ thu hút hơn 750 giải pháp từ 20 quốc gia và khu vực mỗi năm. Phó Thủ tướng Nguyễn Chi Dung cho biết đây là một kế hoạch chiến lược nhằm tìm kiếm các giải pháp toàn cầu sáng tạo để giải quyết các thách thức quốc gia quan trọng để giải quyết sự thịnh vượng và phát triển bền vững của Việt Nam.

Để làm cho chương trình thành công, sự hợp tác giữa công chúng, khu vực tư nhân và các đối tác trong và ngoài nước đã được hợp tác với Việt Nam Việt Nam phát triển mạnh, thử nghiệm và thực hiện chương trình đổi mới, ông Dung nói.

Luu QUY

Nhận xét để tạo
Bạn có thể hỏi tất cả các câu hỏi về khoa học, công nghệ, đổi mới, thay đổi số trực tiếp cho Bộ trưởng, Phó Bộ trưởng và Bộ trưởng Khoa học và Công nghệ.

Gửi đề xuất