“Nút cổ chai” đe dọa Google, Meta

“Nút cổ chai” đe dọa Google, Meta

Sự cạn kiệt ngày càng tăng của dữ liệu văn bản do con người tạo ra đã trở thành mối đe dọa nghiêm trọng đối với các công ty trí tuệ nhân tạo như Google và Meta.

sự giàu có Trích dẫn kết quả do nhóm nghiên cứu Epoch công bố vào ngày 6/6, các công ty sẽ hết dữ liệu đào tạo AI vào năm 2026 đến năm 2032. Trí tuệ nhân tạo sáng tạo (GenAI) được ví như “cơn sốt vàng”, với cuộc chạy đua phát triển nó khiến nguồn dữ liệu nhân tạo hạn chế càng trở nên cạn kiệt.

Trước mắt, các công ty như OpenAI và Google đang tìm cách bảo vệ tài nguyên của họ và thậm chí trả tiền để có được dữ liệu chất lượng cao cho hoạt động đào tạo AI.





Giám đốc điều hành OpenAI Sam Altman (trái) và Giám đốc điều hành Microsoft Satya Nadella tại sự kiện OpenAI tháng 6 năm 2023.  Ảnh: CNBC

Giám đốc điều hành OpenAI Sam Altman (trái) và Giám đốc điều hành Microsoft Satya Nadella tại sự kiện OpenAI tháng 6 năm 2023. hình ảnh: CNBC

Tamay Besiroglu, tác giả chính của nghiên cứu, chỉ ra rằng về lâu dài, sẽ không có đủ bài viết, blog, tin tức và bình luận mới trên mạng xã hội để duy trì quỹ đạo phát triển hiện tại của trí tuệ nhân tạo. Những “điểm nghẽn” trong ngành có thể xảy ra khi một số thông tin liên quan đến email và tin nhắn văn bản bị đánh dấu là nhạy cảm hoặc riêng tư.

Besiroglu nói: “Bạn không thể mở rộng quy mô các mô hình AI một cách hiệu quả nếu có dữ liệu hạn chế. Một số nghiên cứu cho rằng đến năm 2026, dữ liệu chất lượng cao dưới dạng văn bản sẽ không đủ để “nuôi” máy trí tuệ nhân tạo. Đến lúc đó, OpenAI, Google, Meta, Microsoft và các công ty khác sẽ phải đối mặt với những thách thức rất lớn trong cuộc cạnh tranh của WHO.

Tuy nhiên, không phải ai cũng đồng tình về “nút thắt cổ chai” của ngành AI. Nicolas Papernot, phó giáo sư tại Đại học Toronto, người chuyên về hệ thống trí tuệ nhân tạo dành riêng cho nhiệm vụ, cho biết: “Tôi nghĩ điều quan trọng cần lưu ý là chúng tôi không nhất thiết có thể đào tạo các mô hình ngày càng lớn hơn”.

Nhưng Papernot cũng lo ngại rằng việc đào tạo nhiều hệ thống trí tuệ nhân tạo trên cùng một kho dữ liệu có thể làm suy giảm nghiêm trọng hiệu suất của mô hình và dẫn đến “sự sụp đổ của mô hình”. Ngoài ra, việc đào tạo AI về dữ liệu mà nó tạo ra có thể củng cố các lỗi của AI về phân biệt chủng tộc và thông tin sai lệch.

Selena Deckelmann, giám đốc sản phẩm và công nghệ của Wikipedia, cho biết: “Điều thú vị là mọi người đang tạo ra một nguồn tài nguyên mới – dữ liệu. Trong khi một số người muốn xóa dữ liệu của họ khỏi các dự án đào tạo AI thì tại Wikipedia, chúng tôi không biết làm cách nào để xóa dữ liệu đó.” Dữ liệu đặt ra một số giới hạn về cách các công ty có thể sử dụng nội dung do con người tạo ra và đó sẽ là một trong những cách để thu hút tình nguyện viên đóng góp bài viết chất lượng cao, Deckerman cho biết. nội dung tiếp tục tồn tại và cách họ truy cập vào kho dữ liệu đó.

Tuy nhiên, nhóm nghiên cứu Epoch cho biết các công ty khó có thể tiết kiệm tiền bằng cách trả tiền cho hàng triệu người để tạo ra tài liệu. OpenAI đang thực hiện một cách tiếp cận mới, với việc Giám đốc điều hành Sam Altman tuyên bố tại một sự kiện của Liên Hợp Quốc vào tháng trước rằng ông sẽ sử dụng dữ liệu tổng hợp để đào tạo trí tuệ nhân tạo. Dữ liệu tổng hợp ở đây có thể hiểu là nội dung được viết bởi con người và trí tuệ nhân tạo, bao gồm cả kho nội dung chất lượng thấp.

Ultraman không phủ nhận điều này. Ông tin rằng các công ty như OpenAI đang bị buộc phải cân nhắc việc phụ thuộc quá nhiều vào dữ liệu hơn là tìm cách cải thiện các mô hình AI. Ông nói: “Nếu bạn huấn luyện một mô hình trí tuệ nhân tạo dựa trên kho dữ liệu tổng hợp, những điều rất lạ sẽ xảy ra. Vẫn chưa chắc sáng kiến ​​này có mang lại kết quả tốt hay không”.

Giang Ya