Meta sử dụng robot để thu thập dữ liệu trên web để đào tạo trí tuệ nhân tạo

Meta sử dụng robot để thu thập dữ liệu trên web để đào tạo trí tuệ nhân tạo

Meta đang âm thầm triển khai các công cụ thu thập dữ liệu công khai trên web để giúp đào tạo các mô hình trí tuệ nhân tạo của mình.

sự giàu có Trích dẫn nguồn tin từ ba công ty chuyên theo dõi robot, phần mềm này có tên là Meta external Agent và được Meta triển khai vào tháng trước. Về cơ bản, bot sao chép hoặc “thu thập” tất cả dữ liệu công khai trên bất kỳ trang web nào, bao gồm các bài viết trên các trang tin tức hoặc bình luận trên các nhóm mạng xã hội.

Dark Visitor, một công ty cung cấp các công cụ tự động chặn bot thu thập dữ liệu trang web, cho biết MetaExternal Agent hoạt động tương tự như GPTBot của OpenAI.





Minh họa Meta sử dụng dữ liệu trên các mạng xã hội được kiểm soát để đào tạo AI của mình. Ảnh: How to Geek

Meta Illustration sử dụng dữ liệu từ mạng xã hội để đào tạo trí tuệ nhân tạo. hình ảnh: Làm thế nào để Geek

Meta cũng cập nhật trang web dành cho nhà phát triển của mình, với một tab đề cập đến sự tồn tại của các công cụ thu thập dữ liệu mới, theo Internet Archive vào cuối tháng 7. Tuy nhiên, công ty của Mark Zuckerberg vẫn chưa công bố công cụ này.

Người phát ngôn của Meta xác nhận rằng công ty đã triển khai công cụ thu thập dữ liệu dưới một tên khác, FacebookExternalHit, “trong vài năm”. Tuy nhiên, phần mềm có nhiều chức năng ngoài việc chỉ lấy dữ liệu.

Người phát ngôn của Meta cho biết: “Giống như các công ty khác, chúng tôi sử dụng nội dung có sẵn công khai trực tuyến để đào tạo các mô hình AI tổng quát”.

Theo thống kê từ Dark Visitor, gần 25% website phổ biến nhất thế giới chặn GPTBot, nhưng chỉ chặn 2% Meta external Agent. Đầu năm nay, Zuckerberg cho biết nền tảng xã hội của công ty anh đã tích lũy được bộ dữ liệu đào tạo AI lớn hơn Common Crawl, vốn đã thu thập dữ liệu khoảng 3 tỷ trang web mỗi tháng kể từ năm 2011.

Các chuyên gia nhận xét, sự xuất hiện của MetaExternalAgent cho thấy kho dữ liệu lớn hiện tại của công ty không còn đủ nữa, mô hình ngôn ngữ lớn LLaMA phải liên tục được nâng cấp mới nhất là LLaMA 3.1, cũng như mở rộng MetaAI. Công ty dự kiến ​​sẽ chi 40 tỷ USD trong năm nay, chủ yếu vào cơ sở hạ tầng, chip trí tuệ nhân tạo và các chi phí liên quan.