Dữ liệu là trọng tâm của các hệ thống AI tiên tiến ngày nay, nhưng chi phí của nó ngày càng cao — khiến tất cả các công ty công nghệ giàu có nhất đều không thể tiếp cận được dữ liệu.
Năm ngoái, James Betker, một nhà nghiên cứu tại OpenAI, đã viết một bài đăng trên blog cá nhân của mình về bản chất của các mô hình AI tổng quát và các bộ dữ liệu mà chúng được đào tạo trên đó. Trong đó, Betker tuyên bố rằng dữ liệu huấn luyện – không phải thiết kế, kiến trúc của mô hình hay bất kỳ đặc điểm nào khác – là chìa khóa cho các hệ thống AI ngày càng phức tạp và có khả năng hoạt động.
Betker viết: “Được đào tạo trên cùng một tập dữ liệu đủ lâu, hầu như mọi mô hình đều hội tụ về cùng một điểm”.
Betker có đúng không? Dữ liệu huấn luyện có phải là yếu tố quyết định lớn nhất về những gì một mô hình có thể làm, cho dù đó là trả lời một câu hỏi, vẽ bàn tay con người hay tạo ra cảnh quan thành phố thực tế?
Nó chắc chắn hợp lý.
Máy thống kê
Các hệ thống AI sáng tạo về cơ bản là các mô hình xác suất – một đống số liệu thống kê khổng lồ. Họ đoán dựa trên số lượng lớn các ví dụ, dữ liệu nào có ý nghĩa nhất để đặt ở đâu (ví dụ: từ “đi” trước “đi chợ” trong câu “Tôi đi chợ”). Do đó, có vẻ trực quan rằng một mô hình càng có nhiều ví dụ thì hiệu suất của các mô hình được đào tạo trên các ví dụ đó càng tốt.
Kyle Lo, nhà khoa học nghiên cứu ứng dụng cấp cao tại Viện AI Allen (AI2), một tổ chức phi lợi nhuận nghiên cứu AI, nói với TechCrunch: “Có vẻ như hiệu suất tăng lên đến từ dữ liệu”. .”
Lo đưa ra ví dụ về Llama 3 của Meta, một mô hình tạo văn bản được phát hành đầu năm nay, vượt trội so với mô hình OLMo của AI2 mặc dù có kiến trúc rất giống nhau. Llama 3 được đào tạo dựa trên nhiều dữ liệu hơn đáng kể so với OLMo, điều mà Lo tin rằng giải thích tính ưu việt của nó trên nhiều tiêu chuẩn AI phổ biến.
(Ở đây tôi sẽ chỉ ra rằng các điểm chuẩn được sử dụng rộng rãi trong ngành AI ngày nay không nhất thiết phải là thước đo tốt nhất về hiệu suất của một mô hình, nhưng ngoài các bài kiểm tra định tính như của chúng tôi, chúng là một trong số ít các biện pháp mà chúng tôi phải thực hiện. đi tiếp.)
Điều đó không có nghĩa là việc đào tạo trên các tập dữ liệu lớn hơn theo cấp số nhân là con đường chắc chắn dẫn đến các mô hình tốt hơn theo cấp số nhân. Lo lưu ý rằng các mô hình hoạt động theo mô hình “rác vào, rác ra”, do đó, việc quản lý dữ liệu và chất lượng rất quan trọng, có lẽ còn hơn cả số lượng.
Ông nói thêm: “Có thể một mô hình nhỏ với dữ liệu được thiết kế cẩn thận sẽ hoạt động tốt hơn một mô hình lớn”. “Ví dụ: Falcon 180B, một mẫu xe lớn, được xếp hạng thứ 63 trên điểm chuẩn LMSYS, trong khi Llama 2 13B, một mẫu xe nhỏ hơn nhiều, được xếp hạng thứ 56.”
Trong một cuộc phỏng vấn với TechCrunch vào tháng 10 năm ngoái, nhà nghiên cứu Gabriel Goh của OpenAI cho biết các chú thích chất lượng cao hơn đã góp phần rất lớn vào việc nâng cao chất lượng hình ảnh trong DALL-E 3, mô hình chuyển văn bản thành hình ảnh của OpenAI, so với người tiền nhiệm DALL-E 2. “Tôi nghĩ đây là nguồn gốc chính của những cải tiến,” ông nói. “Các chú thích văn bản đã tốt hơn rất nhiều so với trước đây [with DALL-E 2] – nó thậm chí còn không thể so sánh được.”
Nhiều mô hình AI, bao gồm DALL-E 3 và DALL-E 2, được đào tạo bằng cách sử dụng dữ liệu gắn nhãn của người chú thích con người để mô hình có thể học cách liên kết các nhãn đó với các đặc điểm khác được quan sát của dữ liệu đó. Ví dụ: một mô hình được cung cấp nhiều hình ảnh mèo có chú thích cho từng giống cuối cùng sẽ “học” cách liên kết các thuật ngữ như đuôi cắt ngắn Và tóc ngắn với những đặc điểm hình ảnh đặc biệt của chúng.
Hành vi xấu
Các chuyên gia như Lo lo ngại rằng việc chú trọng ngày càng tăng vào các bộ dữ liệu đào tạo lớn, chất lượng cao sẽ tập trung việc phát triển AI vào một số ít người chơi có ngân sách hàng tỷ đô la có đủ khả năng để có được những bộ dữ liệu này. Sự đổi mới lớn về dữ liệu tổng hợp hoặc kiến trúc cơ bản có thể phá vỡ hiện trạng, nhưng dường như cả hai đều không sắp xảy ra.
Lo nói: “Nhìn chung, các thực thể quản lý nội dung có khả năng hữu ích cho việc phát triển AI được khuyến khích khóa tài liệu của họ”. “Và khi quyền truy cập vào dữ liệu không còn nữa, về cơ bản, chúng tôi đang chúc phúc cho một số người đi đầu trong việc thu thập dữ liệu và nâng cao trình độ để không ai khác có thể có quyền truy cập vào dữ liệu để bắt kịp.”
Thật vậy, khi cuộc đua thu thập thêm dữ liệu đào tạo không dẫn đến hành vi phi đạo đức (và thậm chí có thể là bất hợp pháp) như bí mật tổng hợp nội dung có bản quyền, nó đã mang lại cho những gã khổng lồ công nghệ những khoản tiền lớn để chi cho việc cấp phép dữ liệu.
Các mô hình AI sáng tạo như OpenAI được đào tạo chủ yếu về hình ảnh, văn bản, âm thanh, video và dữ liệu khác – một số có bản quyền – có nguồn gốc từ các trang web công cộng (bao gồm cả các trang do AI tạo ra có vấn đề). OpenAI trên thế giới khẳng định rằng việc sử dụng hợp lý sẽ bảo vệ họ khỏi bị trả thù về mặt pháp lý. Nhiều chủ sở hữu bản quyền không đồng ý – nhưng ít nhất là hiện tại, họ không thể làm gì nhiều để ngăn chặn hành vi này.
Có rất nhiều ví dụ về các nhà cung cấp AI sáng tạo thu thập các bộ dữ liệu khổng lồ thông qua các phương tiện đáng ngờ để đào tạo mô hình của họ. OpenAI được cho là đã sao chép hơn một triệu giờ video YouTube mà không có sự chấp thuận của YouTube – hoặc sự chấp thuận của người sáng tạo – để cung cấp cho mẫu hàng đầu GPT-4 của nó. Google gần đây đã mở rộng một phần điều khoản dịch vụ của mình để có thể khai thác Google Docs công khai, đánh giá nhà hàng trên Google Maps và các tài liệu trực tuyến khác cho các sản phẩm AI của mình. Và Meta được cho là đã cân nhắc việc mạo hiểm kiện tụng để đào tạo các mô hình của mình về nội dung được bảo vệ IP.
Trong khi đó, các công ty lớn và nhỏ đang dựa vào công nhân ở các nước thuộc thế giới thứ ba chỉ được trả vài đô la mỗi giờ để tạo chú thích cho các bộ đào tạo. Một số người chú thích này – được tuyển dụng bởi các công ty khởi nghiệp khổng lồ như Scal AI – làm việc liên tục hàng ngày để hoàn thành các nhiệm vụ khiến họ phải tiếp xúc với các mô tả bằng hình ảnh về bạo lực và đổ máu mà không có bất kỳ lợi ích hoặc đảm bảo nào về hợp đồng biểu diễn trong tương lai.
Chi phí ngày càng tăng
Nói cách khác, ngay cả những giao dịch dữ liệu cao cấp hơn cũng không thực sự thúc đẩy một hệ sinh thái AI tạo ra mở và công bằng.
OpenAI đã chi hàng trăm triệu đô la để cấp phép nội dung từ các nhà xuất bản tin tức, thư viện truyền thông chứng khoán, v.v. để đào tạo các mô hình AI của mình – một ngân sách vượt xa ngân sách của hầu hết các nhóm nghiên cứu học thuật, tổ chức phi lợi nhuận và công ty khởi nghiệp. Meta đã đi xa hơn khi cân nhắc việc mua lại nhà xuất bản Simon & Schuster để có bản quyền đối với các đoạn trích sách điện tử (cuối cùng, Simon & Schuster đã bán cho công ty cổ phần tư nhân KKR với giá 1,62 tỷ USD vào năm 2023).
Với thị trường dữ liệu đào tạo AI dự kiến sẽ tăng từ khoảng 2,5 tỷ USD hiện nay lên gần 30 tỷ USD trong vòng một thập kỷ, các nhà môi giới và nền tảng dữ liệu đang gấp rút tính phí cao nhất – trong một số trường hợp do sự phản đối của cơ sở người dùng của họ.
Thư viện truyền thông chứng khoán Shutterstock đã ký các thỏa thuận với các nhà cung cấp AI với giá trị từ 25 triệu đến 50 triệu USD, trong khi Reddit tuyên bố đã kiếm được hàng trăm triệu từ việc cấp phép dữ liệu cho các tổ chức như Google và OpenAI. Rất ít nền tảng có dữ liệu phong phú được tích lũy tự nhiên qua nhiều năm chưa Có vẻ như đã ký thỏa thuận với các nhà phát triển AI sáng tạo – từ Photobucket đến Tumblr cho đến trang hỏi đáp Stack Overflow.
Đó là dữ liệu của nền tảng để bán – ít nhất là tùy thuộc vào lập luận pháp lý mà bạn tin tưởng. Nhưng trong hầu hết các trường hợp, người dùng không thấy được một xu lợi nhuận. Và nó đang gây tổn hại cho cộng đồng nghiên cứu AI rộng lớn hơn.
Lo cho biết: “Những công ty nhỏ hơn sẽ không đủ khả năng mua các giấy phép dữ liệu này và do đó sẽ không thể phát triển hoặc nghiên cứu các mô hình AI”. “Tôi lo lắng điều này có thể dẫn đến việc thiếu sự giám sát độc lập đối với các hoạt động phát triển AI.”
Những nỗ lực độc lập
Nếu có một tia nắng xuyên qua bóng tối, thì đó là một vài nỗ lực độc lập, phi lợi nhuận để tạo ra các bộ dữ liệu khổng lồ mà bất kỳ ai cũng có thể sử dụng để đào tạo một mô hình AI tổng quát.
EleutherAI, một nhóm nghiên cứu phi lợi nhuận cấp cơ sở bắt đầu như một tập thể Discord lỏng lẻo vào năm 2020, đang hợp tác với Đại học Toronto, AI2 và các nhà nghiên cứu độc lập để tạo ra The Pile v2, một tập hợp hàng tỷ đoạn văn bản chủ yếu có nguồn gốc từ phạm vi công cộng .
Vào tháng 4, công ty khởi nghiệp AI Hugging Face đã phát hành FineWeb, một phiên bản được lọc của Common Crawl – tập dữ liệu cùng tên được duy trì bởi tổ chức phi lợi nhuận Common Crawl, bao gồm hàng tỷ tỷ trang web – mà Hugging Face tuyên bố cải thiện hiệu suất mô hình trên nhiều điểm chuẩn.
Một số nỗ lực nhằm phát hành các tập dữ liệu đào tạo mở, chẳng hạn như các bộ hình ảnh của nhóm LAION, đã gặp phải vấn đề về bản quyền, quyền riêng tư về dữ liệu và các thách thức pháp lý và đạo đức nghiêm trọng không kém khác. Nhưng một số người quản lý dữ liệu tận tâm hơn đã cam kết sẽ làm tốt hơn. Ví dụ: Pile v2 loại bỏ tài liệu có bản quyền có vấn đề được tìm thấy trong tập dữ liệu tiền thân của nó, The Pile.
Câu hỏi đặt ra là liệu bất kỳ nỗ lực mở nào trong số này có thể hy vọng duy trì được tốc độ với Big Tech hay không. Miễn là việc thu thập và quản lý dữ liệu vẫn là vấn đề về nguồn lực, thì câu trả lời có thể là không – ít nhất là cho đến khi một số nghiên cứu mang tính đột phá đã san bằng sân chơi.