“Thị trường ngầm” dữ liệu đào tạo trí tuệ nhân tạo

Hình ảnh, video và bài viết đang trở thành mặt hàng mà bất kỳ công ty đào tạo AI nào cũng tìm kiếm và chi hàng chục triệu đô la cho nó.

Vào thời kỳ đỉnh cao vào đầu những năm 2000, Photobucket là trang lưu trữ ảnh hàng đầu thế giới. Nền tảng này có 70 triệu người dùng và chiếm gần một nửa thị trường ảnh trực tuyến ở Hoa Kỳ.

Theo thống kê, hiện nay Photobucket chỉ có 2 triệu người dùng và con số này vẫn tiếp tục giảm. Cùng một mạng. Tuy nhiên, sự bùng nổ về AI đang mang lại cho công ty nguồn năng lượng mới. CEO Ted Leonard cho biết ông đang đàm phán với nhiều công ty công nghệ để cấp phép cho 13 tỷ bức ảnh và video của Photobucket để phục vụ các mô hình ngôn ngữ lớn (LLM). Anh dự định bán mỗi bức ảnh với giá từ 0,05 USD đến 1 USD và mỗi video với giá 1 USD. Giá cả phụ thuộc vào người mua và loại nội dung được tìm kiếm.

Leonard nói: “Chúng tôi đã nói chuyện với các công ty. Họ thậm chí còn nói rằng họ muốn nhiều hơn thế. Họ muốn mua hơn một tỷ video, nhiều hơn những gì họ có trên nền tảng này”.

Photobucket từ chối xác định danh tính người mua do lo ngại về bảo mật thương mại. Tuy nhiên, nội dung trị giá hàng tỷ đô la của Photobucket mang đến cái nhìn thoáng qua về thị trường dữ liệu nhộn nhịp hoạt động đằng sau hậu trường trong thời kỳ bùng nổ tạo ra công nghệ trí tuệ nhân tạo.

Logo mạng xã hội trên màn hình máy tính. hình ảnh: Reuters

Các công ty điều hành LLM như OpenAI, Meta, Google và Microsoft ban đầu sử dụng các nguồn dữ liệu công khai, miễn phí và khổng lồ được thu thập từ Internet. Đây là điều họ cho là “vừa hợp pháp vừa có đạo đức”. Tuy nhiên, khi phải đối mặt với hàng loạt vụ kiện từ chủ sở hữu bản quyền và các dịch vụ trí tuệ nhân tạo trả phí đã được triển khai, họ cần lượng dữ liệu bản quyền lớn hơn.

Edward Klaris, luật sư tại Klaris Law, hiện đang tư vấn cho một số công ty công nghệ lớn về việc chi hàng chục triệu đô la để mua bản quyền nội dung và lưu trữ ảnh, phim, cho biết: “Các công ty công nghệ lớn đang nóng lòng tìm kiếm nội dung có bản quyền càng nhanh càng tốt”. và sách. Giấy phép đào tạo trí tuệ nhân tạo.

Theo hơn 30 người làm việc trong lĩnh vực giao dịch dữ liệu AI, mặc dù thị trường này hoạt động chủ yếu dưới lòng đất nhưng lại cực kỳ phổ biến, bao gồm các CEO và cựu CEO của các công ty dữ liệu, luật sư và chuyên gia tư vấn. Business Research Insights ước tính rằng thị trường giao dịch dữ liệu AI hiện trị giá 2,5 tỷ USD và sẽ tăng lên 30 tỷ USD trong vòng một thập kỷ.

Trong bối cảnh các vụ kiện vi phạm bản quyền ngày càng gia tăng, các gã khổng lồ công nghệ đang cố gắng thu thập càng nhiều dữ liệu bản quyền càng tốt và sẵn sàng chi “số tiền đáng kể” để có được nó. Họ mua trực tiếp thông qua các công ty hoặc nhà môi giới dữ liệu trí tuệ nhân tạo – một lĩnh vực mới nổi và đang phát triển.

dựa theo Thời báo New YorkNỗ lực tìm kiếm nguồn dữ liệu mới trong cuộc đua AI lớn đến mức các giám đốc điều hành của Meta gặp nhau “hầu như mỗi ngày vào tháng 3 và tháng 4 năm ngoái”. Tại các cuộc họp này, một số người đã nảy ra ý tưởng mua lại nhà xuất bản Simon & Schuster. Những người khác sẵn sàng trả 10$ cho một cuốn sách.

Cũng trong những tháng đầu năm 2023, một loạt công ty bao gồm Meta, Google, Amazon và Apple đã ký thỏa thuận với nhà cung cấp hình ảnh Shutterstock để sử dụng hàng trăm triệu tệp ảnh, video và nhạc cho mục đích đào tạo. Giám đốc điều hành Shutterstock, Jarrod Yahes, cho biết các hợp đồng với mỗi công ty công nghệ lớn có giá trị từ 25 triệu USD đến 50 triệu USD, nhưng “tất cả đều tăng quy mô sau đó”.

Đối thủ của Shutterstock, Freepik, cho biết họ cũng đã ký hợp đồng với hai công ty công nghệ lớn để cấp phép phần lớn trong số 200 triệu hình ảnh của mình với giá 0,02 đến 0,04 USD mỗi bức ảnh. Giám đốc điều hành Joaquin Cuenca Abela cho biết 5 đơn vị khác đang được liên hệ để mua nội dung nhưng từ chối tiết lộ thông tin cụ thể.

OpenAI là một trong những khách hàng đầu tiên của Shutterstock, với các thỏa thuận được thực hiện với ít nhất bốn tổ chức tin tức, chẳng hạn như Báo chí liên quan Và Axel Springer.Thomson Reuters cho biết Reuters Cấp phép nội dung tin tức cho một số bên đào tạo trí tuệ nhân tạo nhưng không tiết lộ chi tiết.

Các công ty nhỏ cũng tích cực thu thập nội dung có bản quyền như bài đăng trên mạng xã hội, podcast và video ngắn rồi bán lại cho các công ty lớn hơn. Ví dụ: công ty khởi nghiệp Định nghĩa AI có trụ sở tại Seattle hiện được cấp phép bởi Google, Meta, Apple, Amazon và Microsoft.

Giám đốc điều hành AI được xác định, Daniela Braga, cho biết giá dữ liệu thay đổi tùy thuộc vào người mua và loại nội dung, nhưng các công ty thường sẵn sàng trả 1-2 USD cho mỗi bức ảnh, 2-4 USD cho mỗi video ngắn và 2-4 USD cho mỗi video cho phim. 100$ – 300$ một giờ. Giá văn bản là 0,001 USD mỗi từ. Braga khẳng định tất cả dữ liệu trên nền tảng đều đến từ “nguồn hợp pháp” và sẵn sàng bồi thường cho khách hàng nếu không phải như vậy.

rủi ro

Các chuyên gia cho rằng việc hồi sinh một “tên internet cũ” như Photobucket sử dụng nội dung làm nhiên liệu cho việc đào tạo AI có thể gặp một số rủi ro nghiêm trọng, đặc biệt là khi liên quan đến quyền riêng tư của người dùng.

Một tuyên bố cho biết: “Điều này có nghĩa là những bức ảnh hoặc nội dung riêng tư mà một người đã đăng cách đây hàng thập kỷ có thể xuất hiện lại trong đầu ra AI mà không cần thông báo hoặc có sự đồng ý rõ ràng”.

Braga của Defined AI cho biết công ty tránh mua nội dung từ các thực thể “nền tảng” như Photobucket. Thay vào đó, công ty lấy nguồn ảnh trên mạng xã hội do KOLs tạo ra – những người có yêu cầu rõ ràng hơn về quyền cấp phép.

Braga nói: “Tôi thấy rất nguy hiểm khi lấy nội dung từ các nền tảng cũ hơn. “Nếu AI nào đó tạo ra thứ gì đó giống hình ảnh của một người không bao giờ đồng ý chia sẻ thì đó sẽ là một vấn đề.”

Photobucket không phải là nền tảng truyền thống duy nhất bán nội dung cho các công ty AI. Công ty mẹ của Tumblr, Automattic, cũng cho biết vào tháng trước rằng họ đang chia sẻ nội dung với “các công ty AI chọn lọc”. Vào tháng 2 năm nay, Reddit cũng đạt được thỏa thuận với Google về đào tạo AI.

Tuy nhiên, vào tháng 3, Reddit cho biết quyết định cấp phép dữ liệu cho bên thứ ba để đào tạo trí tuệ nhân tạo đã khiến công ty trở thành mục tiêu điều tra của Ủy ban Thương mại Liên bang Hoa Kỳ. Mạng xã hội thừa nhận rằng hành vi đó có thể vi phạm các quy định về quyền riêng tư và sở hữu trí tuệ hiện hành.

(dựa theo Reuters)

Công Nghệ

“Thị trường ngầm” dữ liệu đào tạo trí tuệ nhân tạo

Administrator