LAION, tổ chức nghiên cứu của Đức đã tạo ra dữ liệu dùng để đào tạo Stable Diffusion cùng với các mô hình AI tạo sinh khác, đã phát hành một tập dữ liệu mới mà họ tuyên bố là đã được “làm sạch hoàn toàn các liên kết đã biết đến tài liệu nghi ngờ lạm dụng tình dục trẻ em (CSAM)”.
Bộ dữ liệu mới, Re-LAION-5B, thực chất là bản phát hành lại của bộ dữ liệu cũ, LAION-5B — nhưng với các “bản sửa lỗi” được triển khai theo khuyến nghị của tổ chức phi lợi nhuận Internet Watch Foundation, Human Rights Watch, Canadian Center for Child Protection và Stanford Internet Observatory hiện đã không còn tồn tại. Có thể tải xuống theo hai phiên bản, Re-LAION-5B Research và Re-LAION-5B Research-Safe (cũng xóa nội dung NSFW bổ sung), cả hai đều đã được lọc hàng nghìn liên kết đến CSAM đã biết — và “có khả năng” —, LAION cho biết.
“LAION đã cam kết xóa nội dung bất hợp pháp khỏi các tập dữ liệu của mình ngay từ đầu và đã triển khai các biện pháp phù hợp để đạt được điều này ngay từ đầu”, LAION viết trong bài đăng trên blog. “LAION tuân thủ nghiêm ngặt nguyên tắc xóa nội dung bất hợp pháp ngay khi phát hiện ra”.
Điều quan trọng cần lưu ý là các tập dữ liệu của LAION không — và không bao giờ — chứa hình ảnh. Thay vào đó, chúng là các chỉ mục liên kết đến hình ảnh và văn bản thay thế hình ảnh mà LAION đã tuyển chọn, tất cả đều đến từ khác biệt tập dữ liệu — Common Crawl — của các trang web và trang web được thu thập.
Việc phát hành Re-LAION-5B diễn ra sau cuộc điều tra vào tháng 12 năm 2023 của Đài quan sát Internet Stanford phát hiện ra rằng LAION-5B — cụ thể là một tập hợp con có tên là LAION-5B 400M — bao gồm ít nhất 1.679 liên kết đến hình ảnh bất hợp pháp được trích xuất từ các bài đăng trên mạng xã hội và các trang web dành cho người lớn phổ biến. Theo báo cáo, 400M cũng chứa các liên kết đến “nhiều nội dung không phù hợp bao gồm hình ảnh khiêu dâm, lời lẽ phân biệt chủng tộc và định kiến xã hội có hại”.
Trong khi các đồng tác giả của báo cáo tại Stanford lưu ý rằng sẽ rất khó để xóa nội dung gây khó chịu và sự hiện diện của CSAM không nhất thiết ảnh hưởng đến đầu ra của các mô hình được đào tạo trên tập dữ liệu, LAION cho biết họ sẽ tạm thời đưa LAION-5B ngoại tuyến.
Báo cáo của Stanford khuyến nghị rằng các mô hình được đào tạo trên LAION-5B “nên bị loại bỏ và ngừng phân phối khi có thể”. Có lẽ có liên quan, công ty khởi nghiệp AI Runway gần đây đã gỡ bỏ mô hình Stable Diffusion 1.5 khỏi nền tảng lưu trữ AI Hugging Face; chúng tôi đã liên hệ với công ty để biết thêm thông tin. (Vào năm 2023, Runway đã hợp tác với Stability AI, công ty đứng sau Stable Diffusion, để giúp đào tạo mô hình Stable Diffusion ban đầu.)
Trong bộ dữ liệu Re-LAION-5B mới, chứa khoảng 5,5 tỷ cặp văn bản-hình ảnh và được phát hành theo giấy phép Apache 2.0, LAION cho biết siêu dữ liệu có thể được bên thứ ba sử dụng để dọn dẹp các bản sao hiện có của LAION-5B bằng cách xóa nội dung bất hợp pháp trùng khớp.
LAION nhấn mạnh rằng các tập dữ liệu của họ được dùng cho mục đích nghiên cứu — không phải mục đích thương mại. Nhưng, nếu lịch sử là bất kỳ dấu hiệu nào, điều đó sẽ không ngăn cản một số tổ chức. Ngoài Stability AI, Google đã từng sử dụng các tập dữ liệu LAION để đào tạo các mô hình tạo hình ảnh của mình.
“Tổng cộng có 2.236 liên kết [to suspected CSAM] đã bị xóa sau khi khớp với danh sách băm liên kết và hình ảnh do các đối tác của chúng tôi cung cấp,” LAION tiếp tục trong bài đăng. “Những liên kết này cũng bao gồm 1008 liên kết được tìm thấy bởi báo cáo của Đài quan sát Internet Stanford vào tháng 12 năm 2023… Chúng tôi thực sự kêu gọi tất cả các phòng nghiên cứu và tổ chức vẫn sử dụng LAION-5B cũ hãy di chuyển sang bộ dữ liệu Re-LAION-5B càng sớm càng tốt.”