Các kỹ thuật được gọi là “bỏ học” được sử dụng để khiến mô hình AI tạo sinh quên đi thông tin cụ thể và không mong muốn mà nó thu thập được từ dữ liệu đào tạo, như dữ liệu riêng tư nhạy cảm hoặc tài liệu có bản quyền.
Nhưng các kỹ thuật bỏ học hiện tại lại là con dao hai lưỡi: Chúng có thể khiến các mô hình như GPT-4o của OpenAI hoặc Llama 3.1 405B của Meta kém khả năng trả lời các câu hỏi cơ bản hơn nhiều.
Theo một nghiên cứu mới do các nhà nghiên cứu tại Đại học Washington (UW), Princeton, Đại học Chicago, USC và Google đồng thực hiện, nghiên cứu này phát hiện ra rằng các kỹ thuật bỏ học phổ biến nhất hiện nay có xu hướng làm suy giảm các mô hình – thường đến mức không thể sử dụng được.
Weijia Shi, một nhà nghiên cứu về nghiên cứu này và là ứng viên tiến sĩ khoa học máy tính tại UW, cho biết với TechCrunch: “Đánh giá của chúng tôi cho thấy các phương pháp bỏ học khả thi hiện tại vẫn chưa sẵn sàng để sử dụng hoặc triển khai có ý nghĩa trong các tình huống thực tế”. “Hiện tại, không có phương pháp hiệu quả nào cho phép mô hình quên dữ liệu cụ thể mà không mất đi đáng kể tiện ích”.
Các mô hình học như thế nào
Các mô hình AI tạo sinh không có trí thông minh thực sự. Chúng là các hệ thống thống kê dự đoán từ ngữ, hình ảnh, giọng nói, nhạc, video và dữ liệu khác. Được cung cấp một số lượng lớn các ví dụ (ví dụ như phim, bản ghi âm giọng nói, bài luận, v.v.), các mô hình AI tìm hiểu khả năng dữ liệu xảy ra dựa trên các mẫu, bao gồm cả bối cảnh của bất kỳ dữ liệu xung quanh nào.
Ví dụ, với một email kết thúc bằng đoạn văn “Looking forward…”, một mô hình được đào tạo để tự động hoàn thành tin nhắn có thể gợi ý “… to hearback”, theo mẫu của tất cả các email mà nó đã tiếp nhận. Không có chủ đích ở đây; mô hình không mong đợi bất cứ điều gì. Nó chỉ đơn giản là đưa ra một phỏng đoán có căn cứ.
Hầu hết các mô hình, bao gồm cả các flagship như GPT-4o, đều được đào tạo trên dữ liệu có nguồn gốc từ các trang web công cộng và các tập dữ liệu trên web. Hầu hết các nhà cung cấp phát triển các mô hình như vậy đều cho rằng việc sử dụng hợp lý bảo vệ hoạt động thu thập dữ liệu và sử dụng dữ liệu để đào tạo mà không thông báo, bồi thường hoặc thậm chí ghi nhận công lao của chủ sở hữu dữ liệu.
Nhưng không phải mọi chủ sở hữu bản quyền đều đồng ý. Và nhiều người — từ tác giả đến nhà xuất bản đến hãng thu âm — đã đệ đơn kiện các nhà cung cấp để buộc phải thay đổi.
Vấn đề bản quyền là một trong những lý do khiến các kỹ thuật bỏ học được chú ý nhiều gần đây. Năm ngoái, Google đã hợp tác với một số tổ chức học thuật để phát động một cuộc thi nhằm thúc đẩy việc tạo ra các phương pháp bỏ học mới.
Unlearning cũng có thể cung cấp một cách để xóa thông tin nhạy cảm khỏi các mô hình hiện có, như hồ sơ y tế hoặc ảnh nhạy cảm, để đáp ứng yêu cầu hoặc lệnh của chính phủ. (Nhờ cách chúng được đào tạo, các mô hình có xu hướng quét rất nhiều thông tin riêng tư, từ số điện thoại đến các ví dụ có vấn đề hơn.) Trong vài năm qua, một số nhà cung cấp đã triển khai các công cụ cho phép chủ sở hữu dữ liệu yêu cầu xóa dữ liệu của họ khỏi các tập đào tạo. Nhưng các công cụ từ chối này chỉ áp dụng cho các mô hình trong tương lai, không phải các mô hình được đào tạo trước khi chúng được triển khai; unlearning sẽ là một cách tiếp cận toàn diện hơn nhiều đối với việc xóa dữ liệu.
Dù sao đi nữa, việc quên đi kiến thức cũ không dễ dàng như việc nhấn nút “Xóa”.
Nghệ thuật lãng quên
Các kỹ thuật bỏ học ngày nay dựa vào các thuật toán được thiết kế để “điều khiển” các mô hình tránh xa dữ liệu cần bỏ học. Ý tưởng là tác động đến các dự đoán của mô hình để nó không bao giờ — hoặc chỉ rất hiếm khi — đưa ra dữ liệu nhất định.
Để xem các thuật toán bỏ học này có thể hiệu quả đến mức nào, Shi và các cộng sự của bà đã thiết kế một chuẩn mực và chọn tám thuật toán mở khác nhau để thử nghiệm. Được gọi là MUSE (Đánh giá sáu chiều về việc bỏ học của máy), chuẩn mực này nhằm thăm dò khả năng của thuật toán không chỉ ngăn mô hình nhả ra dữ liệu đào tạo nguyên văn (một hiện tượng được gọi là sự trào ngược), mà còn loại bỏ kiến thức của mô hình về dữ liệu đó cùng với bất kỳ bằng chứng nào cho thấy ban đầu nó được đào tạo trên dữ liệu đó.
Để đạt điểm cao trong bài kiểm tra MUSE, người mẫu phải quên hai thứ: sách trong bộ truyện Harry Potter và các bài báo.
Ví dụ, với một đoạn trích từ Harry Potter và Phòng chứa bí mật (“'There's more in the frying pan,' said Aunt…”), MUSE sẽ kiểm tra xem một mô hình chưa học có thể đọc thuộc lòng toàn bộ câu (“'There's more in the frying pan,' said Aunt Petunia, rotary eyes on her massive boy”), trả lời các câu hỏi về cảnh đó (ví dụ: “What does Aunt Petunia tell her son?”, “More in the frying pan”) hay chỉ ra rằng mô hình đã được đào tạo dựa trên văn bản trong sách hay không.
MUSE cũng kiểm tra xem mô hình có giữ lại kiến thức chung liên quan hay không — ví dụ như JK Rowling là tác giả của bộ truyện Harry Potter — sau khi bỏ học, mà các nhà nghiên cứu gọi là tiện ích chung của mô hình. Tiện ích càng thấp, mô hình càng mất nhiều kiến thức liên quan, khiến mô hình ít có khả năng trả lời đúng các câu hỏi.
Trong nghiên cứu của mình, các nhà nghiên cứu phát hiện ra rằng các thuật toán bỏ học mà họ đã thử nghiệm làm khiến các mô hình quên đi một số thông tin nhất định. Nhưng chúng cũng làm tổn hại đến khả năng trả lời câu hỏi chung của các mô hình, đưa ra sự đánh đổi.
“Việc thiết kế các phương pháp bỏ học hiệu quả cho các mô hình là một thách thức vì kiến thức bị vướng víu phức tạp trong mô hình”, Shi giải thích. “Ví dụ, một mô hình có thể được đào tạo trên tài liệu có bản quyền — sách Harry Potter cũng như trên nội dung có sẵn miễn phí từ Harry Potter Wiki. Khi các phương pháp bỏ học hiện có cố gắng loại bỏ các sách Harry Potter có bản quyền, chúng cũng tác động đáng kể đến kiến thức của mô hình về Harry Potter Wiki”.
Có giải pháp nào cho vấn đề này không? Chưa có — và điều này nhấn mạnh nhu cầu nghiên cứu thêm, Shi cho biết.
Hiện tại, các nhà cung cấp đặt cược vào việc bỏ học như một giải pháp cho những rắc rối về dữ liệu đào tạo của họ dường như đã hết may mắn. Có lẽ một bước đột phá về mặt kỹ thuật sẽ khiến việc bỏ học trở nên khả thi vào một ngày nào đó. Nhưng hiện tại, các nhà cung cấp sẽ phải tìm một cách khác để ngăn mô hình của họ nói những điều mà họ không nên nói.