Apple vừa công bố một bài báo kỹ thuật nêu chi tiết các mô hình mà công ty phát triển để hỗ trợ Apple Intelligence, một loạt các tính năng AI sẽ có trên iOS, macOS và iPadOS trong vài tháng tới.
Trong bài báo, Apple bác bỏ những cáo buộc cho rằng công ty đã áp dụng phương pháp đào tạo một số mô hình có vấn đề về mặt đạo đức, đồng thời khẳng định rằng công ty không sử dụng dữ liệu người dùng riêng tư và sử dụng kết hợp dữ liệu được cấp phép và công khai cho Apple Intelligence.
“[The] tập dữ liệu tiền đào tạo bao gồm… dữ liệu chúng tôi đã cấp phép từ các nhà xuất bản, các tập dữ liệu được công khai hoặc mã nguồn mở được tuyển chọn và thông tin công khai được thu thập bởi trình thu thập dữ liệu web của chúng tôi, Applebot,” Apple viết trong bài báo. “Với trọng tâm là bảo vệ quyền riêng tư của người dùng, chúng tôi lưu ý rằng không có dữ liệu người dùng Apple riêng tư nào được đưa vào hỗn hợp dữ liệu.”
Vào tháng 7, Proof News đưa tin rằng Apple đã sử dụng một tập dữ liệu có tên là The Pile, chứa phụ đề từ hàng trăm nghìn video trên YouTube, để đào tạo một nhóm các mô hình được thiết kế để xử lý trên thiết bị. Nhiều nhà sáng tạo nội dung trên YouTube có phụ đề được đưa vào The Pile không biết và không đồng ý với điều này; sau đó, Apple đã đưa ra tuyên bố rằng họ không có ý định sử dụng các mô hình đó để cung cấp năng lượng cho bất kỳ tính năng AI nào trong các sản phẩm của mình.
Tài liệu kỹ thuật, hé lộ những mô hình mà Apple lần đầu tiên tiết lộ tại WWDC 2024 vào tháng 6, có tên là Apple Foundation Models (AFM), nhấn mạnh rằng dữ liệu đào tạo cho các mô hình AFM được lấy theo cách “có trách nhiệm” — hay ít nhất là có trách nhiệm theo định nghĩa của Apple.
Dữ liệu đào tạo của các mô hình AFM bao gồm dữ liệu web có sẵn công khai cũng như dữ liệu được cấp phép từ các nhà xuất bản không được tiết lộ. Theo The New York Times, Apple đã liên hệ với một số nhà xuất bản vào cuối năm 2023, bao gồm NBC, Condé Nast và IAC, về các thỏa thuận nhiều năm trị giá ít nhất 50 triệu đô la để đào tạo các mô hình trên kho lưu trữ tin tức của các nhà xuất bản. Các mô hình AFM của Apple cũng được đào tạo trên mã nguồn mở được lưu trữ trên GitHub, cụ thể là mã Swift, Python, C, Objective-C, C++, JavaScript, Java và Go.
Đào tạo mô hình trên mã mà không được phép, ngay cả mã mở, là một điểm gây tranh cãi giữa các nhà phát triển. Một số cơ sở mã nguồn mở không được cấp phép hoặc không cho phép đào tạo AI theo các điều khoản sử dụng của họ, một số nhà phát triển lập luận. Nhưng Apple cho biết họ đã “lọc theo giấy phép” đối với mã để cố gắng chỉ bao gồm các kho lưu trữ có hạn chế sử dụng tối thiểu, như các kho lưu trữ theo giấy phép MIT, ISC hoặc Apache.
Để tăng cường kỹ năng toán học của các mô hình AFM, Apple đã đưa vào bộ câu hỏi và câu trả lời toán học từ các trang web, diễn đàn toán học, blog, hướng dẫn và hội thảo, theo bài báo. Công ty cũng khai thác các bộ dữ liệu “chất lượng cao, có sẵn công khai” (mà bài báo không nêu tên) với “giấy phép cho phép sử dụng để đào tạo … các mô hình”, được lọc để loại bỏ thông tin nhạy cảm.
Tổng cộng, bộ dữ liệu đào tạo cho các mô hình AFM có trọng lượng khoảng 6,3 nghìn tỷ token. (Token là những phần dữ liệu nhỏ mà các mô hình AI tạo ra thường dễ tiếp nhận hơn.) Để so sánh, con số này ít hơn một nửa số token — 15 nghìn tỷ — mà Meta sử dụng để đào tạo mô hình tạo văn bản hàng đầu của mình, Llama 3.1 405B.
Apple đã thu thập thêm dữ liệu, bao gồm dữ liệu từ phản hồi của con người và dữ liệu tổng hợp, để tinh chỉnh các mô hình AFM và cố gắng giảm thiểu mọi hành vi không mong muốn, như phát tán độc tính.
“Các mô hình của chúng tôi được tạo ra với mục đích giúp người dùng thực hiện các hoạt động hàng ngày trên các sản phẩm Apple của họ, dựa trên
trong các giá trị cốt lõi của Apple và bắt nguồn từ các nguyên tắc AI có trách nhiệm của chúng tôi ở mọi giai đoạn”, công ty cho biết.
Không có bằng chứng rõ ràng hay thông tin gây sốc nào trong bài báo — và đó là do thiết kế cẩn thận. Hiếm khi các bài báo như thế này có tính tiết lộ cao, do áp lực cạnh tranh nhưng cũng vì tiết lộ cũng vậy có thể khiến các công ty gặp rắc rối về mặt pháp lý.
Một số công ty đào tạo mô hình bằng cách thu thập dữ liệu web công khai khẳng định rằng hoạt động của họ được bảo vệ bởi học thuyết sử dụng hợp lý. Nhưng đây là vấn đề còn nhiều tranh cãi và là chủ đề của ngày càng nhiều vụ kiện tụng.
Apple ghi chú trong báo cáo rằng họ cho phép các quản trị viên web chặn trình thu thập dữ liệu của họ khỏi việc thu thập dữ liệu của họ. Nhưng điều đó khiến những người sáng tạo cá nhân rơi vào tình thế khó khăn. Một nghệ sĩ phải làm gì nếu, ví dụ, danh mục đầu tư của họ được lưu trữ trên một trang web từ chối chặn việc thu thập dữ liệu của Apple?
Các cuộc chiến tại tòa án sẽ quyết định số phận của các mô hình AI tạo sinh và cách chúng được đào tạo. Tuy nhiên, hiện tại, Apple đang cố gắng định vị mình là một bên có đạo đức trong khi tránh sự giám sát pháp lý không mong muốn.