Cách ngăn Facebook lấy dữ liệu để đào tạo AI

Cách ngăn Facebook lấy dữ liệu để đào tạo AI

Người dùng Internet có thể xóa thông tin cá nhân được Meta thu thập để đào tạo và tạo ra các mô hình trí tuệ nhân tạo.

Các mô hình AI hiện tại yêu cầu lượng lớn dữ liệu đầu vào để “học”. Dữ liệu này được thu thập từ nhiều nguồn trực tuyến như hình ảnh, bài viết, bình luận và bao gồm thông tin cá nhân của người dùng mạng xã hội.

Meta cung cấp cho người dùng tùy chọn thay đổi hoặc xóa bất kỳ dữ liệu cá nhân nào mà công ty sử dụng để đào tạo ngôn ngữ lớn và các mô hình AI liên quan. Theo bản cập nhật mới nhất, người dùng có thể truy cập trang trợ giúp để truy cập phần quyền đối tượng dữ liệu của AI được tạo.

Ở đây có ba tùy chọn, bao gồm: “Tôi muốn truy cập, tải xuống hoặc chỉnh sửa bất kỳ thông tin cá nhân nào do bên thứ ba cung cấp cho thế hệ AI”; “Tôi muốn xóa mọi thông tin cá nhân do bên thứ ba cung cấp cho thế hệ AI” và “Nhận xét bổ sung”. ” .





Logo Meta được hiển thị trên điện thoại thông minh, theo sau là đèn LED của bo mạch chủ.Ảnh: Reuters

Logo Meta được hiển thị trên điện thoại thông minh, theo sau là đèn LED của bo mạch chủ. hình ảnh: Reuters

Với tùy chọn đầu tiên, người dùng có thể tải xuống dữ liệu do “bên thứ ba” thu thập và xem xét rồi đồng ý cho Meta sử dụng dữ liệu đó để đào tạo trí tuệ nhân tạo. Trong khi đó, tùy chọn thứ hai yêu cầu nền tảng xóa nội dung mà nó lưu trữ. Nếu có bất kỳ yêu cầu nào khác, người dùng cần cung cấp tên đầy đủ, quốc gia cư trú và email cùng với bình luận trước khi gửi.

Sau khi chọn một trong ba tùy chọn, họ cũng sẽ cần phải vượt qua bài kiểm tra sàng lọc bảo mật.Tuy nhiên, theo CNBCmột số người cho biết họ không thể điền vào biểu mẫu do “có vẻ như là lỗi phần mềm”.

Meta đang thu thập dữ liệu gì?

Meta định nghĩa thông tin của bên thứ ba là dữ liệu “từ các nguồn được cấp phép hoặc có sẵn công khai trên Internet”. Công ty cho biết những thông tin như vậy “có thể đại diện cho một số trong hàng tỷ mẫu dữ liệu” được sử dụng để đào tạo trí tuệ nhân tạo bằng cách tổng hợp, dự đoán và tạo nội dung mới từ dữ liệu được thu thập.

Meta cho biết trong một bài đăng trên blog ngày 30 tháng 8 rằng họ đã thu được thông tin công khai này ngoài việc sử dụng dữ liệu được cấp phép của đối tác. “Để dạy mô hình một cách hiệu quả, chúng tôi cần một lượng lớn dữ liệu. Do đó, chúng tôi sử dụng kết hợp nhiều nguồn khác nhau trong quá trình đào tạo. Những nguồn này bao gồm thông tin công khai trên Internet, thông tin được cấp phép cũng như các sản phẩm và dịch vụ thông tin từ Meta,” bài viết đã chỉ ra.

Trong quá trình thu thập, Meta có thể lấy được thông tin cá nhân. Ví dụ: một bài đăng công khai có thể chứa thông tin tác giả. Công ty cho biết quyền riêng tư của người dùng được đảm bảo trong quá trình truy xuất dữ liệu và họ có một đội ngũ chuyên trách để thực hiện việc này.

Meta hiện đang vận hành LLaMA, một mô hình ngôn ngữ lớn được công bố vào đầu năm nay. Nó hoạt động ở định dạng mở, cho phép các nhà nghiên cứu và chính phủ, các tổ chức xã hội và học thuật sử dụng nó miễn phí. Người phát ngôn của Meta cho biết phiên bản LLaMA 2 thế hệ mới không sử dụng dữ liệu người dùng trên các nền tảng Meta như Facebook và Instagram để đào tạo AI.

Người phát ngôn của Meta cho biết: “Tùy thuộc vào nơi bạn sống, mọi người có thể thực hiện quyền sở hữu dữ liệu và họ có thể phản đối việc chúng tôi sử dụng một số dữ liệu nhất định để đào tạo trí tuệ nhân tạo”.

Đến nay, hầu hết các công ty công nghệ như Meta, Microsoft, Google hay OpenAI vẫn thu thập dữ liệu công khai trên Internet để phục vụ quá trình đào tạo AI. Tuy nhiên, các chuyên gia đã nhiều lần đặt câu hỏi về việc lượng thông tin khổng lồ thu được sẽ được sử dụng như thế nào.

Tuần trước, liên minh các cơ quan bảo vệ dữ liệu từ Anh, Canada, Thụy Sĩ và một số quốc gia khác đã đưa ra tuyên bố chung nói rằng các công ty công nghệ lớn như Meta, Alphabet, ByteDance, X, Microsoft và các công ty khác cần tuân thủ các quy định về bảo vệ dữ liệu và quyền riêng tư. pháp luật tùy thuộc vào địa điểm kinh doanh của họ. Tổ chức này khuyến cáo người dùng cần chú ý hơn đến việc kiểm soát và bảo vệ thông tin đăng tải trên Internet.