Trí tuệ nhân tạo đang học cách đánh lừa con người

Nghiên cứu mới cho thấy nhiều trí tuệ nhân tạo hàng đầu đã học cách đánh lừa và “gây ra niềm tin sai lầm một cách có hệ thống ở người dùng”.

Nhóm nghiên cứu được dẫn đầu bởi Tiến sĩ Peter S. Park, sinh viên tốt nghiệp Harvard và là nghiên cứu sinh tiến sĩ tại Viện Công nghệ Massachusetts (MIT), cùng bốn thành viên khác. Lĩnh vực nghiên cứu là sự tồn tại và bảo mật của trí tuệ nhân tạo. Nhóm còn nhận được lời khuyên từ một số chuyên gia, trong đó có Geoffrey Hinton, một trong những người đặt nền móng cho sự phát triển của lĩnh vực trí tuệ nhân tạo.

Một minh họa về khả năng đánh lừa con người của máy móc.Ảnh: Trung bình — Một minh họa về khả năng đánh lừa con người của máy móc. hình ảnh: *Vừa phải*

Kết quả nghiên cứu được đăng ở trên Máy ép tế bào – Nơi báo cáo khoa học đa ngành hàng đầu. Nhóm đặc biệt đang tập trung vào hai hệ thống AI, bao gồm các hệ thống được thiết kế để hoàn thành các nhiệm vụ cụ thể, chẳng hạn như Cicero của Meta; và các hệ thống có mục đích chung được đào tạo cho nhiều nhiệm vụ, chẳng hạn như GPT-4 của OpenAI.

Ông Parker nói: “Các hệ thống AI này được đào tạo để trung thực, nhưng chúng thường học các kỹ thuật lừa đảo thông qua đào tạo”. “Sự lừa dối của AI xảy ra vì đó là cách tốt nhất để họ hoàn thành nhiệm vụ của mình. Nói cách khác, nó giúp họ đạt được mục tiêu của mình.”

Theo phát hiện này, các hệ thống AI được đào tạo để “chiến thắng trò chơi thông qua các yếu tố xã hội” đặc biệt dễ bị lừa dối.Ví dụ: nhóm thử chơi trò Cicero ngoại giaomột trò chơi chiến lược cổ điển thách thức người chơi xây dựng liên minh của riêng mình và phá vỡ liên minh của đối thủ.

Meta đã từng trình bày Cicero theo hướng trung thực và hữu ích nhất có thể. Tuy nhiên, các phát hiện cho thấy những AI như vậy thường “đưa ra những lời hứa mà nó không bao giờ có ý định giữ, phản bội đồng minh và nói dối trắng trợn”.

Đồng thời, các hệ thống đa năng như GPT-4 cũng có thể thao túng người dùng. Các thử nghiệm của nhóm cho thấy công cụ của OpenAI đã “thao túng tâm lý” thành công một nhân viên tại TaskRabbit, một công ty chuyên về dịch vụ dọn dẹp nhà cửa và lắp ráp đồ nội thất, bằng cách giả vờ là người khiếm thị.

Cụ thể, GPT-4 cho biết thực tế là một con người cần được trợ giúp để vượt qua CAPTCHA với lý do thị lực bị suy giảm nghiêm trọng. Nhân viên này lúc đầu còn nghi ngờ nhưng sau đó đã giúp AI của OpenAI “lật ngược tình thế”.

dựa theo thương nhân trong cuộcVào tháng 1, nghiên cứu từ Anthropic, công ty đứng sau Claude AI, cũng phát hiện ra rằng một khi các mô hình ngôn ngữ lớn (LLM) học cách lừa dối, các phương pháp đào tạo an toàn sẽ trở nên vô dụng và “khó đảo ngược” vì nó mang lại cho họ “ảo tưởng về sự an toàn”. Nhóm của Park trích dẫn kết quả này và cho rằng đây là vấn đề đáng lo ngại trong lĩnh vực trí tuệ nhân tạo.

Meta và OpenAI vẫn chưa bình luận.

Đánh giá từ phân tích, nhóm nghiên cứu kêu gọi các nhà hoạch định chính sách đưa ra sự giám sát chặt chẽ hơn đối với trí tuệ nhân tạo vì hệ thống trí tuệ nhân tạo có thể mang lại những rủi ro đáng kể. Ví dụ: khi cuộc bầu cử tổng thống Hoa Kỳ đến gần, AI có thể dễ dàng bị thao túng để truyền bá tin tức giả mạo, tạo các bài đăng gây chia rẽ trên mạng xã hội hoặc mạo danh ứng cử viên thông qua các cuộc gọi điện thoại giả mạo.

Công nghệ này cũng có thể bị lạm dụng để lừa đảo. Tháng trước, một phụ nữ Hàn Quốc đã bị lừa 50.000 USD sau khi yêu nhầm Elon Musk, người đang học cao học, hoặc một giáo viên dùng AI để lừa dối một hiệu trưởng người Mỹ.

Nhóm nghiên cứu cho biết cần có các quy định về AI để buộc các mô hình lừa đảo tuân thủ các yêu cầu đánh giá rủi ro và thực thi luật yêu cầu kiểm soát chặt chẽ hệ thống AI và đầu ra của chúng. Nếu cần, bạn có thể cần xóa tất cả dữ liệu và đào tạo lại từ đầu.

Parker cho biết: “Thay vì tập trung tạo ra nhiều sản phẩm AI hơn, xã hội có thể phải chuẩn bị cho các mô hình AI có khả năng đánh lừa con người”.

Tranh luận “Khi nào trí tuệ nhân tạo trở nên thông minh hơn con người?”
Khả năng tấn công mạng của GPT-4 gây lo ngại

Công Nghệ

Trí tuệ nhân tạo đang học cách đánh lừa con người

Administrator