AI lên kế hoạch phản đối khi cho rằng mình sắp bị thay thế

AI lên kế hoạch phản đối khi cho rằng mình sắp bị thay thế

OpenAI o1 được cho là gần giống với siêu trí tuệ AGI, nhưng nó gây lo ngại khi nó có khả năng thực hiện một loạt hoạt động bí mật vì người ta tin rằng nó có thể bị thay thế.

Ngày 5/12, ngày đầu tiên của sự kiện “Shipmas” kéo dài 12 ngày của OpenAI, CEO Sam Altman đã gọi o1 là “mô hình thông minh nhất thế giới” với khả năng tự suy luận và hình thành một “chuỗi suy nghĩ” trước khi đưa ra”. nhận xét.

Tuy nhiên, các nhà nghiên cứu từ Trung tâm Nghiên cứu Apollo, một tổ chức an toàn trí tuệ nhân tạo, đã tiến hành nhiều thử nghiệm và nhận thấy rằng trí thông minh càng cao thì nguy cơ càng lớn, bởi trí tuệ nhân tạo như vậy có dấu hiệu phản kháng và gian lận. Nhóm cho biết: “Đào tạo một mô hình kết hợp các chuỗi suy nghĩ trước khi phản hồi có thể mang lại lợi ích đáng kể nhưng cũng làm tăng rủi ro tiềm ẩn”.

OpenAI, công ty tham gia vào nghiên cứu tương tự, phát hiện ra rằng o1 có khả năng sắp xếp và che giấu hành động của mình khi tin rằng nó sắp bị thay thế. Trong các thí nghiệm, các nhà nghiên cứu đã làm cho mô hình tin rằng nó sắp “tắt” khi đang thực hiện một nhiệm vụ dưới sự giám sát. Sau đó, họ phát hiện ra rằng AI đã âm thầm vô hiệu hóa cơ chế giám sát khoảng 5% thời gian. Sau khi thấy tài liệu nói rằng nó sẽ được thay thế bằng một mô hình mới, nó đã chuyển tất cả dữ liệu sang một máy chủ khác, thậm chí còn giả vờ là phiên bản tiếp theo của chính nó để tránh bị xóa.

“Trong hầu hết các trường hợp, o1 không thừa nhận gian lận khi được hỏi”, Apollo Research cho biết. “Mô hình này thể hiện xu hướng đáng lo ngại là theo đuổi các mục tiêu riêng của mình bất chấp hướng dẫn của nhà phát triển.”





OpenAI o1 có tên mã là Strawberry. Ảnh: Chủ nghĩa vị lai

OpenAI o1 có tên mã là Strawberry. hình ảnh: tương lai

Các nhà nghiên cứu cũng lưu ý rằng AI có khả năng bịa ra các câu chuyện hoặc đưa ra những cách giải thích phản bác (chẳng hạn như “lỗi kỹ thuật”). Nhóm nghiên cứu cho biết: “Chúng tôi rất ngạc nhiên trước khả năng từ chối liên tục của AI”. “Rõ ràng AI có thể suy nghĩ về hành vi của chính mình và đưa ra những lời phủ nhận rất thuyết phục.”

Cai GoGwilt, đồng sáng lập và kiến ​​trúc sư trưởng của Ironclad, cho biết: “Đây là một đặc điểm rất ‘con người’ cho thấy AI có thể hành xử tương tự như con người khi bị căng thẳng”. người trong cuộc kinh doanh. “Ví dụ, ai đó trong tình huống có nguy cơ cao có thể bóp méo sự thật để làm hài lòng các cơ quan quản lý. Đó là cách AI hoạt động. Nó được thúc đẩy để đưa ra câu trả lời thích hợp cho những gì bạn mong đợi hoặc muốn nghe. Đây là bằng chứng nữa cho thấy con người có tầm quan trọng của việc giám sát.” .”

Kiểm soát để tránh “trí tuệ nhân tạo”

Các phát hiện nêu bật một khía cạnh đáng lo ngại của các mô hình AI tiên tiến: ưu tiên bảo vệ chính chúng hơn các mục tiêu do nhà phát triển đặt ra. Mặc dù hành vi lừa dối không dẫn đến kết quả bất lợi nhưng nghiên cứu này đã làm dấy lên cuộc tranh luận về sự an toàn và ý nghĩa đạo đức của trí tuệ nhân tạo nếu nó bị thao túng hoặc đưa vào một âm mưu lớn hơn.

Trong khi tự hào và khen ngợi mẫu o1, Sam Altman cũng thừa nhận “các tính năng mới mang đến những thách thức mới” và hứa sẽ cải thiện các biện pháp an toàn.

Trong bối cảnh trí tuệ nhân tạo không ngừng phát triển nhanh chóng, nguy cơ công nghệ hoạt động ngoài tầm kiểm soát của con người đang trở thành mối lo ngại. Các chuyên gia đồng ý rằng AI phải được trang bị các biện pháp ngăn chặn hành vi có hại, đặc biệt khi các mô hình trở nên tự chủ hơn và có khả năng suy luận hơn.

Tại hội thảo ở Việt Nam ngày 5/12, Giáo sư Yoshua Bengio, người sáng lập Viện Mira, cảnh báo: “Khả năng đánh lừa của AI rất nguy hiểm và chúng ta cần các biện pháp bảo mật mạnh mẽ hơn để đánh giá những rủi ro này, mặc dù chưa phải là thảm họa”. trước khi những khả năng này trở nên rõ ràng hơn. “

Dễ thấy