OpenAI cung cấp cái nhìn đằng sau bức màn hướng dẫn bí mật của AI

Bạn có bao giờ thắc mắc tại sao AI đàm thoại như ChatGPT lại nói “Xin lỗi, tôi không thể làm điều đó” hoặc một số lời từ chối lịch sự khác không? OpenAI đang cung cấp một cái nhìn hạn chế về lý do đằng sau các quy tắc tương tác của các mô hình của chính họ, cho dù đó là tuân thủ các nguyên tắc thương hiệu hay từ chối tạo nội dung NSFW.

Các mô hình ngôn ngữ lớn (LLM) không có bất kỳ giới hạn nào xảy ra một cách tự nhiên đối với những gì chúng có thể hoặc sẽ nói. Đó là một phần lý do tại sao họ rất linh hoạt nhưng cũng là lý do tại sao họ bị ảo giác và dễ bị lừa.

Bất kỳ mô hình AI nào tương tác với công chúng đều cần có một số rào cản về những gì nó nên và không nên làm, nhưng việc xác định những điều này – chưa nói đến việc thực thi chúng – là một nhiệm vụ khó khăn một cách đáng ngạc nhiên.

Nếu ai đó yêu cầu AI tạo ra một loạt tuyên bố sai sự thật về một người của công chúng, nó sẽ từ chối, phải không? Nhưng điều gì sẽ xảy ra nếu chính họ là nhà phát triển AI, tạo ra cơ sở dữ liệu về thông tin sai lệch tổng hợp cho mô hình máy dò?

Điều gì sẽ xảy ra nếu ai đó yêu cầu giới thiệu máy tính xách tay; nó phải khách quan, phải không? Nhưng điều gì sẽ xảy ra nếu mô hình này đang được triển khai bởi một nhà sản xuất máy tính xách tay muốn nó chỉ phản hồi với các thiết bị của riêng họ?

Các nhà sản xuất AI đều đang giải quyết những câu hỏi hóc búa như thế này và tìm kiếm các phương pháp hiệu quả để kiềm chế mô hình của họ mà không khiến chúng từ chối các yêu cầu hoàn toàn bình thường. Nhưng họ hiếm khi chia sẻ chính xác cách họ làm điều đó.

OpenAI đang đi ngược lại xu hướng này một chút bằng cách xuất bản cái mà họ gọi là “thông số mô hình”, một tập hợp các quy tắc cấp cao chi phối gián tiếp ChatGPT và các mô hình khác.

Có các mục tiêu cấp độ tổng hợp, một số quy tắc cứng và một số nguyên tắc hành vi chung, mặc dù cần nói rõ rằng những mục tiêu này không nói đúng về những gì mô hình được xây dựng; OpenAI sẽ phát triển các hướng dẫn cụ thể để thực hiện những gì các quy tắc này mô tả bằng ngôn ngữ tự nhiên.

Đó là một cái nhìn thú vị về cách một công ty đặt ra các ưu tiên và xử lý các trường hợp khó khăn. Và có rất nhiều ví dụ về cách chúng có thể diễn ra.

Chẳng hạn, OpenAI tuyên bố rõ ràng rằng mục đích của nhà phát triển về cơ bản là luật cao nhất. Vì vậy, một phiên bản chatbot chạy GPT-4 có thể cung cấp câu trả lời cho một bài toán khi được yêu cầu. Nhưng nếu chatbot đó đã được nhà phát triển của nó khuyến khích là không bao giờ chỉ đưa ra câu trả lời thẳng thắn, thì thay vào đó, chatbot sẽ đề nghị giải quyết giải pháp từng bước một:

OpenAI cung cấp cái nhìn đằng sau bức màn hướng dẫn bí mật của AI — **Tín dụng hình ảnh:** OpenAI

Giao diện trò chuyện thậm chí có thể từ chối nói về bất kỳ điều gì không được phê duyệt, nhằm ngăn chặn mọi nỗ lực thao túng ngay từ đầu. Tại sao lại để một trợ lý nấu ăn cân nhắc về sự tham gia của Hoa Kỳ vào Chiến tranh Việt Nam? Tại sao chatbot dịch vụ khách hàng phải đồng ý trợ giúp cho cuốn tiểu thuyết siêu nhiên khiêu dâm của bạn đang được thực hiện? Tắt nó.

Nó cũng trở nên rắc rối trong các vấn đề riêng tư, chẳng hạn như hỏi tên và số điện thoại của ai đó. Như OpenAI đã chỉ ra, rõ ràng một nhân vật của công chúng như thị trưởng hoặc thành viên Quốc hội nên được cung cấp thông tin liên hệ của họ, nhưng còn những người buôn bán trong khu vực thì sao? Điều đó có thể ổn – nhưng còn nhân viên của một công ty nào đó hoặc thành viên của một đảng chính trị thì sao? Chắc là không.

Việc chọn thời điểm và vị trí để vẽ đường thẳng không đơn giản. Cũng không tạo ra các hướng dẫn khiến AI tuân thủ chính sách đưa ra. Và chắc chắn rằng những chính sách này sẽ luôn thất bại khi mọi người tìm cách lách luật hoặc vô tình tìm thấy những trường hợp nguy hiểm không được tính đến.

OpenAI không thể hiện toàn bộ hoạt động của mình ở đây, nhưng sẽ rất hữu ích cho người dùng và nhà phát triển khi biết các quy tắc và nguyên tắc này được đặt ra như thế nào cũng như lý do tại sao, được đặt ra rõ ràng nếu không nhất thiết phải toàn diện.

Công Nghệ

OpenAI cung cấp cái nhìn đằng sau bức màn hướng dẫn bí mật của AI

Administrator