Nghiên cứu của Apple cho thấy rằng các mô hình ngôn ngữ lớn (LLM) phổ biến nhất hiện nay không thông minh như nhiều người lo ngại.
LLM từ OpenAI, Google hay Meta được coi là có khả năng tương tác tự nhiên với con người, gần nhất là mô hình OpenAI o1 “có khả năng suy luận”. Tuy nhiên, theo nhóm nghiên cứu của Apple, chúng chỉ đơn thuần là “khớp mẫu phức tạp” chứ không phải là “lý luận logic thực sự”.
GSM8K hiện là bài kiểm tra phổ biến nhất để đánh giá khả năng suy luận trong LL.M. Tuy nhiên, do quá phổ biến nên công cụ này được cho là “nhiễm” dữ liệu, khiến LL.M có thể biết được câu trả lời vì nó đã được đào tạo trên dữ liệu đó.
Để kiểm tra giả thuyết này, nhóm nghiên cứu của Apple đã phát triển một tiêu chuẩn mới có tên GSM-Symbolic, tiêu chuẩn này vẫn giữ nguyên bản chất của vấn đề nhưng thay đổi các biến như tên, số, độ phức tạp và thêm thông tin không liên quan. Bằng cách thử nghiệm 20 mô hình LLM phổ biến nhất, bao gồm GPT-4o và o1 của OpenAI, Gemma 2 của Google và Llama 3 của Meta, kết quả cho thấy hiệu suất LLM “mong manh một cách đáng ngạc nhiên”.
Apple cho biết trong một bài nghiên cứu đăng trên blog của mình trong tuần này rằng hiệu suất và độ chính xác trong thử nghiệm của mô hình này giảm vài điểm phần trăm mỗi khi thay đổi các biến số. Các sản phẩm của OpenAI hoạt động tốt hơn LLM nguồn mở nhưng sự khác biệt không đáng kể.
Nhóm cũng đã thêm các cụm từ không cần thiết để đo lường phản hồi của mô hình. Ví dụ: “Oliver hái 44 quả Kiwi vào thứ Sáu. Sau đó, anh ấy hái 58 quả Kiwi vào thứ Bảy. Vào Chủ nhật, anh ấy hái số quả Kiwi gấp đôi so với ngày thứ Sáu, nhưng nhiều hơn 5 quả so với mức trung bình. Nhỏ. Oliver có bao nhiêu quả kiwi?”
Kết quả là điểm số của LLM bị giảm mạnh. OpenAI o1 Preview đạt kết quả tốt nhất nhưng độ chính xác giảm 17,5%, vẫn cao hơn LLM Phi 3 của Microsoft giảm 65%.
Trong ví dụ về bài toán đếm quả kiwi, LLM đã trừ 5 quả kiwi nhỏ hơn mà không “hiểu” rằng kích thước quả không liên quan đến bài toán. Đại diện nhóm nghiên cứu cho biết: “Điều này cho thấy các mô hình có xu hướng chuyển đổi câu thành các phép toán mà không thực sự hiểu ý nghĩa của chúng”. “Nó bác bỏ giả định rằng LL.M. tìm kiếm mô hình và kết hợp để lý luận hơn là hiểu khái niệm.”
Hội thảo nhấn mạnh rằng bài kiểm tra cho thấy “những điểm yếu nghiêm trọng trong khả năng của LLM trong việc thực sự hiểu các khái niệm toán học và phân biệt thông tin liên quan để giải quyết vấn đề”. Kết quả cho thấy các mô hình AI đã bắt đầu phát triển khả năng tự suy luận về vấn đề nhưng ở mức độ thấp và rủi ro của AI thực tế đã bị cường điệu hóa quá mức.
Tất cả các bên vẫn chưa bình luận về kết quả nghiên cứu của Apple.
- Apple có thể tính phí 20 USD cho các tính năng AI
- Apple đi theo con đường riêng của mình trong kỷ nguyên AI sáng tạo