Trí tuệ nhân tạo mới nhất của OpenAI, GPT-4o, có thể nhìn, nghe và nói, phản hồi gần như ngay lập tức và sẽ được triển khai miễn phí trong vài tuần tới.
OpenAI hôm nay đã tung ra “bản cập nhật mùa xuân” của mẫu GPT-4 có tên gọi GPT-4o với hàng loạt tính năng hàng đầu: khả năng suy luận hình ảnh, âm thanh và văn bản theo thời gian thực. Các chuyên gia cho biết trí tuệ nhân tạo mới của công ty “giống con người một cách đáng ngạc nhiên”.
Bộ phim “Her” sắp trở thành hiện thực
Sau hội nghị GPT-4o, Giám đốc điều hành OpenAI Sam Altman đã đăng trên X như sau: cô ấy. Dường như anh ấy đang ám chỉ rằng mô hình ngôn ngữ chính mới nhất của anh ấy đang tiến gần đến những gì xảy ra trong bộ phim này.
Bộ phim cô ấy Ra mắt vào năm 2013, bộ phim kể về Theodore, một nhà văn cô đơn, sống nội tâm, chuyên viết những bức thư tình cho những người gặp khó khăn. Chán nản sau khi ly hôn vợ, anh mua một chiếc máy tính được trang bị hệ điều hành AI, có khả năng học hỏi và giao tiếp như người bình thường.
Như Theodore mong muốn, hệ điều hành tự nhận mình là nữ và lấy tên là Samantha (do Scarlett Johansson lồng tiếng). Hai người nhanh chóng trở nên thân thiết đến mức Theodore đưa Samantha đi cùng mọi lúc mọi nơi, liên lạc với nhau qua tai nghe không dây và điện thoại thông minh. Từ tình bạn đến tình yêu và cả tình dục.
GPT-4o có sức mạnh tương đương. Khi công bố LLM mới, Giám đốc Công nghệ Mira Murati cho biết ChatGPT GPT-4o thể hiện sự cải tiến to lớn về khả năng nói và đàm thoại, vì giọng nói do AI này tạo ra có khả năng thể hiện cảm xúc và thay đổi giọng điệu.
Mẫu mới không chỉ có giọng nói giống con người mà còn thể hiện khả năng bắt chước khả năng đọc của con người. ChatGPT thậm chí có thể cười khúc khích trong khi thuyết trình, thêm sự hài hước và điều chỉnh bài phát biểu cho phù hợp với nội dung lời nhắc.
AI dường như cũng có thể nắm bắt và cảm nhận được một số biểu cảm nhất định của con người. Khi một trong những nhà nghiên cứu thở hổn hển khi đang tập thở sâu và giao tiếp với chatbot, nó ngay lập tức nói: “Mark, bạn không phải là máy hút bụi”.
Người dùng cũng có thể ngắt chatbot nếu nội dung lạc đề, giúp cuộc trò chuyện trở nên tự nhiên hơn. Trước đây, người dùng phải đợi cho đến khi AI trả lời xong mới có thể tiếp tục câu chuyện. Hơn nữa, thời gian phản hồi trung bình là 320 ms, rất giống với người bình thường.
Ngày càng hoàn hảo hơn
Ngoài trò chuyện, GPT-4o có thể giải thích sơ đồ, trợ giúp mã hóa, giải thích cảm xúc hoặc phân tích hình ảnh camera trong khi “duy trì tông màu dễ chịu”. Trong một bản demo riêng do Last phát hành, người này được dự đoán là đang chuẩn bị cho một cảnh quay.
GPT-4o cũng có thể tương tác trước khi người dùng đưa ra lệnh. Ví dụ, khi bản demo chuẩn bị trình bày một phương trình toán học, AI đã trả lời: “Ồ, tôi phấn khích quá. Tôi rất muốn được giúp đỡ bạn!”.
Tuy nhiên, chatbot dường như cũng có một số vấn đề. Trong một số trường hợp, AI hiểu sai các tín hiệu thị giác hoặc bắt đầu phản ứng không chính xác trước khi hoàn thành câu hỏi. Tuy nhiên, những khoảnh khắc này gần như khiến chatbot có vẻ giống con người hơn.
OpenAI cho biết GPT-4o sẽ có mặt trên ChatGPT trong vài tuần tới. Thông qua phiên bản trả phí, người dùng có thể trải nghiệm AI với “sức mạnh gấp năm lần”.
Murati cho biết: “Lần đầu tiên, OpenAI thực sự có một bước tiến lớn trong việc dễ dàng sử dụng trí tuệ nhân tạo. Điều này cực kỳ quan trọng để định hình tương lai của sự tương tác giữa con người và máy tính”. “Tôi nghĩ GPT-4o đang thực sự thay đổi mô hình AI cộng tác, giúp việc tương tác trở nên tự nhiên và dễ dàng hơn”.
(dựa theo Business Insider, Reuters, NBC News)
- Khả năng tấn công mạng của GPT-4 gây lo ngại
- ChatGPT tiêu thụ điện nhiều hơn 17.000 lần so với một hộ gia đình