OpenAI đã công bố một mô hình AI sáng tạo hàng đầu mới vào thứ Hai mà họ gọi là GPT-4o – “o” là viết tắt của “omni”, đề cập đến khả năng xử lý văn bản, lời nói và video của mô hình. GPT-4o dự kiến sẽ triển khai “lặp đi lặp lại” trên các sản phẩm dành cho nhà phát triển và người tiêu dùng của công ty trong vài tuần tới.
OpenAI CTO Mira Murati cho biết GPT-4o cung cấp trí thông minh “cấp GPT-4” nhưng cải thiện khả năng của GPT-4 trên nhiều phương thức và phương tiện.
“GPT-4o lý giải về giọng nói, văn bản và tầm nhìn,” Murati nói trong buổi thuyết trình trực tuyến tại văn phòng của OpenAI ở San Francisco vào thứ Hai. “Và điều này cực kỳ quan trọng, bởi vì chúng tôi đang hướng tới tương lai của sự tương tác giữa con người và máy móc.”
GPT-4 Turbo, mẫu “tiên tiến nhất” hàng đầu của OpenAI trước đây, được đào tạo về sự kết hợp giữa hình ảnh và văn bản và có thể phân tích hình ảnh và văn bản để thực hiện các tác vụ như trích xuất văn bản từ hình ảnh hoặc thậm chí mô tả nội dung của những hình ảnh đó. Nhưng GPT-4o bổ sung thêm giọng nói vào hỗn hợp.
Điều này cho phép điều gì? Nhiều thứ khác nhau.
GPT-4o cải thiện đáng kể trải nghiệm trong chatbot hỗ trợ AI của OpenAI, ChatGPT. Nền tảng này từ lâu đã cung cấp chế độ giọng nói phiên âm các phản hồi của chatbot bằng mô hình chuyển văn bản thành giọng nói, nhưng GPT-4o tăng cường khả năng này, cho phép người dùng tương tác với ChatGPT giống như một trợ lý hơn.
Ví dụ: người dùng có thể hỏi ChatGPT hỗ trợ GPT-4o một câu hỏi và làm gián đoạn ChatGPT trong khi nó đang trả lời. OpenAI cho biết, mô hình này mang lại khả năng phản hồi “theo thời gian thực” và thậm chí có thể tiếp nhận các sắc thái trong giọng nói của người dùng, để phản hồi tạo ra giọng nói ở “một loạt các phong cách cảm xúc khác nhau” (bao gồm cả ca hát).
GPT-4o cũng nâng cấp khả năng thị giác của ChatGPT. Với một bức ảnh — hoặc màn hình máy tính để bàn — ChatGPT giờ đây có thể nhanh chóng trả lời các câu hỏi liên quan, từ các chủ đề từ “Điều gì đang xảy ra trong mã phần mềm này?” thành “Người này đang mặc áo sơ mi của hãng nào?”
Murati cho biết những tính năng này sẽ phát triển hơn nữa trong tương lai. Mặc dù ngày nay GPT-4o có thể xem hình ảnh menu bằng một ngôn ngữ khác và dịch nó, nhưng trong tương lai, mô hình này có thể cho phép ChatGPT, chẳng hạn như “xem” một trận đấu thể thao trực tiếp và giải thích các quy tắc cho bạn.
“Chúng tôi biết rằng các mô hình này ngày càng phức tạp hơn nhưng chúng tôi muốn trải nghiệm tương tác thực sự trở nên tự nhiên, dễ dàng hơn và để bạn không tập trung vào giao diện người dùng mà chỉ tập trung vào cộng tác với ChatGPT,” Murati nói. “Trong vài năm qua, chúng tôi đã rất tập trung vào việc cải thiện trí thông minh của những mô hình này… Nhưng đây là lần đầu tiên chúng tôi thực sự đạt được một bước tiến lớn về tính dễ sử dụng.”
OpenAI tuyên bố GPT-4o cũng đa ngôn ngữ hơn với hiệu suất được nâng cao ở khoảng 50 ngôn ngữ. Và trong API của OpenAI và Dịch vụ Azure OpenAI của Microsoft, GPT-4o nhanh gấp đôi, giá chỉ bằng một nửa và có giới hạn tốc độ cao hơn GPT-4 Turbo, công ty cho biết.
Hiện tại, giọng nói không phải là một phần của API GPT-4o dành cho tất cả khách hàng. OpenAI, trích dẫn nguy cơ sử dụng sai mục đích, cho biết họ có kế hoạch triển khai hỗ trợ lần đầu tiên cho các khả năng âm thanh mới của GPT-4o cho “một nhóm nhỏ đối tác đáng tin cậy” trong những tuần tới.
GPT-4o có sẵn ở cấp ChatGPT miễn phí bắt đầu từ hôm nay và dành cho những người đăng ký gói ChatGPT Plus và Team cao cấp của OpenAI với giới hạn tin nhắn “cao hơn 5 lần”. (OpenAI lưu ý rằng ChatGPT sẽ tự động chuyển sang GPT-3.5, một mẫu cũ hơn và kém khả năng hơn khi người dùng đạt đến giới hạn tốc độ.) Trải nghiệm giọng nói ChatGPT được cải tiến được củng cố bởi GPT-4o sẽ có phiên bản alpha cho người dùng Plus trong tháng tới hoặc vì vậy, bên cạnh các lựa chọn tập trung vào doanh nghiệp.
Trong các tin tức liên quan, OpenAI đã thông báo rằng họ sẽ phát hành giao diện người dùng ChatGPT được làm mới trên web với bố cục tin nhắn và màn hình chính mới, “đàm thoại hơn” cũng như phiên bản ChatGPT dành cho máy tính để bàn dành cho macOS cho phép người dùng đặt câu hỏi thông qua phím tắt hoặc nhận và thảo luận về ảnh chụp màn hình. Người dùng ChatGPT Plus sẽ có quyền truy cập vào ứng dụng trước, bắt đầu từ hôm nay và phiên bản Windows sẽ ra mắt vào cuối năm nay.
Ở những nơi khác, GPT Store, thư viện và công cụ tạo của OpenAI dành cho chatbot bên thứ ba được xây dựng trên các mô hình AI của nó, hiện có sẵn cho người dùng cấp miễn phí của ChatGPT. Và người dùng miễn phí có thể tận dụng các tính năng ChatGPT trước đây có tường phí, chẳng hạn như khả năng bộ nhớ cho phép ChatGPT “ghi nhớ” các tùy chọn cho các tương tác trong tương lai, tải tệp và ảnh lên cũng như tìm kiếm trên web để tìm câu trả lời cho các câu hỏi kịp thời.
Chúng tôi đang tung ra một bản tin AI! Đăng ký tại đây để bắt đầu nhận nó trong hộp thư đến của bạn vào ngày 5 tháng 6.