OpenAI bất ngờ ra mắt GPT-4o, Google trình làng loạt AI mới, ByteDance của Trung Quốc cũng tung ra mô hình ngôn ngữ quy mô lớn Doubao.
Trong vòng 36 giờ, sự cạnh tranh trong ngành AI toàn cầu diễn ra rất khốc liệt, OpenAI, Google và ByteDance lần lượt tổ chức các sự kiện để giới thiệu sức mạnh mới của AI.
Cuộc cạnh tranh trong ba ngày qua cũng cho thấy ngành công nghiệp trí tuệ nhân tạo ở Mỹ và Trung Quốc dường như đã đến ngã ba đường. Trong khi công nghệ mà OpenAI và Google thể hiện vượt xa sức tưởng tượng, ByteDance đã thực hiện một cách tiếp cận khác, cung cấp các mẫu mã với mức giá thấp đáng ngạc nhiên, sẵn sàng tiếp cận người dùng trên quy mô lớn.
OpenAI cho thấy AGI đang đến gần
OpenAI tổ chức cuộc họp mùa xuân vào ngày 14 tháng 5. Nhiều người suy đoán rằng GPT-5 hoặc công cụ tìm kiếm GPT sẽ được phát hành nhưng CEO Sam Altman chỉ mang đến bản cập nhật GPT-4o. Tuy nhiên, cộng đồng công nghệ vẫn ấn tượng bởi khả năng cho phép tương tác đa phương thức theo thời gian thực giữa văn bản, âm thanh và hình ảnh. Mô hình này có thể phản hồi giao tiếp bằng âm thanh trong 232 mili giây, tương tự như thời gian phản hồi của hai người đang nói hoặc sự thay đổi lớn trong giọng nói khi thể hiện cảm xúc và thay đổi giọng điệu.
Theo OpenAI, chữ “o” sau tên GPT-4o là viết tắt của thuật ngữ “omni” (toàn năng). Đây là một bước tiến mới hướng tới sự tương tác tự nhiên giữa con người và máy tính.
“GPT-4o là tập hợp tất cả những gì chúng tôi đã học được trong vài năm qua. OpenAI đã xem xét các mô hình âm thanh, hình ảnh và văn bản và làm việc chăm chỉ để kết hợp chúng. Ngày nay, “Mô hình hóa ngôn ngữ lớn hiệu quả không chỉ là tìm các ngôn ngữ lớn Đột phá về mô hình là làm thế nào nhiều mảnh ghép lại với nhau”, Sam Altman nói.
Ngoài trò chuyện, GPT-4o có thể giải thích sơ đồ, trợ giúp mã hóa, giải thích cảm xúc hoặc phân tích hình ảnh camera trong khi “duy trì tông màu dễ chịu”. Theo các nhà phân tích, mô hình mới của OpenAI có thể tương tác theo những cách đáng ngạc nhiên giống như con người. Đây là một bước tiến mới sắp tới của AGI.
Google không tạo ra nhiều hứng thú như mong đợi
Một ngày sau thành tích vượt trội của OpenAI, Google cũng ra mắt loạt AI mới tại sự kiện I/O của mình diễn ra vào sáng sớm 15/5 (giờ Hà Nội). Veo là câu trả lời của công ty trước đối thủ AI Sora, được ra mắt cách đây ba tháng. Tuy nhiên, hiệu ứng video được tạo bằng Veo kém ấn tượng hơn so với các đối thủ về độ chân thực, cảnh quay phức tạp và chuyển động của camera.
Astra là trợ lý trí tuệ nhân tạo có thể “làm bất cứ điều gì” và tương tác theo thời gian thực giống như GPT-4o. Google cho biết công cụ này hướng tới mục tiêu trở thành tác nhân trí tuệ nhân tạo “trung thực nhất và tốt nhất”. Đồng thời, Gemini được nâng cấp lên phiên bản 1.5 và được đưa vào hầu hết các dịch vụ của Google. Trên công cụ tìm kiếm Google Search, Gemini cũng được tích hợp sâu, không chỉ trả về thông tin kèm link trích dẫn mà còn cả các truy vấn ngôn ngữ tự nhiên, thông tin liên quan, gợi ý nội dung mới dựa trên từ khóa tìm kiếm.
Không giống như sự kiện ra mắt ấn tượng của OpenAI, sự kiện của Google không tạo được nhiều hứng thú cho những người tham dự, vì hầu hết là các video phát lại được chuẩn bị trước chứ không phải là trình diễn trực tiếp. Hơn nữa, các mô hình AI này vẫn đang trong giai đoạn thử nghiệm và chưa sẵn sàng để người dùng thông thường sử dụng.
Trong một video do chính Google chuẩn bị, Gemini hướng dẫn các nhiếp ảnh gia cách xử lý những chiếc máy ảnh bị nhét phim. Tuy nhiên bờ rìa Đánh giá hướng dẫn “rất kém”, AI khuyến nghị “mở nắp sau và nhẹ nhàng bóc phim”.
Andrew Lanxon, phóng viên công nghệ Mạng công nghệMột người trực tiếp tham gia sự kiện cho biết: “Sau hai giờ giới thiệu về Gemini và các công cụ trí tuệ nhân tạo khác, ngay cả những nhà báo công nghệ dày dạn kinh nghiệm cũng phải vò đầu bứt tai”. Google đã tung ra hàng chục mô hình trí tuệ nhân tạo mới, nhưng Lanxon tin rằng công ty sẽ nhận được. Người dùng hàng ngày càng hào hứng hơn về tiềm năng của sản phẩm và hiểu chính xác AI sẽ giúp đỡ con người của họ như thế nào.
Giá ByteDance gây sốc
Mười hai giờ sau màn trình diễn của Google, cách đó nửa vòng trái đất, gã khổng lồ công nghệ ByteDance cũng tổ chức một hội nghị công nghệ quy mô lớn. Tương tự như cách tiếp cận của Google, công ty đã tung ra 8 phiên bản khác nhau của mô hình ngôn ngữ lớn Doubao. Điều khiến cộng đồng công nghệ sốc là mức giá của các dịch vụ này “cạnh tranh đến khó tin” so với các đối thủ.
Bưu điện buổi sáng Nam Trung Quốc Tan Dai, chủ tịch của Bytedance Volcano Engine Cloud Computing Services, cho biết tại sự kiện ngày 15 tháng 5: “Chi phí cho 1.000 lời nhắc mã thông báo của Doubao Pro chỉ ở mức 0,0008 nhân dân tệ (0,011 xu). Mức giá này thấp hơn 99,8% so với chi phí của OpenAI. ” GPT-4. Giá hiện tại của GPT-4 là 0,42 nhân dân tệ cho 1.000 mã thông báo và mức phí thống nhất của Ernie và Alibaba của Baidu là 0,12 nhân dân tệ.
Các nhà phân tích cho biết ByteDance giảm giá 99,8%, bắt đầu cuộc chiến AI mới. đồng thời Bưu điện Washington Người ta cho rằng hãng đang chơi trò “tất tay” để tham gia vào một cuộc chiến “không thể thua”.
Không chỉ vậy, ByteDance còn công bố thành lập “Liên minh LLM thiết bị thông minh” với các gã khổng lồ điện thoại thông minh Samsung Electronics, Xiaomi và Honor, đồng thời thành lập “Liên minh sinh thái ô tô LLM” với các nhà sản xuất địa phương như Geely và Great Wall Motors. Điều này cho thấy tham vọng mạnh mẽ của ByteDance trong việc cạnh tranh với các mô hình AI trong và ngoài nước.
Giang Ya