Google ra mắt Gemini 2.0 để tạo nội dung đa phương thức

Google đã phát hành mẫu Gemini 2.0, có hiệu suất được cải thiện so với phiên bản 1.5 và hỗ trợ đầu ra đa phương thức, bao gồm hình ảnh, âm thanh gốc và nhiều ngôn ngữ.

“Nếu Gemini 1.0 thiên về tổ chức và hiểu thông tin thì Gemini 2.0 sẽ làm cho thông tin đó trở nên hữu ích hơn nữa”, Giám đốc điều hành Google Sundar Pichai cho biết trong buổi giới thiệu Gemini 2.0 vào ngày 11 tháng 12.

Phiên bản đầu tiên của mô hình mới là Gemini 2.0 Flash, có sẵn để người dùng và nhà phát triển truy cập sớm. Theo báo cáo, tốc độ phản hồi của AI gấp đôi so với phiên bản 1.5 Pro. Sản phẩm cũng hoạt động tốt trong nhiều tình huống sử dụng, bao gồm khả năng viết mã Python, Java, C++ đạt 92,9%, cao hơn 79,8 của Flash 1,5; khả năng giải toán đạt 89,7%, cao hơn mức 77,9% trước đó. Tuy nhiên, khả năng hiểu ngữ cảnh dài lại giảm từ 71,9% xuống 69,2%.

Theo Google, điều khiến Gemini 2.0 Flash trở nên đặc biệt là khả năng tạo đầu ra nội dung gốc đa phương thức. Kết quả đầu ra có thể là văn bản, lời nói, hình ảnh, chuyển văn bản thành giọng nói và cho phép người dùng tùy chỉnh lời nói theo nhu cầu.

Minh họa của Song Tử 2.0. Ảnh: Google — Minh họa của Song Tử 2.0. hình ảnh: *Google*

Demis Hassabis, CEO của Google DeepMind, nhấn mạnh: “Với những cải tiến về khả năng suy luận, hiểu ngữ cảnh dài, lập kế hoạch hoặc làm theo những hướng dẫn phức tạp, gọi hàm tổng hợp, v.v., họ sẽ tạo ra trải nghiệm trí tuệ nhân tạo mới”.

Trong sự kiện này, đại diện của Google đã mô phỏng các tính năng như đưa Gemini 2.0 lên Astra – một trợ lý AI tương lai có thể hiểu bối cảnh trong thế giới thực, kết hợp Google Tìm kiếm, Ống kính và Bản đồ và nhanh chóng đưa ra phản hồi. Một tác nhân trí tuệ nhân tạo khác sử dụng Gemini 2.0 có thể nhận dạng thông tin trên màn hình trò chơi chiến lược và tư vấn cho người dùng cách chơi để giành chiến thắng.

Gemini 2.0 Flash hiện có sẵn cho các nhà phát triển dưới dạng mô hình thử nghiệm thông qua API Gemini trong Google AI Studio và Vertex AI. Ngoài ra, người dùng cũng có thể trải nghiệm chatbot Gemini và lựa chọn phiên bản 2.0 của Flash. Google cho biết họ sẽ mở rộng các ứng dụng của Gemini 2.0 và các mô hình khác vào tháng 1 năm 2025.

Hassabis cho biết: “Chúng tôi đã đạt được một cột mốc thú vị trong kỷ nguyên Song Tử. Chúng tôi mong muốn tiếp tục khám phá tất cả các khả năng mới một cách an toàn khi hướng tới trí tuệ nhân tạo nói chung”.

Google sẽ ra mắt Gemini 1.0 vào tháng 12 năm 2023 để cạnh tranh với GPT của OpenAI. Theo CEO Sundar Pichai, ứng dụng của Gemini có 2 tỷ người dùng. Tính năng AI Tổng quan được tích hợp vào Google Tìm kiếm có 1 tỷ người dùng.

Lữ Quế

Công Nghệ

Google ra mắt Gemini 2.0 để tạo nội dung đa phương thức

Administrator