Sự kiện Google I/O 2024 trưng bày các mô hình AI từ nhỏ đến lớn, cho thấy tương lai của AI đang lặng lẽ đi vào cuộc sống.
Tại sự kiện Google I/O diễn ra sáng sớm 15/5 (giờ Hà Nội), Google đã ra mắt hàng loạt sản phẩm AI, từ các mô hình ngôn ngữ lớn (LLM) với hàng chục tỷ tham số đến các mô hình nhỏ có thể chạy cục bộ. Thiết bị của người dùng cuối.
Hầu hết các dịch vụ đều cung cấp cho Gemini
Google đã phát hành phiên bản 1.5 của Gemini, đi kèm với một loạt tính năng mới, bao gồm khả năng phân tích các bản ghi văn bản, mã, video và âm thanh trong thời gian dài hơn trước. LLM này có sẵn trong một số phiên bản và có thể được sử dụng cho nhiều mục đích khác nhau.
Đặc biệt, Gemini 1.5 Pro sẽ là trợ lý đa năng trong Workspace, có khả năng lấy thông tin từ bất kỳ và tất cả nội dung trong Drive, viết email kết hợp thông tin từ tài liệu đang xem. Mô hình này sẽ xuất hiện trong Google Docs, Sheets, Slides, Drive và Gmail vào tháng tới nhưng hiện chỉ khả dụng cho người dùng trả phí.
Gemini 1.5 Flash là mẫu đa chế độ mới mạnh mẽ tương đương Gemini 1.5 Pro nhưng “được tối ưu hóa cho các tác vụ hẹp, tần suất cao, độ trễ thấp” – giúp AI phản hồi nhanh. Tuy nhiên, sản phẩm tích hợp model này vẫn chưa được hé lộ.
Gemini Live là một tính năng giúp người dùng tương tác với điện thoại thông minh của họ bằng giọng nói tự nhiên. Thay vì phải chờ đến lượt hỏi và trả lời, người dùng có thể ngắt lời AI để nói và nhận được câu trả lời ngay lập tức. Trí tuệ nhân tạo này còn có thể “nhìn” qua camera và đưa ra phản hồi, chẳng hạn như giải các bài toán hay thông tin về vật thể hiển thị trong ảnh.
Gemini Nano là model nhỏ nhất và được Google tích hợp vào trình duyệt Chrome trên máy tính để bàn kể từ phiên bản 126. Ban đầu, AI chạy các chức năng hỗ trợ trong Workspace Lab hoặc tạo post text trên mạng xã hội, viết bài đánh giá sản phẩm nhanh chóng.
Google cũng đưa Gemini Nano lên Android. Google cho biết với trí tuệ nhân tạo này, điện thoại thông minh Android có thể giúp người dùng tránh các cuộc gọi lừa đảo bằng cách phát hiện các dấu hiệu nguy hiểm, chẳng hạn như kiểu trò chuyện phổ biến giữa những kẻ lừa đảo và sau đó đưa ra cảnh báo kịp thời, theo thời gian thực. Tính năng này sẽ được thảo luận chi tiết vào cuối năm nay.
Theo Google, Gemini sẽ sớm cho phép người dùng đặt câu hỏi về video trên màn hình và trả lời dựa trên chú thích tự động. Người dùng Gemini Advanced trả phí cũng có thể nhập tệp PDF và AI sẽ cung cấp thông tin.
Gemini cũng được tích hợp sâu với công cụ tìm kiếm Google Search. AI này có thể làm được nhiều việc hơn là chỉ trả về thông tin bằng các liên kết trích dẫn, chẳng hạn như trả lời các truy vấn bằng ngôn ngữ tự nhiên, thông tin liên quan, đề xuất nội dung mới dựa trên từ khóa tìm kiếm, v.v.
Trên công cụ tìm kiếm, Google cũng sử dụng Gemini để cung cấp tính năng lọc ảnh mang tên Ask Photos. Tính năng này cho phép thư viện Google Photos được nghiên cứu và sau đó phản hồi yêu cầu của người dùng. Ví dụ: Giám đốc điều hành Sundar Pichai đã chứng minh tính năng này bằng cách hỏi Gemini biển số xe của anh ấy là gì. Đáp án là một dãy số nhưng có kèm theo ảnh để anh có thể chắc chắn đáp án là đúng.
Ngoài việc xử lý văn bản, Google cũng đang cung cấp mô hình tạo hình ảnh Gemini Imagen 3, một AI có khả năng hiểu lệnh chính xác hơn các mô hình trước đó, tạo ra các hình ảnh chân thực, chân thực và hơn thế nữa với “mức độ chi tiết đáng kinh ngạc”. Hình ảnh tốt hơn các mẫu trước đồng thời giảm thiểu lỗi và hiện tượng giả khi tạo hình ảnh. Google tuyên bố rằng Imagen 3 “có khả năng tạo hình ảnh từ văn bản hiệu quả nhất hiện nay”.
Google cũng ra mắt công cụ xây dựng chatbot tùy chỉnh có tên Gems. Giống như GPT của OpenAI, Gems cho phép người dùng đưa ra hướng dẫn cho Gemini để tùy chỉnh phản hồi và chuyên môn của mình. Ví dụ: nếu nhà phát triển muốn nó trở thành huấn luyện viên chạy bộ và phù hợp với mục tiêu đó, AI sẽ đề xuất các bước cần thực hiện. Tuy nhiên, tính năng này chỉ khả dụng cho tài khoản Gemini Advanced.
Với sự trợ giúp của API Gemini và Địa điểm, ứng dụng bản đồ Google Maps cũng sẽ bổ sung thêm các tính năng thông minh. Nhà phát triển có thể sử dụng những công cụ này để tổng hợp vị trí và khu vực trong ứng dụng của họ dựa trên dữ liệu đào tạo từ 300 triệu bài đánh giá vị trí. Điều này giúp các nhà phát triển tiết kiệm thời gian bằng cách không phải viết mô tả theo cách thủ công về nơi họ muốn nhúng vào ứng dụng của mình.
Ngoài ra, Google cho biết Gemini sẽ dần thay thế Google Assistant để hỗ trợ người dùng tương tác sâu hơn. AI cũng sẽ đưa ra câu trả lời nhanh hơn, nhiều thông tin hơn và mang tính tương tác hơn so với trợ lý ảo.
Project Astra – một tương lai như Star Trek
Tại sự kiện, Google đã trình làng Astra, một trí tuệ nhân tạo đa phương thức mà công ty hy vọng sẽ trở thành trợ lý ảo “đa năng”. Bằng cách sử dụng camera trên điện thoại thông minh, Astra có thể nhìn và hiểu những gì nó nhìn thấy, ghi nhớ mọi thứ ở đâu và làm mọi việc cho người dùng. Google cho biết công cụ này hướng tới mục tiêu trở thành tác nhân trí tuệ nhân tạo “trung thực nhất và tốt nhất”.
Đại diện Google cho biết: “Nó không chỉ nói chuyện với người dùng mà còn thực sự thay mặt bạn làm mọi việc”.
Veo – Câu trả lời của Google cho OpenAI Sora
Giám đốc điều hành Google DeepMind Demis Hassabis cũng giới thiệu Veo tại sự kiện, một trí tuệ nhân tạo có thể tạo ra các video 1080p “chất lượng cao” với nhiều phong cách hình ảnh và điện ảnh khác nhau. Đây được coi là đối thủ mới của Sora.
Cụ thể, AI hiểu được ngôn ngữ tự nhiên và có thể “bắt chính xác giọng điệu của lời nhắc” để tạo ra những video thể hiện tốt nhất tầm nhìn sáng tạo của người dùng. Mô hình này cũng hiểu các thuật ngữ điện ảnh như video “tua nhanh thời gian” hoặc “cảnh chụp phong cảnh trên không” và có thể tạo ra những cảnh nhất quán và mạch lạc với chuyển động chân thực của chủ thể con người, động vật và đồ vật trong suốt khung cảnh.
Trong sự kiện này, Google đã trình chiếu một đoạn video dài khoảng 8 giây. Tuy nhiên, công ty cho biết người dùng có thể yêu cầu kéo dài thời lượng lên 1 phút 10 giây hoặc điều chỉnh thông qua các lời nhắc bổ sung để thay đổi kết quả. Con số này cao hơn thời lượng tối đa một phút được OpenAI Sora công bố trước đó.
Tuy nhiên, giống như nhiều AI tạo video và ảnh khác, cả Veo và Imagen 3 đều chưa được phát hành rộng rãi. Công ty có kế hoạch đưa một số tính năng Veo vào YouTube Shorts và các sản phẩm khác trong tương lai.
Gemma 2 có 27 tỷ thông số
Gemma 2 là bản nâng cấp lớn của Gemma trước đó chỉ có hai phiên bản: 2 tỷ tham số và 7 tỷ tham số. Mô hình này đã được tối ưu hóa để chạy trên GPU thế hệ tiếp theo của Nvidia, máy chủ Google Cloud TPU và dịch vụ Vertex AI.
Tuy nhiên, Google vẫn chưa tiết lộ thông tin chi tiết về mô hình này, ngoài việc Phó chủ tịch Google Labs Josh Woodward tuyên bố rằng Gemma 2 “mạnh gấp đôi” so với các mô hình nguồn mở như Llama của Meta và Mistral của Mistral AI. Gemma 2 sẽ được triển khai vào tháng 6.
Chuan-Baolin
- Google công bố 'Tương lai của trợ lý AI'