Dự án Astra của Google tạo ra trí tuệ nhân tạo tổng quát có khả năng hiểu ngữ cảnh và phản hồi ngay lập tức các yêu cầu của người dùng.
Demis Hassabis, CEO Google DeepMind, có mặt tại sự kiện Google I/O vào sáng sớm 15/5 (giờ Hà Nội).
Hassabis tin rằng để thực sự hữu ích, AGI cần hiểu và phản ứng với thế giới thực giống như cách con người làm. Họ cũng cần có khả năng tiếp nhận và ghi nhớ thông tin họ nhìn thấy và nghe thấy để có thể hiểu ngữ cảnh và hành động.
Hassabis cho biết: “Nó cũng cần phải có tính chủ động, có thể dạy được và được cá nhân hóa để người dùng có thể nói chuyện với nó một cách tự nhiên và không bị lag”.
Trong video demo dài hai phút, Google đã cho thấy sản phẩm của họ có thể thực hiện các tác vụ này như thế nào thông qua một thiết bị có camera và micrô tích hợp, chẳng hạn như điện thoại thông minh hoặc kính thông minh, sử dụng trí tuệ nhân tạo có khả năng xử lý nhiều loại đầu vào theo mô hình nhân tạo. Sự thông minh).
Ví dụ, khi một camera được đưa vào phòng và hỏi thiết bị nào đang phát ra âm thanh, AI sẽ trả lời chính xác đó là một bộ loa đặt trên bàn, thậm chí có thể chia sẻ chi tiết về các bộ phận loa của thiết bị. khi người dùng hỏi. Hoặc khi bạn đưa máy ảnh lên màn hình có dòng mã, máy cũng có thể biết những dòng mã đó đang thực hiện chức năng gì.
Trợ lý AI của Google cũng gây ấn tượng với khả năng tiếp nhận và ghi nhớ thông tin. Sau khi người dùng sử dụng camera đi quanh phòng và đột nhiên hỏi “Bạn có nhớ bạn đã nhìn thấy kính của tôi ở đâu không?”, thiết bị trả lời “có” và chỉ vào vị trí chính xác “trên bàn, cạnh quả táo”, mặc dù ống kính chỉ lướt qua cảnh này một cách ngắn gọn. Câu trả lời của AI đã thu hút những tràng pháo tay trong khán phòng Google I/O.
Đại diện Google cho biết, các hệ thống trí tuệ nhân tạo có thể hiểu thông tin đa phương thức đang dần được cải thiện. Tuy nhiên, thách thức trong việc phát triển trợ lý này là có thể hiểu được ngữ cảnh và phản hồi trong thời gian ngắn nhất.
Công ty đã cải tiến thông số kỹ thuật này bằng cách xây dựng mô hình Gemini mới, được thiết kế để xử lý thông tin nhanh hơn bằng cách mã hóa tuần tự các khung hình video, kết hợp đầu vào video và giọng nói thành dòng thời gian của sự kiện và lưu thông tin này vào bộ nhớ đệm để đạt hiệu quả cao hơn.
Trước đây, khi giới thiệu hai mẫu máy mới là Gemini 1.5 Pro và 1.5 Flash, Hassabis cho biết các mẫu máy mới có thể xử lý 1 triệu “token” cửa sổ ngữ cảnh.
Google vẫn chưa công bố thông tin chi tiết về thời điểm ra mắt trợ lý AI nhưng cho biết một số tính năng sẽ được đưa lên các sản phẩm của Google, trong đó có ứng dụng Gemini trên điện thoại vào cuối năm nay.
Lưu Quý Châu