Google đang tập trung toàn lực vào AI – và họ muốn bạn biết điều đó. Trong bài phát biểu quan trọng của công ty tại hội nghị nhà phát triển I/O vào thứ Ba, Google đã đề cập đến “AI” hơn 120 lần. Đó là rất nhiều!
Nhưng không phải tất cả các thông báo về AI của Google đều có ý nghĩa quan trọng. Một số đã tăng dần. Những người khác đã được thử lại. Vì vậy, để giúp phân loại lúa mì khỏi vỏ trấu, chúng tôi đã tổng hợp các sản phẩm và tính năng AI mới hàng đầu được ra mắt tại Google I/O 2024.
AI sáng tạo trong tìm kiếm
Google có kế hoạch sử dụng AI tổng hợp để sắp xếp toàn bộ trang kết quả Tìm kiếm của Google.
Các trang được tổ chức bằng AI sẽ trông như thế nào? Vâng, nó phụ thuộc vào truy vấn tìm kiếm. Nhưng chúng có thể hiển thị các bản tóm tắt đánh giá do AI tạo ra, các cuộc thảo luận từ các trang truyền thông xã hội như Reddit và danh sách đề xuất do AI tạo ra, Google cho biết.
Hiện tại, Google có kế hoạch hiển thị các trang kết quả được tăng cường AI khi phát hiện người dùng đang tìm kiếm cảm hứng – ví dụ: khi họ đang lên kế hoạch cho chuyến đi. Chẳng bao lâu nữa, nó cũng sẽ hiển thị những kết quả này khi người dùng tìm kiếm các lựa chọn ăn uống và công thức nấu ăn, cùng với các kết quả về phim, sách, khách sạn, thương mại điện tử, v.v.
Dự án Astra và Gemini Live
Google đang cải thiện chatbot Gemini được hỗ trợ bởi AI để có thể hiểu rõ hơn về thế giới xung quanh.
Công ty đã xem trước một trải nghiệm mới trong Gemini có tên là Gemini Live, cho phép người dùng trò chuyện thoại “chuyên sâu” với Gemini trên điện thoại thông minh của họ. Người dùng có thể ngắt lời Gemini trong khi chatbot đang nói để đặt những câu hỏi làm rõ và nó sẽ thích ứng với kiểu nói của họ trong thời gian thực. Và Gemini có thể nhìn và phản hồi với môi trường xung quanh người dùng, thông qua ảnh hoặc video được quay bằng camera trên điện thoại thông minh của họ.
Gemini Live – sẽ không ra mắt cho đến cuối năm nay – có thể trả lời các câu hỏi về những thứ trong tầm nhìn (hoặc gần đây trong tầm nhìn) của camera của điện thoại thông minh, chẳng hạn như người dùng có thể ở khu vực lân cận nào hoặc tên của một bộ phận trên một chiếc xe đạp bị hỏng. Những cải tiến kỹ thuật thúc đẩy Live một phần bắt nguồn từ Project Astra, một sáng kiến mới trong DeepMind nhằm tạo ra các ứng dụng và “tác nhân” được hỗ trợ bởi AI để hiểu biết đa phương thức, theo thời gian thực.
Google Veo
Google đang nhắm đến Sora của OpenAI với Veo, một mô hình AI có thể tạo các video clip 1080p dài khoảng một phút khi được nhắc bằng văn bản.
Veo có thể ghi lại các phong cách hình ảnh và điện ảnh khác nhau, bao gồm ảnh phong cảnh và tua nhanh thời gian, đồng thời thực hiện các chỉnh sửa và điều chỉnh cho các cảnh quay đã được tạo. Mô hình hiểu khá tốt các chuyển động của máy ảnh và VFX từ các lời nhắc (hãy nghĩ đến các mô tả như “xoay”, “thu phóng” và “nổ”). Và Veo phần nào nắm bắt được vật lý – những thứ như động lực học chất lỏng và trọng lực – góp phần tạo nên tính chân thực cho các video mà nó tạo ra.
Veo cũng hỗ trợ chỉnh sửa ẩn để thay đổi các khu vực cụ thể của video và có thể tạo video từ hình ảnh tĩnh, theo kiểu mô hình tổng hợp như Video ổn định của AI ổn định. Có lẽ hấp dẫn nhất là với một chuỗi lời nhắc cùng nhau kể một câu chuyện, Veo có thể tạo video dài hơn — những video có thời lượng hơn một phút.
Hỏi Ảnh
Google Photos đang được ứng dụng AI bằng việc ra mắt tính năng thử nghiệm có tên Ask Photos, được hỗ trợ bởi dòng mô hình AI tổng hợp Gemini của Google.
Hỏi Ảnh, sẽ ra mắt vào cuối mùa hè này, sẽ cho phép người dùng tìm kiếm trên bộ sưu tập Google Photos của họ bằng cách sử dụng các truy vấn ngôn ngữ tự nhiên nhằm nâng cao hiểu biết của Song Tử về nội dung ảnh của họ – và siêu dữ liệu khác.
Ví dụ: thay vì tìm kiếm một thứ cụ thể trong một bức ảnh, chẳng hạn như “One World Trade”, người dùng sẽ có thể thực hiện các tìm kiếm rộng hơn và phức tạp hơn nhiều, chẳng hạn như tìm “bức ảnh đẹp nhất từ mỗi Công viên Quốc gia mà tôi đã ghé thăm”. ” Trong ví dụ đó, Song Tử sẽ sử dụng các tín hiệu như ánh sáng, độ mờ và không bị biến dạng hậu cảnh để xác định điều gì khiến bức ảnh trở nên “đẹp nhất” trong một bộ nhất định và kết hợp điều đó với sự hiểu biết về thông tin vị trí địa lý và ngày tháng để trả về những hình ảnh có liên quan.
Song Tử trong Gmail
Người dùng Gmail sẽ sớm có thể tìm kiếm, tóm tắt và soạn thảo email, nhờ sự hỗ trợ của Gemini — cũng như thực hiện hành động đối với email đối với các tác vụ phức tạp hơn, chẳng hạn như trợ giúp xử lý việc trả lại.
Trong một bản demo tại I/O, Google đã chỉ ra cách phụ huynh có thể nắm bắt những gì đang diễn ra ở trường của con mình bằng cách yêu cầu Gemini tóm tắt tất cả các email gần đây từ trường. Ngoài nội dung email, Gemini cũng sẽ phân tích các tệp đính kèm, chẳng hạn như tệp PDF và đưa ra một bản tóm tắt với các điểm chính và mục hành động.
Từ thanh bên trong Gmail, người dùng có thể yêu cầu Gemini giúp họ sắp xếp các biên nhận từ email và thậm chí đặt chúng vào thư mục Google Drive hoặc trích xuất thông tin từ biên lai và dán vào bảng tính. Nếu đó là việc bạn thường làm – ví dụ: với tư cách là một người đi công tác theo dõi chi phí – Gemini cũng có thể đề xuất tự động hóa quy trình làm việc để sử dụng trong tương lai.
Phát hiện lừa đảo trong cuộc gọi
Google đã xem trước tính năng hỗ trợ AI để cảnh báo người dùng về những trò gian lận tiềm ẩn trong cuộc gọi.
Khả năng này sẽ được tích hợp vào phiên bản Android trong tương lai, sử dụng Gemini Nano, phiên bản nhỏ nhất của sản phẩm AI tổng hợp của Google, có thể chạy hoàn toàn trên thiết bị, để nghe “các mẫu hội thoại thường liên quan đến lừa đảo” trong thời gian thực .
Không có ngày phát hành cụ thể nào được ấn định cho tính năng này. Giống như nhiều thứ trong số này, Google đang xem trước khả năng của Gemini Nano trong tương lai. Tuy nhiên, chúng tôi biết rằng tính năng này sẽ được chọn tham gia – đó là một điều tốt. Mặc dù việc sử dụng Nano có nghĩa là hệ thống sẽ không tự động tải âm thanh lên đám mây nhưng hệ thống vẫn lắng nghe hiệu quả các cuộc trò chuyện của người dùng – một nguy cơ tiềm ẩn về quyền riêng tư.
AI cho khả năng tiếp cận
Google đang nâng cao tính năng trợ năng TalkBack cho Android bằng một chút phép thuật AI tổng hợp.
TalkBack sẽ sớm khai thác Gemini Nano để tạo mô tả âm thanh của các vật thể cho người dùng khiếm thị và thị lực kém. Ví dụ: TalkBack có thể mô tả một bài viết về quần áo như sau: “Cận cảnh một chiếc váy kẻ sọc đen trắng. Chiếc váy ngắn, có cổ và tay áo dài. Nó được buộc ở thắt lưng bằng một chiếc nơ lớn.”
Theo Google, người dùng TalkBack gặp phải khoảng 90 hình ảnh không được gắn nhãn mỗi ngày. Sử dụng Nano, hệ thống sẽ có thể cung cấp thông tin chi tiết về nội dung – có khả năng loại bỏ nhu cầu ai đó nhập thông tin đó theo cách thủ công.
Chúng tôi đang tung ra bản tin AI! Đăng ký đây để bắt đầu nhận nó trong hộp thư đến của bạn vào ngày 5 tháng 6.