Google lần đầu tiên ra mắt AI tạo video dựa trên lệnh có tên Veo, có khả năng tạo video 1080p dài hơn một phút, cạnh tranh với Sora của OpenAI.
Veo được ra mắt tại sự kiện Google I/O diễn ra vào sáng sớm ngày 15/5 (giờ Hà Nội). Sản phẩm được CEO Google DeepMind Demis Hassabis giới thiệu có khả năng tạo ra những video 1080p “chất lượng cao” với nhiều phong cách hình ảnh và điện ảnh khác nhau.
Veo được thả ra sau Sora ba tháng và gây xôn xao cộng đồng.
Theo đại diện Google, AI hiểu được ngôn ngữ tự nhiên và có thể “nắm bắt chính xác giọng điệu của lời nhắc” để tạo ra những video thể hiện tốt nhất tầm nhìn sáng tạo của người dùng. Mô hình này cũng hiểu các thuật ngữ điện ảnh như video “tua nhanh thời gian” hoặc “cảnh chụp phong cảnh trên không” và có thể tạo ra các cảnh quay nhất quán và mạch lạc trong đó chủ thể con người, động vật và đồ vật chuyển động một cách thực tế trong suốt khung cảnh.
Video trình diễn chức năng của Veo dài khoảng 8 giây. Tuy nhiên, theo Google, người dùng có thể yêu cầu kéo dài thời lượng lên 1 phút 10 giây, cũng như điều chỉnh kết quả bằng các lời nhắc bổ sung. Con số này cao hơn thời lượng tối đa được công bố trước đó của OpenAI Sora là một phút.
Theo Google, Veo được xây dựng trên 5 mô hình tạo video, bao gồm Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, đồng thời kết hợp nhiều công nghệ khác để cải thiện chất lượng và độ phân giải đầu ra.
Họ đã thực hiện những cải tiến kỹ thuật về cách các mô hình học cách hiểu nội dung video, hiển thị hình ảnh có độ phân giải cao, mô phỏng vật lý trong thế giới của chúng ta, v.v.
Google cho biết: “Kiến thức này sẽ thúc đẩy nghiên cứu AI của chúng tôi và cho phép chúng tôi xây dựng nhiều sản phẩm hữu ích hơn giúp mọi người tương tác và giao tiếp theo những cách mới”.
Tại sự kiện, gã khổng lồ công nghệ Mỹ cũng ra mắt Imagen 3, trí tuệ nhân tạo tạo ra hình ảnh. Sản phẩm này được quảng cáo là có thể tạo ra những bức ảnh với “mức độ chi tiết đáng kinh ngạc”, hình ảnh động chân thực, sống động như thật và ít chi tiết gây mất tập trung trong hình ảnh hơn so với các mẫu trước đó. .
Imagen 3 cũng có thể hiểu rõ hơn ngôn ngữ tự nhiên và dự đoán ý định của người dùng đằng sau lời nhắc, đồng thời có thể tạo hình ảnh theo nhiều phong cách khác nhau.
Giống như nhiều AI tạo video và ảnh khác, cả Veo và Imagen 3 đều chưa được phát hành rộng rãi. Google cho biết sản phẩm mới sẽ được một số người sáng tạo nội dung dùng thử. Người dùng quan tâm cần đăng ký vào danh sách chờ. Công ty cũng có kế hoạch đưa một số tính năng Veo vào YouTube Shorts và các sản phẩm khác.
Lưu Quý Châu