Google ra mắt trí tuệ nhân tạo tạo video để cạnh tranh với Sora của OpenAI

Google ra mắt trí tuệ nhân tạo tạo video để cạnh tranh với Sora của OpenAI

Tại sự kiện Google I/O 2024 tổ chức vào sáng sớm 15/5 (giờ Việt Nam), ông Demis Hassabis, CEO của Google Deepmind, đã giới thiệu về trí tuệ nhân tạo (AI) tạo video có tên Veo có thể cung cấp khả năng chỉnh sửa chất lượng cao. Cao và sử dụng nhiều phong cách điện ảnh khác nhau.

Google cho biết Veo hiểu ngôn ngữ tự nhiên và nắm bắt được giọng điệu của mệnh lệnh để tạo ra những video thể hiện tốt nhất tầm nhìn sáng tạo của người dùng. AI tạo video của Google cũng có thể hiểu các thuật ngữ điện ảnh như tua nhanh thời gian hoặc phong cảnh trên không để tạo ra những cảnh quay nhất quán, mạch lạc. Các nhân vật, động vật, đồ vật và các chủ thể khác xuất hiện trong video đều có những chuyển động chân thực xuyên suốt “cảnh”.

Veo sẽ là đối thủ của Sora trong cuộc đua AI sáng tạo video

Veo sẽ là đối thủ của Sora trong cuộc đua AI sáng tạo video

Ảnh chụp màn hình

Mặc dù video demo chỉ dài khoảng 8 giây nhưng đại diện Google xác nhận rằng Veo hiện có khả năng tạo video dài tối đa 70 giây, có thể tinh chỉnh bằng các lời nhắc bổ sung để thay đổi kết quả. Ba tháng trước, OpenAI đã ra mắt AI tạo video có tên Sora, gây sốt trên thị trường nhưng thời gian xuất tối đa chỉ là một phút.

Google cho biết Veo được xây dựng trên các mô hình tạo video khác nhau, bao gồm Generative Query Networks (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, cũng như nhiều công nghệ khác giúp cải thiện chất lượng và độ phân giải của đầu ra sản phẩm. Công ty tiết lộ rằng họ đã cải tiến về mặt kỹ thuật cách người mẫu học cách “hiểu” nội dung video, hiển thị hình ảnh có độ phân giải cao và học cách mô phỏng các hiện tượng vật lý trong thế giới thực.

Ngoài AI tạo video, gã khổng lồ tìm kiếm cũng đã tung ra AI tạo hình ảnh có tên Imagen 3, được quảng cáo có thể tạo ra “những bức ảnh cực kỳ chi tiết, chân thực, giống như thật” nhanh hơn các mẫu trước đó. ít chi tiết gây mất tập trung hơn. Giống như Veo, Imagen 3 có thể hiểu ngôn ngữ tự nhiên, dự đoán ý định của người dùng và tạo ra hình ảnh theo nhiều phong cách khác nhau.

Veo và Imagen 3 vẫn chưa được phát hành ra cộng đồng và chỉ được cung cấp cho mục đích thử nghiệm bởi một số ít người sáng tạo nội dung. Công ty cho biết người dùng sẽ cần phải đăng ký danh sách chờ nếu muốn sử dụng nó. Trong thời gian tới, YouTube Shorts (một loại video ngắn trên YouTube) và các sản phẩm hình ảnh khác của công ty có thể sẽ tích hợp một số tính năng của Veo.