Công nghệ V2A (video-to-audio) của Google DeepMind được coi là “mảnh ghép còn thiếu của AI làm phim” vì nó có thể tạo ra âm thanh phù hợp với video.
Khả năng tạo video của AI được đánh giá cao. Các công cụ như Sora của OpenAI, Dream Machine của Luma AI, Gen-3 Alpha của Runway hay gần đây là Veo của Google đã nhận được rất nhiều sự chú ý nhờ khả năng tạo ra những video chân thực. Tuy nhiên, một trong những điểm yếu của chúng là thiếu âm thanh đi kèm.
theo Radar công nghệV2A của Google khắc phục những thiếu sót trên và tiến một bước dài, bù đắp những thiếu sót trong việc tạo cảnh phim tự động, hỗ trợ các nhà làm phim chuyên nghiệp và người dùng nghiệp dư kết hợp nhiều công cụ AI để tạo ra những video yêu thích.
Để thực hiện điều này, công nghệ V2A kết hợp phân tích từng pixel của video với tín hiệu văn bản để tạo nhạc nền dựa trên nội dung được hiển thị. Trong loạt video được Google DeepMind chia sẻ, công ty đã sử dụng công nghệ V2A kết hợp với các trình tạo video AI hiện có để tạo ra những video “khớp với các nhân vật và giai điệu của video”.
“Công cụ V2A có thể tạo số lượng bản nhạc không giới hạn cho bất kỳ đầu vào video nào, cho bất kỳ cảnh nào”, Google viết trong một bài đăng trên blog ngày 19 tháng 6.
Google cho biết họ nhận thức được nguy cơ lạm dụng công cụ này vào mục đích không đúng. Vì vậy, họ coi đây là một dự án nghiên cứu và hiện chưa có kế hoạch phát hành. Đại diện Google cho biết: “Công nghệ V2A sẽ trải qua quá trình đánh giá và thử nghiệm bảo mật nghiêm ngặt trước khi được đưa ra công chúng”.
- AI tạo video dựa trên văn bản tiếng Trung cạnh tranh với Sora
- AI tạo video của Trung Quốc thách thức Sora