Nghiên cứu của Google cho thấy khả năng của Lumiere, một mô hình trí tuệ nhân tạo có khả năng tạo ra các video chân thực dựa trên mô tả văn bản.
Công ty cho biết mô hình AI này được thiết kế để giải quyết thách thức lớn trong việc tổng hợp video, đó là “xây dựng chuyển động chân thực, đa dạng và mạch lạc”.
Trong khi các video do AI tạo trước đây thường bị giật, cách tiếp cận của Google mang lại trải nghiệm liền mạch hơn. Lumiere đạt được điều này thông qua kiến trúc U-Net không gian thời gian, giúp tạo ra các video hoàn chỉnh từ đầu đến cuối chỉ trong một lần.
Phương pháp này khác với các mô hình trước đây, vốn chỉ tổng hợp những khoảnh khắc quan trọng và cách xa nhau nên khó đạt được sự đồng nhất trong video cuối cùng.
Lumiere có thể xây dựng phong cách video của riêng bạn dựa trên hình ảnh mẫu do người dùng cung cấp. Ngoài việc tạo nội dung mới, nó còn được dùng để chỉnh sửa hoặc sửa chữa những phần khiếm khuyết của video hiện có dựa trên yêu cầu của người dùng.
Nghiên cứu của Google đã so sánh hiệu suất của Lumiere với các AI tạo video dựa trên văn bản hiện tại như ImagenVideo, Pika, ZeroScope và Gen2 bằng cách yêu cầu một nhóm người thử nghiệm chọn video có chất lượng hình ảnh và chuyển động tốt nhất nhưng không mô tả chúng là mô hình nào. được thực hiện bởi. Báo cáo cho biết Lumiere vượt trội hơn tất cả các đối thủ cạnh tranh trong thử nghiệm.
Mô hình này vẫn chưa được ra mắt công chúng và người dùng Internet hiện chỉ có thể xem bản demo của Lumiere.
(Theo báo cáo của Zdnet)