6 mô hình AI tạo video từ văn bản

Ngoài Sora của OpenAI gây sốt toàn cầu, nhiều mô hình AI khác tạo video từ văn bản cũng được đánh giá cao như Lumier và VideoPoet.

Ngay sau khi Dall-E bắt đầu cơn sốt sử dụng trí tuệ nhân tạo để “vẽ hình ảnh” từ văn bản, nhiều công ty đã nhanh chóng phát triển các mô hình có thể tạo video dựa trên lệnh do người dùng nhập vào. Hai năm sau, lĩnh vực này đã đi được một chặng đường dài và được các chuyên gia đánh giá là đã mang lại cho nó chất lượng siêu thực.

Dù còn một số điểm chưa hoàn hảo nhưng công cụ AI vẫn thể hiện khả năng điều khiển ấn tượng và tạo ra nhiều phong cách video đa dạng.

Sola

AI tạo video của OpenAI tạo nên làn sóng — Một video do người mẫu AI Sora thực hiện đang được lan truyền rộng rãi. băng hình: *trí tuệ nhân tạo mở*

Sora là sản phẩm mới được OpenAI (công ty đứng sau ChatGPT) ra mắt trong tuần này. Nhiều người dùng hào hứng với Sora do sự nổi tiếng của công ty mẹ và khả năng “hiểu sâu ngôn ngữ” của người mẫu. Theo clip minh họa, người mẫu có thể tạo ra “những nhân vật có khả năng thể hiện cảm xúc sống động” tạp chí phân tích Ấn Độ. Tính xác thực của sản phẩm Sora cũng là chủ đề bàn tán trên nhiều nhóm mạng xã hội. Một số người tin rằng công cụ AI này sẽ thực sự thay đổi cuộc chơi.

Tuy nhiên, trước khi ra mắt Sora ra công chúng, OpenAI đã phải thực hiện một số bước cẩn thận để đảm bảo an toàn. Các nhà phát triển thừa nhận Sora vẫn còn một số vấn đề như giữ chuyển động hình ảnh mượt mà hay phân biệt trái phải.

lumil

Mô hình AI tạo video của Google có tên là Lumiere. Ảnh: TheAiCurious — Mô hình AI tạo video của Google có tên là Lumiere. hình ảnh: *sự tò mò*

Google gọi sản phẩm video của mình là AI Lumiere, dựa trên mô hình phổ biến có tên Sapce-Time-U-Net (STUNet).dựa theo Liên hoan nghệ thuật công nghệ, Lumière tìm thấy các chi tiết trong video (không gian), theo dõi cách chúng di chuyển và thay đổi đồng thời (thời gian). Điều này giúp quá trình diễn ra suôn sẻ.

Lumiere chưa sẵn sàng tung ra thị trường nhưng Google có khả năng phát triển các mô hình AI vượt trội hơn các công cụ hiện có như Runway hay Pika. Trên thực tế, chỉ trong hai năm, công ty đã sử dụng trí tuệ nhân tạo để đạt được bước nhảy vọt về công nghệ trong lĩnh vực trò chơi điện tử.

nhà thơ video

VideoPoet là một mô hình ngôn ngữ lớn (LLM) được đào tạo từ kho lưu trữ video, hình ảnh, âm thanh và văn bản khổng lồ. Công cụ có thể thực hiện nhiều tác vụ tạo video khác nhau từ nguồn đầu vào như văn bản, ảnh, video, highlight video theo phong cách, nội dung… hay chuyển đổi video sang âm thanh.

VideoPoet được xây dựng trên một ý tưởng rất đơn giản: biến bất kỳ mô hình ngôn ngữ tự hồi quy đầu vào nào thành hệ thống tạo video. Hiện tại, các mô hình ngôn ngữ tự hồi phục có thể xử lý văn bản và mã hoàn toàn nguyên bản nhưng gặp trở ngại khi chuyển sang video. Để giải quyết vấn đề này, VideoPoet sử dụng token có thể chuyển đổi video, ảnh, âm thanh… sang ngôn ngữ mà nó hiểu được.

emu video

Meta, một công ty công nghệ lớn khác, cũng có mô hình AI làm video của riêng mình mang tên Emu Video. Công cụ này hoạt động theo hai bước: đầu tiên chuyển đổi hình ảnh thành văn bản, sau đó tạo video bằng văn bản và hình ảnh.

Những người đánh giá tham gia chương trình cho biết 81% thích Emu Video hơn Imagen Video của Google, 90% chọn nó hơn Pyoco (Nvidia) và 96% cho rằng nó tốt hơn Make-A -Video của chính Meta là tốt hơn.Ngoài ra, mô hình Emu Video được cho là đã “đánh bại” các tùy chọn khác như RunwayML và Pika Labs tạp chí phân tích Ấn Độ.

Fenaki

Nhóm phát triển Phenaki Video sử dụng Mask GIT để tạo video từ văn bản trong PyTorch. PyTorch là một framework machine learning dựa trên thư viện Torch, được phát triển bởi Meta AI cho lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên. Mô hình sử dụng văn bản để tạo video có thời lượng tối đa hai phút.

Mô hình này được coi là linh hoạt và có thể được các nhà phát triển sử dụng để đào tạo trí tuệ nhân tạo nhằm chuyển đổi văn bản thành ảnh hoặc video. Họ có thể bắt đầu bằng hình ảnh và sau đó tinh chỉnh chúng thành video mà không bị sa lầy trong quá trình đào tạo.

bánh răng video

Một nhóm các nhà nghiên cứu tại Đại học Thanh Hoa ở Trung Quốc đã phát triển CogVideo, một mô hình trí tuệ nhân tạo chuyển văn bản thành video được đào tạo trên dữ liệu quy mô lớn. Họ đã xây dựng CogVideo từ mô hình chuyển văn bản thành hình ảnh được đào tạo trước có tên là CogView2 để khám phá những gì công cụ này đã học được.

Nghệ sĩ Glen Marshall đã rất ấn tượng khi thử nghiệm mô hình này đến mức ông cho rằng các đạo diễn có thể bị sa thải. Video “The Crow” của anh do CogVideo hợp tác sản xuất cũng được đánh giá cao và thậm chí còn lọt vào Giải thưởng Điện ảnh Viện Hàn lâm Anh (BAFTA).

Hoài Anh

Công Nghệ

6 mô hình AI tạo video từ văn bản

Administrator