AI của Microsoft giúp hình ảnh chuyển động và nói được

AI của Microsoft giúp hình ảnh chuyển động và nói được

Công cụ trí tuệ nhân tạo mới VASA-1 của Microsoft cho phép các bức chân dung nói và hát với biểu cảm tự nhiên.

Theo Microsoft, VASA-1 không chỉ tạo ra chuyển động môi “đồng bộ một cách tinh tế” với giọng nói mà VASA-1 còn làm nổi bật thần thái của nhân vật thông qua chuyển động khuôn mặt và đầu tự nhiên, tăng thêm cảm giác chân thực.

Công ty phần mềm Mỹ cho biết đây là một “hệ thống động học khuôn mặt” được đào tạo bằng các mô hình chuyển động “về tổng thể vượt trội so với các phương pháp trước đây”. AI hỗ trợ chụp chân dung phần đầu và phần trên cơ thể với các biểu cảm vui vẻ, tức giận, ngạc nhiên hoặc nghiêm túc.

AI của Microsoft giúp ảnh

Khả năng AI Microsoft VASA-1. băng hình: Microsoft

Trong video Microsoft giới thiệu trên YouTube, AI của hãng có thể khiến những bức ảnh do Dall-E 3 và StyleGAN2 tạo ra có giọng nói tự nhiên. Người dùng cũng có thể điều chỉnh các thông số khuôn mặt, biểu cảm, âm thanh và nhiều chi tiết khác.Các trang dành riêng cho hình ảnh petapixel Hiệu suất của VASA-1 vượt trội so với các AI tương tự nên khó nhận biết ngay từ lần xem đầu tiên.

Microsoft từ chối tiết lộ mô hình đằng sau nó và không có kế hoạch phát hành sản phẩm của riêng mình hoặc cung cấp API cho các nhà phát triển. Họ phóng VASA-1 “để chứng minh khả năng của trí tuệ nhân tạo”.

“Nghiên cứu của chúng tôi tập trung vào phát triển cảm xúc thị giác cho các avatar trí tuệ nhân tạo, với mục tiêu kích hoạt các ứng dụng tích cực”, Microsoft viết trên trang web của công ty. “Nó không được thiết kế để tạo ra nội dung sai lệch hoặc lừa đảo. Tuy nhiên, không giống như các avatar trí tuệ nhân tạo khác, Giống như các mô hình thông minh, nó vẫn có thể bị lạm dụng để mạo danh con người. Chúng tôi phản đối bất kỳ hành vi nào như vậy.”

Bên cạnh làn sóng chatbot như ChatGPT hay Google Gemini, lĩnh vực trí tuệ nhân tạo cũng đang chứng kiến ​​sự cạnh tranh giữa các mô hình có khả năng tạo video chân thực từ hình ảnh tĩnh. Tháng trước, Alibaba đã tung ra một công cụ tương tự có tên EMO (Emotive Portrait Alive). Nếu AI trước đây chỉ có thể biến đổi một phần miệng và khuôn mặt thì EMO có thể tạo ra nét mặt, tư thế, cử động lông mày, cau mày và thậm chí lắc lư theo nhạc. Biểu cảm AI của miệng rất tự nhiên và đồng bộ hóa môi một cách chính xác.

AI của Alibaba 'biến' ảnh thành biết nói và hát

Một số video được EMO sản xuất dựa trên ảnh do Alibaba đăng tải. băng hình: YouTube/Rinki



Biên tập lại từ VnExpress