EMO (Emotive Portrait Alive) của Alibaba được coi là bước tiến mới về trí tuệ nhân tạo có thể “biến hình” bất kỳ hình ảnh nào để có thể nói và hát như người thật.
Viện Máy tính Thông minh Alibaba (IIC) và các tác giả Tian Linrui, Wang Qi, Zhang Bang và Bo Liefeng đã cùng nhau nghiên cứu và phát hiện ra rằng EMO có khả năng “tạo ra âm thanh để thể hiện biểu cảm thông qua các ký tự trong hình ảnh”. Nói cách khác, AI có thể biến hình ảnh tham chiếu tĩnh và âm thanh lời nói thành video mọi người nói và hát một cách tự nhiên.
So với AI trước đây chỉ sửa đổi các phần của miệng và khuôn mặt, EMO có thể tạo ra nét mặt, tư thế, cử động lông mày, cau mày và thậm chí lắc lư theo nhạc. Đặc biệt, khuôn miệng được thể hiện một cách tự nhiên thông qua AI, đồng bộ môi một cách chính xác.
Trong một số video do Alibaba phát hành, hình ảnh sẽ được chuyển thành video và bài hát sẽ được nhập khẩu nhanh chóng. Ngoài tiếng Anh và tiếng Trung, EMO còn hỗ trợ nhiều ngôn ngữ khác. Alibaba cho biết họ sử dụng lượng lớn dữ liệu hình ảnh, âm thanh và video để huấn luyện AI tạo ra các biểu cảm khuôn mặt chân thực thông qua mô hình khuếch tán của riêng mình có tên Audio2Video.
“Chúng tôi hy vọng có thể giải quyết những thách thức lớn hiện nay về tính xác thực và tính biểu cảm khi tạo video từ hình ảnh và âm thanh bằng cách tập trung vào mối quan hệ và sắc thái giữa tín hiệu âm thanh và hành động trên màn hình.” Mô hình 3D hoặc các điểm mốc trên khuôn mặt, chuyển tiếp liền mạch các khung hình và duy trì tính nhất quán của video.”
Dữ liệu EMO hiện được xuất bản trên Github và các tài liệu nghiên cứu được xuất bản trên ArXiv. Alibaba chưa cho biết khi nào sẽ tung ra AI trên quy mô lớn.