Decode Sora – AI tạo video lan truyền của OpenAI

Thay vì ghép nhiều ảnh lại với nhau để tạo video, Sora hiển thị các pixel theo thời gian thực dựa trên sự hiểu biết về chuyển động vật lý.

Sora của OpenAI được các chuyên gia đánh giá là công cụ AI tổng hợp có khả năng tạo ra những thước phim chất lượng tốt nhất hiện nay. “Sora đánh dấu bước nhảy vọt khổng lồ từ văn bản sang video,” tin tức abc đánh giá.

đồng thời, thời gian Anh cho biết trước khi Sora xuất hiện, trên thế giới đã có những mẫu AI sản xuất video như Runway và Pika. Tuy nhiên, nhược điểm của chúng là chất lượng video kém và thời lượng ngắn. Đồng thời, Sora có thể sản xuất những video dài 60 giây với nội dung phức tạp nhưng vẫn đảm bảo độ mượt mà và logic, tuy vẫn còn một số lỗi.

Bí mật tạo video Sora — Video của Sora dựa trên nội dung: một đàn máy bay giấy bay qua rừng rậm, lượn vòng trong rừng như đang di cư. nguồn: *trí tuệ nhân tạo mở*

Đột phá OpenAI

OpenAI vẫn chưa cung cấp mô hình tạo video từ văn bản cho công chúng. Trong phần mô tả của mình, công ty cũng nói rất ít về công nghệ đằng sau nó và các nguồn dữ liệu được sử dụng để đào tạo.

Công ty đứng sau ChatGPT cho biết về cách hoạt động của Sora: “Sora sử dụng mô hình khuếch tán để tạo video bắt đầu từ một video có độ phân giải thấp gây nhiễu và sau đó loại bỏ nhiễu qua nhiều bước cho đến khi đầu ra đạt yêu cầu”. để tạo toàn bộ video cùng một lúc thay vì tạo các clip ngắn và kết hợp chúng như các công cụ khác. Thuật toán cho phép mô hình dự đoán đồng thời nhiều khung hình để đảm bảo chủ thể vẫn nguyên vẹn trong khi tái tạo các chi tiết khác.

Mô phỏng cách Sora loại bỏ nhiễu bằng thuật toán để tạo video. Nguồn: Trung bình — Mô phỏng cách Sora loại bỏ nhiễu bằng thuật toán để tạo video. nguồn: *Vừa phải*

Theo OpenAI, Sora được xây dựng dựa trên nghiên cứu trước đây về AI tạo hình ảnh Dall-E và tạo văn bản ChatGPT. Tuy nhiên, Tiến sĩ Jim Fan, nhà nghiên cứu trí tuệ nhân tạo cấp cao tại Nvidia, nhận xét: “Nếu bạn vẫn nghĩ Sora chỉ là một món đồ chơi sáng tạo như Dall-E thì hãy nghĩ lại. Đó là mô hình vật lý dựa trên dữ liệu có thể mô phỏng cả hai”. và thế giới ảo.

Ông lưu ý rằng Sora là một mô hình biến áp khuếch tán từ đầu đến cuối. Bí mật của nó nằm ở khả năng hiểu sâu sắc văn bản trước khi chuyển đổi nó thành dạng trực quan 3D. Từ đây, mô hình tiếp tục đưa ra dự đoán dựa trên các quy tắc chuyển động vật lý để biến đổi từng pixel của video một cách chính xác nhất có thể.

Fan phân tích: “Trình giả lập của Sora không chỉ dựa trên dữ liệu đã học, nó còn có thể tự đào tạo để tìm ra kết quả chính xác nhất để tiếp tục sáng tác”. Ông nói, điều khiến Sora trở nên khác biệt là thay vì tạo một video bằng cách kết hợp một loạt hình ảnh rời rạc, nó sẽ hiển thị các tập hợp pixel theo thời gian thực.

Video được tạo bởi Sora AI từ văn bản — Sora được yêu cầu mô tả cảnh đó theo 5 góc nhìn và phát hành 5 video cùng lúc. Tác giả Bill Peebles cho biết ông không hề can thiệp và AI đã tự động ghép lại đoạn video hoàn chỉnh.

Điều này khiến giới chuyên gia liên tưởng đến mô hình trí tuệ nhân tạo giải các bài toán Olympic do ba bác sĩ Việt Nam công bố trên tạp chí khoa học. thiên nhiên tháng trước. Trong phần mô tả hoạt động kỹ thuật của Sora, OpenAI cũng khẳng định mô hình tạo video này sẽ làm cơ sở để AI hiểu và mô phỏng thế giới thực.

OpenAI cho biết: “Chúng tôi tin rằng đây sẽ là một cột mốc quan trọng trong việc đạt được AGI”.

Điểm yếu của Sora

dựa theo Vừa phảiTổng hợp văn bản thành video là một nhiệm vụ đầy thách thức vì nó đòi hỏi trí tuệ nhân tạo để hiểu ý nghĩa và ngữ cảnh của văn bản cũng như các khía cạnh khác của hình ảnh, video và chuyển động cơ thể. Một trong những lý do OpenAI giới hạn Sora trong một nhóm thử nghiệm nhỏ là vì nó vẫn còn một số sai sót.

OpenAI thừa nhận: “Sora có thể gặp khó khăn trong việc mô phỏng chính xác tính chất vật lý của các tình huống phức tạp. Nó có thể không hiểu đúng về mối quan hệ nhân quả”.

Ví dụ: công ty Sora có thể tạo video về một người đang cắn một chiếc bánh quy, nhưng chiếc bánh vẫn còn nguyên vẹn và không có vết cắn. Nó cũng có thể gây nhầm lẫn các chi tiết trái, phải, trước và sau, chẳng hạn như hình ảnh một người đang chạy lùi trên máy chạy bộ.

Tuy nhiên, các nhà phân tích cho rằng Sora lo lắng nhất về bước đột phá của OpenAI. Các video được tạo ra chân thực đến mức nhiều người lo ngại mô hình này có thể bị lạm dụng để truyền bá nội dung sai sự thật, vi phạm quyền riêng tư, phân biệt chủng tộc và thậm chí ảnh hưởng đến kết quả bỏ phiếu tranh luận. Mặc dù Sora bị cấm tạo nội dung phản cảm nhưng công ty vẫn chưa tìm ra cách xác định hình ảnh nào được tạo ra bởi AI và hình ảnh nào đủ chân thực để gắn nhãn và phân loại chúng.

Fred Havemeyer, người đứng đầu đơn vị nghiên cứu trí tuệ nhân tạo của Macquarie, cho biết khả năng đáng kinh ngạc của Sora sẽ làm dấy lên một số lo ngại liên quan đến đạo đức và xã hội. Ông nói rằng tác động tiêu cực của trí tuệ nhân tạo sẽ là chủ đề gây tranh cãi nhất vào năm 2024 và Sora là người mở đầu.

Vẫn theo Thời báo New York, OpenAI vẫn cẩn thận che giấu thông tin về nguồn gốc của nội dung được sử dụng để đào tạo Sora và nội dung đó có bản quyền bao nhiêu. Trang này viết: “Có thể họ muốn giữ bí mật để duy trì lợi thế cạnh tranh, nhưng cũng có thể họ sợ những vụ kiện liên quan đến bản quyền, tương tự như những rắc rối mà ChatGPT phải đối mặt”.

Tuy nhiên, các nhà phân tích đồng ý rằng Sora đang mở ra một kỷ nguyên mới của việc tạo video bằng trí tuệ nhân tạo, tương tự như sự xuất hiện của ChatGPT. Sau khi được thương mại hóa chính thức, nó có thể tác động trực tiếp đến ngành công nghiệp thiết kế phim ảnh, truyền thông và trò chơi.

Reece Hayden, nhà phân tích cấp cao tại ABI Research cho biết tin tức cbs Trong tương lai, trí tuệ nhân tạo như Sora thậm chí sẽ thay đổi mô hình hoạt động của các nền tảng như Netflix, cho phép người dùng chỉnh sửa phần kết của một câu chuyện hoặc tạo ra bộ phim của riêng mình chỉ bằng vài dòng văn bản.

Giang Ya

Công Nghệ

Decode Sora – AI tạo video lan truyền của OpenAI

Administrator