Giả giọng nói – loại nội dung AI khó phát hiện nhất

Giả giọng nói – loại nội dung AI khó phát hiện nhất

Âm thanh do AI tạo ra được coi là khó phát hiện nhất so với ảnh hoặc video, gây lo ngại về việc phát hiện nội dung giả mạo.

dựa theo chính trịNgày 21/1, hai ngày trước cuộc bầu cử sơ bộ ở New Hampshire, có kẻ mạo danh Tổng thống Mỹ Joe Biden kêu gọi cử tri Đảng Dân chủ không bỏ phiếu. Văn phòng Bộ trưởng Tư pháp New Hampshire đang điều tra cuộc gọi giả mạo.

Đồng thời, theo Cờ BaltimoreNgày 23/1, hiệu trưởng trường trung học Pikesville ở hạt Baltimore cũng gửi nội dung phân biệt chủng tộc tới học sinh, nhưng liệu vấn đề này có phải do AI tạo ra hay không hiện đang được điều tra.

Đây được cho là âm thanh giả mạo mới nhất sử dụng trí tuệ nhân tạo. Các chuyên gia tin rằng chúng sẽ trở nên phổ biến hơn trong tương lai và khó phát hiện hơn khi các công cụ tiếp tục được nâng cấp. Một chuyên gia cho biết: “Hàng chục sản phẩm đã được tạo ra để cố gắng phát hiện âm thanh AI, nhưng bản thân chúng lại bị hạn chế bởi AI”. tin tức nbc.





Minh họa âm thanh AI của ExtremeTech.

Minh họa âm thanh AI Công nghệ cực đỉnh.

Khó khăn trong việc phát hiện

dựa theo tây bắc tây bắc, hệ thống phát hiện âm thanh giả hoạt động rất khác với cách con người nghe. Họ phân tích các mẫu âm thanh để tìm kiếm các hiện tượng giả như tần số bị thiếu và tập trung vào các khía cạnh cụ thể của lời nói, chẳng hạn như cách người nói thở, âm lượng của giọng nói và cách lên xuống ngữ điệu.

Reality Defender, một công ty phát hiện deepfake nổi tiếng ở New York, cho biết họ sử dụng AI để phát hiện AI. Nhân viên của công ty đào tạo mô hình của họ bằng cách sử dụng nội dung do AI tạo ra trong thế giới thực làm đầu vào.

Giám đốc điều hành của Reality Defender, Ben Colman, cho biết nền tảng này dán nhãn rõ ràng đâu là thật và đâu là giả, với mục tiêu học cách ước tính khả năng AI sẽ tạo ra thứ gì đó.

Coleman nói: “Nhưng chúng tôi chưa bao giờ nói rằng máy của chúng tôi chính xác 100%. “Xác suất cao nhất là 99%, bởi vì luôn có xác suất trong hoạt động.”

Coleman cho biết, sự đa dạng trong giọng nói và ngôn ngữ của con người khiến việc phân biệt giữa âm thanh thực và âm thanh do AI tạo ra trở nên khó khăn. Các yếu tố bao gồm khu vực, ngôn ngữ, phương ngữ và tuổi tác. “Vì vậy, chúng tôi phải xem xét từng biến số riêng lẻ,” ông nói.

Đồng thời, trong một lĩnh vực đang phát triển như trí tuệ nhân tạo, có rất ít tiêu chuẩn để đo lường độ tin cậy của các công cụ phát hiện âm thanh deepfake. “Hầu hết các chương trình phát hiện đều được đào tạo để xác định theo thuật toán âm thanh deepfake hiện có. Điều này khiến chúng chậm hơn một bước so với những cải tiến mới. AI thực sự rất giỏi trong việc cho bạn biết điều gì đó mà nó đã thấy trước đây, nhưng lại không giỏi khi suy ra rằng đó không phải là thứ tôi đã thấy.” anh ấy nói. Patrick Traynor, giáo sư khoa học máy tính và mạng điện thoại tại Đại học Florida.

Neil Zhang, nhà nghiên cứu máy học tại Đại học Rochester cho biết, các công cụ phát hiện âm thanh deepfake rất khó đánh giá, nhưng “có còn hơn không”.

Cần phải có luật

Zhang cho biết, ngay cả các công cụ phát hiện deepfake được đánh giá tốt cũng chỉ có thể đạt được hiệu suất cao trên một số bộ dữ liệu nhất định và khó có thể áp dụng thành công trong thế giới thực. Vì vậy, ông hy vọng vấn đề có thể được giải quyết tốt nhất thông qua pháp luật.

Chính phủ Hoa Kỳ hiện đang xem xét ban hành một lệnh quản lý sâu rộng nhắm vào trí tuệ nhân tạo.dựa theo CNBCÔng Biden đang giao nhiệm vụ cho Bộ Thương mại Hoa Kỳ ban hành hướng dẫn cho các công ty trí tuệ nhân tạo của đất nước về cách họ có thể “gắn nhãn” nội dung để giúp người dùng phân biệt. Tuy nhiên, hiện tại không có quy định nào quản lý nội dung deepfake. Nhưng dù có hiệu lực thì cũng bị coi là “đi sau ngành”.

Vandana Janeja, giáo sư hệ thống thông tin tại Đại học Maryland, cho biết hiện nay việc sử dụng các công cụ trí tuệ nhân tạo để tìm hoặc tạo ra giọng nói giả là điều phổ biến. “Chỉ cần tìm kiếm các công cụ mạo danh giọng nói AI trên Google và hàng nghìn kết quả sẽ xuất hiện ngay lập tức. Tội phạm không có rào cản nào khi sử dụng các công cụ này”, Janeja nói.

Giáo sư Hany Farid của Đại học California, Berkeley, khuyến nghị mọi người nên lắng nghe để hiểu liệu bản ghi âm có phải là âm thanh do AI tạo ra hay không. Giọng nói deepfake hiện có rất ít bối cảnh, chẳng hạn như âm thanh thở giữa các từ được tạo ra và các từ có khoảng cách quá đều đặn để giống với cách người thật nói.

Ông nói thêm: “Chúng ta cần quay lại những điều đơn giản như ai đã gửi đoạn âm thanh này, nó có đáng tin cậy không, cuộc trò chuyện diễn ra như thế nào… để có thể phát hiện ra các bản deepfake”.