Một nhóm tại phòng thí nghiệm Hunyuan của Tencent đã tạo ra một AI mới, ‘Hunyuan Video-Foley’, cuối cùng đã mang âm thanh sống động đến video được tạo.
Một nhóm tại phòng thí nghiệm Hunyuan của Tencent đã tạo ra một AI mới, ‘Hunyuan Video-Foley,’ cuối cùng đã mang âm thanh sống động đến video được tạo. Nó được thiết kế để lắng nghe video và tạo ra một bản nhạc phim chất lượng cao, đồng bộ hoàn hảo với hành động trên màn hình.
Bạn đã bao giờ xem một video do AI tạo ra và cảm thấy thiếu một điều gì đó chưa? Hình ảnh có thể tuyệt đẹp, nhưng chúng thường có sự im lặng kỳ lạ làm mất đi cảm xúc. Trong ngành công nghiệp điện ảnh, âm thanh lấp đầy sự im lặng đó – tiếng lá xào xạc, tiếng sấm sét, tiếng leng keng của ly thủy tinh – được gọi là nghệ thuật Foley, và đó là một nghề thủ công tỉ mỉ được thực hiện bởi các chuyên gia.
Việc đạt được mức độ chi tiết đó là một thách thức lớn đối với AI. Trong nhiều năm, các hệ thống tự động đã gặp khó khăn trong việc tạo ra âm thanh đáng tin cậy cho video.
Một trong những lý do lớn nhất khiến các mô hình chuyển video thành âm thanh (V2A) thường không đạt yêu cầu về mặt âm thanh là điều mà các nhà nghiên cứu gọi là “mất cân bằng phương thức”. Về cơ bản, AI lắng nghe các gợi ý văn bản được đưa ra nhiều hơn là xem video thực tế.
Ví dụ, nếu bạn cung cấp cho một mô hình một video về một bãi biển đông đúc với mọi người đang đi bộ và những con mòng biển đang bay, nhưng gợi ý văn bản chỉ nói “âm thanh của sóng biển,” bạn có thể sẽ chỉ nhận được âm thanh của sóng. AI sẽ hoàn toàn bỏ qua tiếng bước chân trên cát và tiếng chim hót, khiến khung cảnh trở nên vô hồn.
Ngoài ra, chất lượng âm thanh thường dưới mức trung bình, và đơn giản là không có đủ video chất lượng cao kèm âm thanh để huấn luyện các mô hình một cách hiệu quả.
Đội ngũ Hunyuan của Tencent đã giải quyết những vấn đề này từ ba góc độ khác nhau:
Khi Tencent thử nghiệm Hunyuan Video-Foley so với các mô hình AI hàng đầu khác, kết quả âm thanh đã rõ ràng. Không chỉ các chỉ số dựa trên máy tính tốt hơn; người nghe con người liên tục đánh giá đầu ra của nó có chất lượng cao hơn, khớp với video tốt hơn và thời gian chính xác hơn.
Nhìn chung, AI đã mang lại những cải tiến trong việc làm cho âm thanh khớp với hành động trên màn hình, cả về nội dung và thời gian. Kết quả trên nhiều bộ dữ liệu đánh giá hỗ trợ điều này:

Công việc của Tencent giúp thu hẹp khoảng cách giữa video AI im lặng và trải nghiệm xem sống động với âm thanh chất lượng. Nó đang mang sự kỳ diệu của nghệ thuật Foley đến thế giới tạo nội dung tự động, đây có thể là một khả năng mạnh mẽ cho các nhà làm phim, nhà làm phim hoạt hình và người sáng tạo ở khắp mọi nơi.