Tencent Hunyuan Video-Foley mang âm thanh sống động đến video AI

Tin tức AI - 28/08/2025 15:43:21

Một nhóm tại phòng thí nghiệm Hunyuan của Tencent đã tạo ra một AI mới, ‘Hunyuan Video-Foley’, cuối cùng đã mang âm thanh sống động đến video được tạo.

Một nhóm tại phòng thí nghiệm Hunyuan của Tencent đã tạo ra một AI mới, ‘Hunyuan Video-Foley,’ cuối cùng đã mang âm thanh sống động đến video được tạo. Nó được thiết kế để lắng nghe video và tạo ra một bản nhạc phim chất lượng cao, đồng bộ hoàn hảo với hành động trên màn hình.

Bạn đã bao giờ xem một video do AI tạo ra và cảm thấy thiếu một điều gì đó chưa? Hình ảnh có thể tuyệt đẹp, nhưng chúng thường có sự im lặng kỳ lạ làm mất đi cảm xúc. Trong ngành công nghiệp điện ảnh, âm thanh lấp đầy sự im lặng đó – tiếng lá xào xạc, tiếng sấm sét, tiếng leng keng của ly thủy tinh – được gọi là nghệ thuật Foley, và đó là một nghề thủ công tỉ mỉ được thực hiện bởi các chuyên gia.

Việc đạt được mức độ chi tiết đó là một thách thức lớn đối với AI. Trong nhiều năm, các hệ thống tự động đã gặp khó khăn trong việc tạo ra âm thanh đáng tin cậy cho video.

Làm thế nào Tencent đang giải quyết vấn đề âm thanh do AI tạo cho video?

Một trong những lý do lớn nhất khiến các mô hình chuyển video thành âm thanh (V2A) thường không đạt yêu cầu về mặt âm thanh là điều mà các nhà nghiên cứu gọi là “mất cân bằng phương thức”. Về cơ bản, AI lắng nghe các gợi ý văn bản được đưa ra nhiều hơn là xem video thực tế.

Ví dụ, nếu bạn cung cấp cho một mô hình một video về một bãi biển đông đúc với mọi người đang đi bộ và những con mòng biển đang bay, nhưng gợi ý văn bản chỉ nói “âm thanh của sóng biển,” bạn có thể sẽ chỉ nhận được âm thanh của sóng. AI sẽ hoàn toàn bỏ qua tiếng bước chân trên cát và tiếng chim hót, khiến khung cảnh trở nên vô hồn.

Ngoài ra, chất lượng âm thanh thường dưới mức trung bình, và đơn giản là không có đủ video chất lượng cao kèm âm thanh để huấn luyện các mô hình một cách hiệu quả.

Đội ngũ Hunyuan của Tencent đã giải quyết những vấn đề này từ ba góc độ khác nhau:

  1. Tencent nhận ra AI cần được "giáo dục" tốt hơn, vì vậy họ đã xây dựng một thư viện khổng lồ gồm 100.000 giờ video, âm thanh và mô tả văn bản để AI học hỏi. Họ đã tạo ra một quy trình tự động lọc bỏ nội dung chất lượng thấp từ internet, loại bỏ các đoạn clip có khoảng lặng dài hoặc âm thanh nén, nhiễu, đảm bảo AI học được từ những tài liệu tốt nhất có thể.
  1. Họ đã thiết kế một kiến trúc thông minh hơn cho AI. Hãy nghĩ về nó như việc dạy mô hình cách đa nhiệm một cách phù hợp. Hệ thống trước tiên tập trung cực kỳ chặt chẽ vào liên kết hình ảnh-âm thanh để có được thời gian chính xác—như khớp tiếng bước chân với khoảnh khắc chính xác khi một chiếc giày chạm đất. Khi đã khóa chặt được thời gian đó, nó sẽ kết hợp gợi ý văn bản để hiểu tâm trạng và ngữ cảnh tổng thể của cảnh. Cách tiếp cận kép này đảm bảo các chi tiết cụ thể của video không bao giờ bị bỏ qua.
  1. Để đảm bảo âm thanh chất lượng cao, họ đã sử dụng một chiến lược huấn luyện gọi là Căn chỉnh Biểu diễn (REPA). Điều này giống như có một kỹ sư âm thanh chuyên nghiệp liên tục giám sát AI trong quá trình huấn luyện. Nó so sánh công việc của AI với các tính năng từ một mô hình âm thanh cấp chuyên nghiệp đã được huấn luyện trước để hướng dẫn AI tạo ra âm thanh rõ ràng, phong phú và ổn định hơn.

Kết quả nói lên tự chứng minh

Khi Tencent thử nghiệm Hunyuan Video-Foley so với các mô hình AI hàng đầu khác, kết quả âm thanh đã rõ ràng. Không chỉ các chỉ số dựa trên máy tính tốt hơn; người nghe con người liên tục đánh giá đầu ra của nó có chất lượng cao hơn, khớp với video tốt hơn và thời gian chính xác hơn.

Nhìn chung, AI đã mang lại những cải tiến trong việc làm cho âm thanh khớp với hành động trên màn hình, cả về nội dung và thời gian. Kết quả trên nhiều bộ dữ liệu đánh giá hỗ trợ điều này:

Kết quả đánh giá của Tencent Hunyuan Video-Foley so với các mô hình AI hàng đầu khác.

Công việc của Tencent giúp thu hẹp khoảng cách giữa video AI im lặng và trải nghiệm xem sống động với âm thanh chất lượng. Nó đang mang sự kỳ diệu của nghệ thuật Foley đến thế giới tạo nội dung tự động, đây có thể là một khả năng mạnh mẽ cho các nhà làm phim, nhà làm phim hoạt hình và người sáng tạo ở khắp mọi nơi.

Nguồn: Sưu tầm

Tin tức AI

Xem tất cả