腾讯混元开源端到端AI模型Hunyuan-Foley：视频+文字=“电影级”音效-aicg搜索

8月28日消息，腾讯混元今天午间宣布开源端到端视频音效生成模型Hunyuan-Foley，用户只需输入视频和文字，就能为视频匹配电影级音效。

根据官方介绍，HunyuanVideo-Foley不仅打破了AI生成的视频只能“看”不能“听”的局限，让无声AI视频成为历史，更是真正做到了“看懂画面、读懂文字、配准声音”，带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。

文字描述：Enginerevvingloudlyandaccelerating.

文本描述：Rustlingandcrunchingofleavesandtwigsunderthefoxkit"spaws.

混元团队开发了一个全面的数据处理管道，能够自动化标注和过滤收集的音视频数据，构建了约10万小时级的高质量TV2A数据集，为模型训练提供了强大支撑，使得模型拥有强大的泛化能力，能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频，包括音效与背景音乐。生成的音频能够与无声视频相结合，极大提升了视频的真实感和沉浸感。

附有关链接如下：

体验入口：https://hunyuan.tencent.com/video/zh?tabIndex=0

项目官网：https://szczesnys.github.io/hunyuanvideo-foley/

代码：https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

技术报告：https://arxiv.org/abs/2508.16930

HuggingFace：https://huggingface.co/tencent/HunyuanVideo-Foley