播客神器:微软开源VibeVoice-1.5B音频模型,支持中文、可生成90分钟4人聊天语音

来源: aicg搜索 日期:2025-09-11 10:08:32
aicg搜索首页AI教程资讯 → 播客神器:微软开源VibeVoice-1.5B音频模型,支持中文、可生成90分钟4人聊天语音

8月27日消息,科技媒体marktechpost于8月25日发布博文,报道称微软发布开源文本转语音(TTS)模型VibeVoice-1.5B,可一次生成最长90分钟、最多4位不同说话者的自然语音,并支持跨语言及歌声合成。

在架构方面,VibeVoice-1.5B基于1.5B参数的Qwen2.5语言模型,结合声学(Acoustic)与语义(Semantic)双分词器(Tokenizer),以7.5Hz低帧率处理。

声学分词器使用σ-VAE结构,将24kHz原始音频压缩至3200分之一;语义分词器则通过语音识别代理任务训练,保留对话语义。解码端采用1.23亿参数的扩散解码器,结合分类器自由引导和DPM-Solver,来提升音质与细节表现。

该模型为确保在长篇对话中保持语音连贯性与说话人一致性,在训练中逐步扩展上下文长度,从4k至65kTokens,其架构支持多说话者的轮流发言,模拟自然对话场景,且可在流式模式下生成长音频,为未来实时TTS奠定基础。

VibeVoice-1.5B也有局限,目前仅支持英语与中文,其他语言可能出现不准确或不当内容;不支持说话人语音重叠,也无法生成背景音效或音乐。微软明确禁止将该模型用于声音冒充、虚假信息传播或绕过身份验证等用途,并提醒用户遵守法律并标明AI生成来源。

微软表示,该模型主要面向科研和开发者社区,适合播客制作、对话式AI、语音内容生成等领域。未来将推出参数更大的7B版本,支持低延迟交互和更高保真度的实时合成,进一步拓展应用场景。

附上参考地址

微软VibeVoice-1.5B技术报告

HuggingFace

GitHub

读完这篇文章后,您心情如何?

  • 0 喜欢喜欢
  • 0 顶
  • 0 无聊无聊
  • 0 围观围观
  • 0 囧
  • 0 难过难过
相关资讯
推荐阅读
网友评论

热门评论

最新评论

发表评论

昵称:
表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
字数: 0/500 (您的评论需要经过审核才能显示)
相关推送
1百度网盘云一朵查看 2Piggy To查看 3橙篇 — 百度文库查看 4C知道查看 5来画查看 6iFlyCode智能编程助手 — 科大讯飞查看 7BotDistrikt查看 8飞书妙记查看
AI使用攻略
更多+

CG艺术长廊 | AI技术前沿 | 创新应用案例 | 行业深度解析 | 搜索技巧指南 | 社区互动论坛 | AI教程资讯 | 网站地图

Copyright 2009-2016 //www.aisoh.cc/ 版权所有