知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2,该模型不仅支持文本转语音,还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律,甚至同时生成语音和背景音乐 。
Higgs Audio v2 整合了 1000 万小时语音数据到 LLM 文本训练中,在 EmergentTTS-Eval 基准测试中表现优异(尤其在“情绪”和“问题”类别中,较 GPT-4o-mini-tts 分别高出 75.7% 和 55.7% 的胜率),在传统 TTS 基准测试中也取得了最佳性能。
以下是关于 Higgs Audio V2 的详细介绍:
该模型代码已全部开源至 GitHub:https://github.com/boson-ai/higgs-audio,和 Hugging Face(https://huggingface.co/bosonai/higgs-audio-v2-generation-3B-base),支持本地安装(需 GPU 版 PyTorch 或使用 Docker 简化安装)。
评论删除后,数据将无法恢复
李沐发布开源 TTS 语言大模型 Higgs Audio v2
知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2,该模型不仅支持文本转语音,还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律,甚至同时生成语音和背景音乐 。
Higgs Audio v2 整合了 1000 万小时语音数据到 LLM 文本训练中,在 EmergentTTS-Eval 基准测试中表现优异(尤其在“情绪”和“问题”类别中,较 GPT-4o-mini-tts 分别高出 75.7% 和 55.7% 的胜率),在传统 TTS 基准测试中也取得了最佳性能。
以下是关于 Higgs Audio V2 的详细介绍:
该模型代码已全部开源至 GitHub:https://github.com/boson-ai/higgs-audio,和 Hugging Face(https://huggingface.co/bosonai/higgs-audio-v2-generation-3B-base),支持本地安装(需 GPU 版 PyTorch 或使用 Docker 简化安装)。