LeVo(SongGeneration)是一个基于LM的高质量歌曲生成模型,支持多偏好对齐和多种自定义方式。
LeVo 框架由 LeLM 和音乐编解码器组成。LeLM能够并行建模两种类型的 token:混合 token(代表人声和伴奏的组合音频,实现人声-乐器和谐)和双轨 token(分别编码人声和伴奏,用于高质量歌曲生成)。音乐编解码器则将双轨 token 重建为高保真音乐音频。
该模型在 Million Song Dataset 上进行训练,支持中文和英文歌曲生成,显著优于现有开源音乐生成模型,并与当前最先进的行业系统具有竞争力。用户可以通过歌词和结构标签(如[verse]、[chorus]、[intro-short])自定义歌曲结构,并可选择性地通过文本提示(如性别、音色、流派、情感、乐器和 BPM)来指导生成。
模型还支持使用10秒的参考音频文件来生成相似风格的新歌曲。
评论