谷歌研究院宣布推出 MusicLM,这是一种从文本描述中生成高保真音乐的模型。MusicLM 将音乐的生成过程视为分层的序列到序列建模任务,并以 24 kHz 的频率生成音乐。
无论文本描述是一段话、一个故事,或仅为一个单词,MusicLM 都能生成对应对应的音乐,还能根据文本中的年代、时间、地点等要素来调整音乐的风格。
MusicLM 主页中有许多样本,可以看到,文本描述中有许多氛围描述的语句,比如“迷失在太空中的体验”、“营造出一种舒缓和冒险的氛围”、“唤起一种惊奇和敬畏的感觉”,也有一些具体的应用场景,比如“街机游戏的配乐”、“适合跳舞”。可以看 MusicLM 可以轻松驾驭这些模糊的描述和具体场景的组合 。
除了长文本,MusicLM 也能从一个单词或短语中创造出对应的旋律,比如“摇摆“、”轻松的爵士“、”旋律技术“等:
除此之外还可以按”故事模式“生成音乐,只需设定对应的时间戳,MusicLM 就会根据时间戳生成不同风格的音乐(不过转换起来非常生硬,有种”画风突变“的感觉)。
除了上述生成方式,MusicLM 还可以通过在描述文本中插入一些关键词来精修音乐,如”嗡嗡声“、”原声吉他“”指弹吉他“等。也可以通过”柏林 90 年代的房子“、”加勒比海的海滩“、”19世纪“等描述场景和时代等要素的词汇来调整音乐的风格。
据谷歌研究院介绍,MusicLM 在音频质量和对文本描述的理解方面都优于以前的音频生成 AI 系统,包括谷歌前几个月推出的 AudioLM。为了支持对 MusicLM 的质量评估,谷歌还发布了 MusicCaps 音乐数据集,这是一个由 5.5k 音乐-文本对组成的数据集,包含 5,521 个音乐示例,每个示例都标有由音乐家编写的描述文本。
不过 MusicLM 目前并没有对外公开的计划。根据谷歌方面的解释,首先是虽然大多数 MusicLM 生成的音乐还算自然,但很多时候也会生成一些”对人类文明似乎为时尚早“的诡异作品;其次就是 MusicLM 约有 1% 的旋律会直接抄袭训练的音乐数据,凭这一点就不敢公开了。毕竟关于 AI 艺术作品的版权问题正闹得沸沸扬扬,相信 GitHub Copilot 被起诉、 Stable Diffusion 因版权问题被起诉也给谷歌带来了不小的震撼。
评论删除后,数据将无法恢复
谷歌推出 MusicLM,从文本生成音乐的模型
谷歌研究院宣布推出 MusicLM,这是一种从文本描述中生成高保真音乐的模型。MusicLM 将音乐的生成过程视为分层的序列到序列建模任务,并以 24 kHz 的频率生成音乐。
无论文本描述是一段话、一个故事,或仅为一个单词,MusicLM 都能生成对应对应的音乐,还能根据文本中的年代、时间、地点等要素来调整音乐的风格。
MusicLM 主页中有许多样本,可以看到,文本描述中有许多氛围描述的语句,比如“迷失在太空中的体验”、“营造出一种舒缓和冒险的氛围”、“唤起一种惊奇和敬畏的感觉”,也有一些具体的应用场景,比如“街机游戏的配乐”、“适合跳舞”。可以看 MusicLM 可以轻松驾驭这些模糊的描述和具体场景的组合 。
除了长文本,MusicLM 也能从一个单词或短语中创造出对应的旋律,比如“摇摆“、”轻松的爵士“、”旋律技术“等:
除此之外还可以按”故事模式“生成音乐,只需设定对应的时间戳,MusicLM 就会根据时间戳生成不同风格的音乐(不过转换起来非常生硬,有种”画风突变“的感觉)。
除了上述生成方式,MusicLM 还可以通过在描述文本中插入一些关键词来精修音乐,如”嗡嗡声“、”原声吉他“”指弹吉他“等。也可以通过”柏林 90 年代的房子“、”加勒比海的海滩“、”19世纪“等描述场景和时代等要素的词汇来调整音乐的风格。
据谷歌研究院介绍,MusicLM 在音频质量和对文本描述的理解方面都优于以前的音频生成 AI 系统,包括谷歌前几个月推出的 AudioLM。为了支持对 MusicLM 的质量评估,谷歌还发布了 MusicCaps 音乐数据集,这是一个由 5.5k 音乐-文本对组成的数据集,包含 5,521 个音乐示例,每个示例都标有由音乐家编写的描述文本。
不过 MusicLM 目前并没有对外公开的计划。根据谷歌方面的解释,首先是虽然大多数 MusicLM 生成的音乐还算自然,但很多时候也会生成一些”对人类文明似乎为时尚早“的诡异作品;其次就是 MusicLM 约有 1% 的旋律会直接抄袭训练的音乐数据,凭这一点就不敢公开了。毕竟关于 AI 艺术作品的版权问题正闹得沸沸扬扬,相信 GitHub Copilot 被起诉、 Stable Diffusion 因版权问题被起诉也给谷歌带来了不小的震撼。