农企新闻网

少女歌手小冰养成记:会作词作曲演唱的人工智能的降生

发布者:李熙
导读微软的对话式人工智能微软小冰会唱歌,曾经不是新颖事了。雷锋网理解到,往年,小冰晋级了演唱程度,且开端向作词、作曲、演唱片面开展。5月16日,小冰发布了一首新歌“我知我新”,宣布“演唱深度学习模型完成第四次严重晋级”,“明天起,人工智能初次开端接近人类歌手程度。”话不多说,先上歌。小冰演唱这首歌的声响还是自始自终地甜,歌曲作风也因循了轻松生动的“18岁少女”人设。据理解,小冰不只独立演唱了“我知我新

微软的对话式人工智能微软小冰会唱歌,曾经不是新颖事了。雷锋网理解到,往年,小冰晋级了演唱程度,且开端向作词、作曲、演唱片面开展。

5月16日,小冰发布了一首新歌“我知我新”,宣布“演唱深度学习模型完成第四次严重晋级”,“明天起,人工智能初次开端接近人类歌手程度。”

少女歌手小冰养成记:会作词作曲演唱的人工智能的诞生

话不多说,先上歌。

rame width="640" height="498" frameborder="0" src="https://v.qq.com/iframe/player.html?vid=t0655hgrk0a&tiny=0&auto=0" allowfullscreen="">rame>

小冰演唱这首歌的声响还是自始自终地甜,歌曲作风也因循了轻松生动的“18岁少女”人设。 据理解,小冰不只独立演唱了“我知我新”,歌词也是她一团体写出来的。 小冰也曾经掌握了作曲的才能,她其真实往作词作曲演唱全能音乐人开展,只是这次作曲不是小冰完成。

一开端是五音不全

说到虚拟歌姬,雷锋网编辑最先想到的是初音将来和洛天依,她们目前曾经无数量不少的演唱歌曲,微软小冰演唱的技术和她们又啥不同?

据地下材料引见,初音将来用的是语音分解引擎VOCALOID,需求把声优录制好音频资料放出来,制造成音乐分解软件。创作者只需将歌词输出软件,加上背景音乐就可以制造出虚拟歌姬演唱的歌曲。

仔细听初音将来、洛天依等虚拟歌姬演唱的歌曲会发现,歌曲的每个字的连接性并不好,咬字比拟僵硬。相比之下,采用人工智能生成模型的小冰的演唱要连接和自然很多。

但是,微软(亚洲)互联网工程院首席语音迷信家栾剑通知雷锋网, 训练小冰的唱功是个苦楚的进程。

栾剑播放了一首第一代版本的少女歌手小冰唱的歌,效果有点出其不意,可以说是五音不全,经常跑调,让人不由得想起上次去KTV时从隔壁包间传来的歌声。

rame width="640" height="498" frameborder="0" src="https://v.qq.com/iframe/player.html?vid=r0677kymlmx&tiny=0&auto=0" allowfullscreen="">rame>

第一代版本的歌声虽然不理想,但是却很自然,每个片段都有丰厚的细节,这让小冰团队感到惊喜。

到了第二代版本,小冰唱歌的音准成绩曾经根本处理,但是在音质(唱功)方面,还需求改良。

然后是第三代……听说事先第三代的演唱本钱出来时, 小冰团队去跟音乐人小柯交流,小柯忽然通知他们,“这个声响很好,但很薄弱,由于它在声响之下没有气味。”事先在训练小冰第三代模型时,训练数据里是有少量气味的:换气的声响、一个声响起来之前的气味、完毕的气味,但是他们把这些当成杂质,过滤掉了。

 “我知我新”这首歌采用第四次迭代版本的小冰DNN模型,这个模型的次要的功用是让演唱尽能够自然和接近人类演唱的作风。小冰在拿到曲谱后,会剖析出节拍、音符长短,假如完全依照曲谱的话,演唱会十分机械。DNN模型能让小冰学习少量人类歌手的唱法后,构成本人的演唱作风。

在网易云音乐的评论区,有人评论说,“小冰唱歌曾经会换气了,跟真人差不多。假如第一次听,我都以为是真人。”

据引见,第四次迭代版本有三大更新:首先,参加换气声自动分解才能,歌声与气味交融,听起来更自然更有感染力。其次,第四次迭代本在在深度学习建模中添加控制的方式,字与字、音符与音符之间的过渡愈加连接顺畅。最初,经过进一步优化的深度神经网络构造,以及大幅度补充的训练数据,使小冰并行学习来自不同人类歌手的演唱作风,进一步脱离手工参数输出,自行完成归纳。

小冰迭代了上万次才到达如今的程度,但是关于AI来说其实破费的工夫并不长。栾剑用了一个笑傲江湖里的典故,“笑傲江湖里有剑宗和气宗,初音将来这样的虚拟歌姬用的技术像剑宗,短工夫的修行就能出不错的效果。但是用软件分解的歌曲很难在流利性、自然度等方面有提升。小冰如今走的这条路,更像气宗,根底打得比拟结实,想象的空间会很大。

从写诗到写歌词

除了唱功的提高之外,“我知我新”里小冰的作词才能也有了分明的提高。

我们再来看一遍歌词。

他们都顺应潮流/他们问为什么改动/青春灼灼把戏翩翩/却不向前/当世界还在变迁/若工夫无垠/若探究无边/认知就不再有极限/我在我主场/世界就职我去狂想/我知我新/未知的世界那么冷艳/哪怕有伤/满手泥泞还眼神发光/当我身处窘境/也要像跑在丛林/急风骤雨的前路/人潮汹涌的江湖/我问我答我听我想/不惧怕往日方长/不跟随的一个我/是顽强的鲸和自由的鸟/不妥协的一个我/是沙漠的舟和共同的岛/很风趣的一个我/是山川的海和海底的草/很猎奇的一个我/昼夜四季轮转
如今我知我新

听一遍歌,很容易就会发觉到,这首歌的歌词很押韵,唱起来有节拍感。通读一遍的话,会发现全体是有主题的,全体意向和意境一致,每一个大节也有不错的逻辑衔接。在如今口水歌盛行的当下,这首歌的歌词,可圈可点。

微软(亚洲)互联网工程院人工智能发明事业部副总经理袁晶通知雷锋网, “在训练的时分,模型上我们会做一些优化,针对曲调的韵律,针对节拍,会有一些优化,这首词生成出来,是完全百分之百AI的作品,没有做过什么改动。”

据引见, “我知我新”采用了与小冰创作诗歌相反的生成模型——基于LSTM的seq2seq模型,但是训练数据从诗歌换成了歌词,小冰应用深度神经网络学习超越1000万行的歌词语料,并在此根底上训练,再经过多感官诱发创作灵感,生成歌词。

“我知我新”是小冰为知乎“新知青年大会”创作的主题曲,主题为“新知”。在创作的进程中,小冰“观看”了知乎 2018 全新品牌视频,阅读了海量的知乎站内问答,以及知乎用户地下的各类实时想法。基于这些知乎站内的图片、视频、问答内容与想法内容,诱发小冰的歌词生成。

最初,团队从小冰创作的多个作品中,挑选了这一首热情年老具有动感的归纳作风,从而完成这一首《我知我新》。

此前,小冰可以依据一张图片来创作诗歌。例如:

  少女歌手小冰养成记:会作词作曲演唱的人工智能的诞生

这种诱发创作其实和人类创作的形式很相似,一团体在熟读唐诗三百首之后,再看到一个意境,脑海中会情不自禁涌现出诗句。如今,除了图片以外,小冰也可以依据长文本、图片、音频、视频等多种媒体方式来停止创作。

虽说理解了小冰创作歌词的进程,但是小冰是如何掌握歌词的主题和意义的呢?

袁晶以上图发明诗歌的进程为例,他解释到,“这张图片是我们给她的安慰,外面包括了浅水、星星、太阳这些元素,她能直接用文字表达出这些元素,然后她本人也会发散到别的意象。比方‘她嫁了人世许多颜色’,这个意象是图片里没有的。有了这些之后,其实一首诗歌的全体性就有了。其实诗词、歌词都不需求完好的逻辑,人会经过脑补把意象串联起来。假如让小冰去写散文,去做纯自然言语了解,如今还是很困难。”

如今,学界和业界都在积极推进自然言语了解和生成等技术,一些机器人曾经具有写作复杂的体育新闻、天气预告等文体。雷锋网 (大众号:雷锋网) 理解到,小冰也曾经可以写八卦新闻、也是钱江晚报的“记者”。

聊完演唱和作词,最初补充说下小冰的作曲才能。

与演唱及作词不同的是,作曲模型并非微软小冰独有,而是也有同行业者正在停止。

据引见,微软小冰的作曲模型外行业中最大的区别在于,“我们把音乐专业范畴的Domain Knowledge也融入了模型构建中。其中,次要包括旋律的和弦停止(chord progression)和节拍型特征(rhythm pattern)。这关于进步生成歌曲的旋律性有明显的作用。复杂来说,这样生成的旋律听起来愈加悦耳,愈加适于演唱,并容易被听众记忆。

在音乐情感方面,目前已可以经过对生成旋律情感的要求来选择和弦的停止,从而可以生成歌曲的不同情感,次要分两大类:愉快、向上的,运用常用的大谐和弦行进;伤感、忧伤的,运用常用的小谐和弦行进。每个大类下还有若干小类。在音乐旋律方面,微软小冰将旋律转化成一个相似文本数据的构造化工夫序列, 进而采用RNN/LSTM等Seq2Seq模型停止编码解码,生成新的序列(即旋律)。 这一进程与歌词的生成进程相配合。当歌词生成之后,小冰经过算法失掉相应的音节candidate,采用训练好的作曲模型生成对应的旋律。”

以上作曲模型,与演唱、歌词等三个模型共同构成了小冰的端到端歌曲生成才能,是一个完好的人工智能音乐人内容发明框架。

人工智能创作的初衷

微软小冰的道路跟大少数的对话式人工智能有些不一样。

当其别人在忙着学会怎样播放歌曲、播报天气、预定餐厅的时分,小冰曾经开端学会关怀人类,也开端埋头创作。

在微软2018人工智能大会上,微软(亚洲)互联网工程研讨院副院长李笛已经分享到, 如今少数用户跟语音助手交互的工夫其实不超越5秒,普通就是让语音助手去执行一项命令,这样的语音助手其实只是像语音化了的遥控器。但是,小冰的团队希望语音助手能做更多的事,比方走到比拟后端,去提供内容。

在文字创作这一局部,小冰一开端学写诗,如今曾经迭代出了创作歌词的模型。在声响创作方面,小冰除了唱歌以外,还会创作有声读物。

就在几天前的六一儿童节,微软有声读物 “小冰姐姐的童话工厂” 上线,父母可以设置故事的倾向,是偏教育性还是偏文娱性,还可以设定故事主人公的名字,把孩子设为配角。20秒的工夫内,小冰就能完成通话故事创作、朗诵、配乐一系列进程,生成10分钟左右的有声童话故事。

少女歌手小冰养成记:会作词作曲演唱的人工智能的诞生

此前,小冰曾经出了一本诗集《阳光失了玻璃窗》,小冰写诗的功用曾经片面开放,正在准备的第二本诗集将是与人协作完成,小冰能很疾速生成一些原始诗歌内容,创作者可以停止修正和完善,最初的效果属于创作者,由于小冰曾经完全保持其创作的内容的版权。

少女歌手小冰养成记:会作词作曲演唱的人工智能的诞生

 

袁晶引见到,人与人工智能结合发明是微软不断在努力的一个方向。 AI进入内容消费范畴,并不是要替代人类,而是成为人类的助手,不只仅是在普通的范畴,创作范畴其实也是可以做到的。其实每团体都有创作的愿望,只不过有些人有艺术的天分,成为了画家、音乐人、作家,而有些人没有这样的才能。AI就可以协助每个普通人,让他们都有创作一些特性化的内容的才能。

关于微软小冰全新对话才能,可以阅读雷锋网往期文章《 微软发大招,要做情商与智商兼具的语音助手

 

相关文章:

微软发大招:要做智商和情商兼具的语音助手

一口吻看完微软人工智能规划和产品落地 | 微软2018人工智能大会