欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

硬核声乐——AI周杰伦、AI孙燕姿的唱功如何?答:无限音域的Bug

2023-05-08 21:09:06 20

摘要:近日,华语音乐圈迎来了一次重大翻唱变革,冷门歌手【AI周杰伦】、【AI孙燕姿】开始了对全网范围的所有歌曲翻唱热潮,其中“AI孙燕姿”更是Sha疯了,以屠榜的形式成为了旧歌新唱怀念旧日巅峰华语乐坛的媒介。很多朋友担忧:AI是否会取代职业歌手?...

近日,华语音乐圈迎来了一次重大翻唱变革,冷门歌手【AI周杰伦】、【AI孙燕姿】开始了对全网范围的所有歌曲翻唱热潮,其中“AI孙燕姿”更是Sha疯了,以屠榜的形式成为了旧歌新唱怀念旧日巅峰华语乐坛的媒介。很多朋友担忧:AI是否会取代职业歌手?AI是否在声乐上可以超越真人?

后文结论前瞻:AI歌手未来会冲击中下层歌手生存空间,但在声乐上无法取代巅峰歌手。只要AI模型学习次数足够,样本足够,AI歌手可以轻松实现无限音域,非常恐怖。但在音色、腔体、语感、咬字、技巧、层次性、音乐性、律动感、创造性上,AI的本质是模拟和效仿,无法完成声乐的突破和超出模拟对象歌手唱功的能力表达。所以,AI的上限会局限于真人歌手的声乐水准,不会对声乐艺术造成底层冲击。

但存在一定小概率可能,若有人完成整个华语乐坛的全部歌手、全部歌曲的大数据流宏观长周期学习推导,AI可自主二次创造顶级声乐虚拟歌手,概率很能力都很高:音域水准基于C3-C6三八度的无限延伸;音色技巧可编辑化,99%真人化;腔体无气口约束,完美气息支撑,都将快速实现。甚至会有公司完成资本推动,上市牟利。那样虚拟歌手将冲击巅峰真人歌手,虚拟音乐市场将起飞。

同时AI歌手模型在新型电信诈骗上风险巨大,在这里小辫子提醒大家:一切涉及转账的电话、语音,一定要用视频确认是本人后再进行转账。不要相信电话语音那头你我家人的言语音色,也不要在网络上传过多自身的语言信息媒介。超过数条,犯罪分子即刻用AI学习你我的音色,对家人、朋友完成电信诈骗,防患于未然。

以下从声乐上,具体分析AI周杰伦,AI孙燕姿的唱功能力,以及是否具有颠覆现实可能性的探讨;

1:音色;

AI的音色审美标准,不同于我们正常的流行声乐辨识度要求。主要是集中于:音色像不像真人,音色像不像被学习的歌手。而这种“像不像”在声乐维度上,是指四部分:声带底色、技巧修饰、中文语感、咬字习惯。多了语感和咬字的硬性真人对比标准。

在声带底色和技巧修饰上,AI周杰伦和AI孙燕姿表达了AI的局限性——无法区分声带底色和技巧修饰的音色差异化,而是数据整合的形式。我们去听AI周杰伦和AI孙燕姿时,会发现,在低音区、中音区AI周杰伦和AI孙燕姿的堪称入木三分,歌手亲自演唱。

但是随着音区升高,音色开始变得极为不稳定,整体的音色开始割裂,朝着原唱的音色倾斜。相同一句的不同段落层次音色没有差异化。这种现象表达了两个问题:AI的歌手,数据的学习次数没有达到具有一个基本声带底色的参数可调整规模。说人话就是:AI歌手暂时无法快速对音色展开全音域的底层铺盖,对于不同歌曲的模拟会因为原曲的歌手演唱影响。

这里就是体现人声的优势,因为我们的声带是天生的,我们对于声带的运用,是非常容易理解音色技巧修饰的概念。但是AI很难理解声带底色和技巧修饰的差异化。因为AI学习的模型,如果将音色细分为各种人声真实性参数,学习的成本会指数级增大。

这也就造成了,在音色维度的基本盘,声带底色和音色修饰上,AI很难短时间完成现象级一键生成模拟的可能,和真人的相似度在80%左右,很难快速迭代到99%。但是这种隔阂可以人为加速,有资本实现的可能。

在中文语感上,AI则是更加的不适应,AI更习惯于英文的语感学习逻辑。因为AI周杰伦和AI孙燕姿的演唱语感归韵问题非常严重。英文语感是串联的线性连奏没有音高波动,而中文是字正方圆的断奏,语感自带音高起伏。

我们华语孩子学习唱歌,第一步就是要提出顽疾——唱歌无音调化的思维。就是不允许在歌曲时第三声归韵,比如:汉字第三声的“海”,在尾音时,被新手演唱常常唱出三个音高,7转6转高音1,但是在简谱上,只允许一个音,这就是中文汉语拼音导致的语感转音问题。

AI在学习中文的时候,常常归韵的尾音是最不像的点,会在模拟歌手和原唱歌手之间切换。这种现象会被短时间攻克,因为这本质是没有人去做中文语感的优化,我们听到的只是英文逻辑的中文学习运用。

在咬字习惯上,AI的表现就全面崩盘,底层逻辑很简单粗暴,就是把原唱的咬字一点不变,音色置换为上述声带底色、技巧、语感的综合音色,就完了。完全没有一点点的加工,甚至于说在咬字习惯上,AI没有进化出一点点的还原能力。

综合而言,在音色上,AI的核心是声带底色和音色修饰的集中化,而不是专业多维度参数化,又有中文语感的适配度难度,再加上咬字习惯的逻辑缺失。整体音色处于一个以音准匹配的唯一性参数,什么音准用什么音色的简单初级逻辑,并没有进化到音色可编辑,音色千万种的程度。未来的路,AI还需要走很远。

当下的AI音色,在合唱之中的表现远远比独唱要好,但专业程度还远远不够,达不到声乐的基本标准。难以干扰专业领域,但已经可以在业余翻唱市场乱杀。未来来了。

2:音域;超越人类的音域数据化学习能力;

在音域上,AI表现最恐怖的地方:远远超出于人类的学习能力,三分钟吊打声乐科班生三年努力。AI周杰伦和AI孙燕姿表达最核心的AI优势,就是音域。正常男生要想拥有C3-F4的演唱能力,起码三年业余起步,但是对于AI而言,三秒钟即可。

周杰伦C3-F4的歌曲样本最多。

孙燕姿G3-C5的歌曲样本最多。

音域的样本数量,直接决定了AI歌手的音域质量,而我们看到了市面上好听的AI周杰伦和AI孙燕姿,大部分惊艳音区都在集中于上述亲民音区。当AI周杰伦的音域越过了F4和孙燕姿音域越过了C5后,AI就出现了大量的音色割裂和咬字虚化。

这里就要说一点,我们声乐演唱时,音高和咬字是有先后顺序的。一般而言我们是音高用哼鸣为核心,咬字是在音高表达之后完成的附带产品,顺序是:音高优先,咬字其次。那这个顺序逻辑对于AI而言,在样本不够的情况就很难处理了。他只能优先保证音准音高是对的,但是咬字的信息、音色的信息不够,就只能做虚化处理。

而音高对于AI而言,完全没有任何发音难点,因为是纯数据流,而没有人声声带机能的生理性局限,AI可以自由编辑任何音高,不像我们人声没有个十年八年的努力,很难跨越第二换声区。

所以在音域上,AI表达了非常恐怖的学习能力:只要样本足够,AI的音域就是无限的,没有上限。于文文这个F4的女歌手,AI于文文也可以唱C6的《魔笛》,维塔斯这个哨子音,也可以唱《只要平凡》的E2低音。只要样本信息足够。

这会导致一个隐患,未来的职业歌手可能会主动使用AI帮助自己发布唱片,尤其是偶像歌手的音域能力不足,将有可能被AI弥补,导致声乐水准的下降。科技不一定是艺术的进步,但一定是某方面的偷懒作为源动力。

3:腔体;无解的完美CD;

在腔体部分,AI的能力更强了。因为AI的学习全部都是都是一CD作为基本样本,而任意一张CD都是百万调音师的辛苦心血,调音的结果直接集成了腔体的能力,即使腔体有问题,也会被混音、调音修饰至消失。

所有的样本都是CD,必然让AI的腔体能力,就是以基本的CD品质来输出的。所以,不管是哪个AI歌手,他们在腔体气息支撑、共鸣、声线清晰度上都没有短板。只能说,强大。

总体,AI孙燕姿、AI周杰伦已经很强大了,在非专业声乐领域的下沉市场,已经可以实现打压部分业余翻唱人员,而摩尔定律似乎对于AI歌手才刚刚奏响。未来已经来临。

版权声明:本站所有文章皆是来自互联网,如内容侵权可以联系我们( 微信:bisheco )删除!

相关推荐

友情链接
币圈社群欧易官网