手记

欢迎来到"手记"板块,在这里我会不定期分享一些在工作中所思所想,形成一篇篇文稿。不管你是音乐需求方,还是音乐制作人,或许这些内容也会给你带来一些启发。我会不定期更新......

后Ai时代,音乐人的核心竞争力是"人性"

2025.6.24

在肉眼可见,Ai技术疯狂发展的当下。可以预见的未来是:Ai音乐必将在商业层面取代大多数中低端音乐生产。而中高端音乐制作市场的制作流程,或许在不同程度上也会被Ai或主动或被动介入。

在这样一个时代以肉眼可见的速度来临的情况下,我觉得人类在Ai时代的核心竞争力,或者说唯一的竞争力就是:人性。

唯有人性,永远无法被程序,自动化和大模型替代。

——什么是"人性"?

我很难用文字定义"人性",但当我看到有"人性"的作品,听到有"人性"的音乐时,我就知道了,那就是"人性"。

如果非要用文字描述,那或许就是:你能感受到,是有一个真实的"人",在向你表达些什么。表达什么都是可以的,开心的也好,伤心的也罢。可以很热闹,很激烈。也可以很平和,很静谧。

——过度在意"技术性",在Ai时代是一件危险的事情。

我认识的一些朋友,非常在意从技术的角度思考音乐的质量。我们当然要关注音乐在"技术层面"的品质。但在Ai时代,只关注技术是一件危险的事情。因为包括音乐制作领域在内的各项技术,都会随着时间不可逆地向前发展。

我们会有更好的录音技术,更先进更复杂的合成器技术,更多样化算法更多的音频后期处理插件等等。

因此只在意技术约等于:只从音乐生产时间线评判好坏。2025年生产的音乐一定比2005年的好,2049年的音乐一定比2025年的好。因为技术一定会随时间发展,而Ai时代将极大地催化这一进程。

这时候有人会反对我说:你说的,录音技术,合成器技术,音频后期插件技术等等,都是外部的东西,不是我定义内的"技术"。我定义内的"技术"是我自己的音乐制作能力,制作水准,这才是我的"技术"而不是某个硬件或者插件的技术迭代。

当你这样反驳我时,我认为你说的非常对,这正是我想强调的。当你把注意力集中在自己身上时,你更应该关注的是"自己的人性",而不是"自己的技术"。因为你是人,而不是机器......

——每个人生而具有"人性",但想要在艺术作品里表达"人性",需要学习。

每个自然人都是有人性的,但想要表达出有"人性"的作品,需要大量学习。表达有人性的作品,重点不在于"人性",而在于"表达"。对于不同的艺术品类,都有其独有的表达语言。你要学习这种表达的语言。

——学习"技术",更要学习"人性的表达",

在未来,想要学习音乐制作,你的重点在于学习"人性的表达",在研究一首音乐时,你更应该关注的是这首音乐表达了什么?他是如何表达出来的?

而不是只从技术层面分析用了什么乐器?和弦/音阶/调式?等等。有些人看似把这些技术面的东西全部看透了(比如拿到了总谱),但其实恰恰相反,在后Ai时代,如果你没有开始思考这首音乐表达了什么?那你就没有开始学习这首音乐。

——"技术"并不是不重要,它只是你表达自己的"工具"

以上所述,并不是想说明技术不重要。技术是你表达自己人性的工具,你当然要先学会这个工具,再使用工具发挥自己的创意。

——如果说"人性"是好音乐,没有"人性"就是坏音乐吗?Ai创作的所有音乐都是坏音乐吗?

并不是,好音乐和坏音乐的定义因人而异。但不管如何定义,我都不认为Ai创作的所有音乐都是坏音乐,我相信未来随着技术的发展,Ai一定能不断创造出让人类感到惊叹的东西。

这个问题,或者这种思考,本身就是一种掐架和拉踩,没有任何意义,也不是本文想要探讨的核心内容。

本文探讨的核心内容是:后Ai时代,音乐人的核心竞争力是"人性"。

音乐人在Ai时代的核心竞争力是什么?既然是核心竞争力,自然是你有但别人没有的东西,才能是你的核心竞争力。因此人与Ai最终的不同,依然在于人具有"人性"。

我们并不是在掐架或者拉踩,而仅仅只是在找不同。

当然,有一派人工智能领域学者认为,最终Ai将完全拟人,你无法区分出Ai与真人。换句话说:在这个找不同游戏中,你找不到不同。

但这是一个非常"主观"的找不同游戏,只要你认为你找到了不同,那他们就是不同的。

——人类真的需要和Ai竞争吗?Ai难道不应该是帮助人类,改善人类的吗?

每一项新兴科技的诞生,本意都是帮助人类更好的生活。但在这个科技刚刚兴起时,与人类原有的产业链形成竞争关系是非常常见的。

比如第一次工业革命纺织业机械化生产技术的变革,让人们可以买到更廉价的生活用品如衣服。但与此同时造成大量手工纺织工人失业。

Ai技术的突飞猛进必然对原有产业链造成冲击,但长期来看技术一定能够帮助人类更好地生活。

——短期内,Ai冲击了音频行业,我们应该怎么做?

如果你的收入因为Ai受到冲击,你要明白"价格是由供需关系决定的",供大于求就降价,供不应求就涨价。Ai将带来极大的生产力,你不可能和Ai在相同品类的赛道上比拼生产力。这也正是本文探讨的核心,要和Ai做出差异化,而人和Ai的唯一区别就是:人是人。人具有"人性"。

——长期来看,如果与Ai并不是竞争关系,那么Ai将帮助我们构建一个怎样的世界(在音频领域内)?

虽然短期Ai冲击了很多行业,长期来看生产力的极大提升,必将为人类社会创造更多的财富和价值。而人类应该从生产劳作中解放出来,去追求人自己的事情。人类将整体逐步移动至马斯洛需求链最顶端,即"自我实现"。

而着重音频领域来看亦是如此,所有人拥有最基础的生活保障,并不需要赚钱才能养家糊口,因此人类创作音乐不是因为这首音乐能卖多少钱,而是希望通过这首音乐实现人作为人的价值。

这是一个非常长远,且并不一定完全能实现的未来,中途有太多不确定性。

即使能够实现,也不会是近几年或近十几年的事情。

因此,在当下做好准备,长期面对人类科技进步对自己生活和事业带来的不确定性,是各行从业者,都需要具备的技能。

以上说了这么多,感觉话题越来越庞大,我也越来越无法驾驭,甚至是无法预测和想象。

但不管怎样,我觉得这是一个最好的时代,不管你处于任何人生状态,都不应该对这样一个时代的未来感到悲观。我真实地认识一些音乐爱好者,因为Ai时代音乐,放弃自己对音乐创作的追求,这是非常可惜的。

某种程度上,我们应该感谢Ai,以及人类历史上众多科技革命:让人回归为人。

正如第一次工业革命让手工纺织工人失业,但手工织衣服这件事并没有从人类历史上消失。时至今日,依然会有人愿意手工织一件毛衣,人们享受织毛衣的快乐,并把织好的毛衣当做一件作品,而并不是为了要有衣服穿去过冬。

音乐亦是如此,当音乐更多摆脱了"商品"属性,"艺术"才能回归"艺术"本身。

而音乐中的"人性",将告诉我们:人何以为人。

Ai音乐对配乐ACG音乐的影响及未来发展展望

2026.2.22

结论:端到端生成式Ai音乐(如 Suno、Udio、MusicGen、Lyria)已显著影响罐头音乐/低端音乐制作市场(如淘宝百元编曲),但对B端(如游戏,动漫,电影配乐领域)影响有限。且端到端生成式Ai音乐未来也很难直接影响B端音乐制作架构。未来能够对包括配乐ACG音乐在内的B端音乐市场,产生显著影响的Ai音乐技术,一定能够以midi/干声分轨无缝融入职业音乐人的制作流程当中,并给予制作人最终的混音控制权。当下为代表性的技术就是Synthesizer V能够提供高质量人声干声音轨。但是在乐器/midi生成领域,依然处于非常早期阶段。

我记得在2022年前后,存在一种曲包授权的商业模式。一个曲包里边可能包含几百首音乐,含各类风格。如果一个商业项目(通常是游戏项目)需要使用这个曲包,可以付一个一次性的授权费(通常在几百到几千之间),就可以随意使用这个曲包里的所有音乐。

在2024年suno出现之后,我判断这种商业模式会快速消亡,时至今日确实如此。

与此同时低端音乐制作市场,也在快速被Ai取代,常见于淘宝百元价位的音乐制作。这种制作定位主要是面向C端,比如朋友生日了,给朋友定做一首音乐。谈对象,给对象做首音乐。这种C端的个人音乐制作需求,已经快速被端到端生成式Ai音乐占领。

但是对于B端如动漫游戏配乐来说,生成式Ai能做的事情十分有限,很难满足B端客户(如动漫/电影导演,游戏制作人)对音乐内容的精确把控。

在我工作中常见的修改意见如:新杭,我想要第三小节的旋律音更重,更突出一些。我想要整个副歌的弦乐旋律更干脆一些,不要拉太长的音。

这样在我实际操作中,就会把第三小节的旋律音midi力度调高,以触发音色库中更大力度的采样。然后把整个副歌的弦乐midi缩短,并配合修改cc1,cc11等。

这样的修改需求,在传统人类音乐制作流程中,是非常简单的。但是对于生成式Ai,这种需求基本无法满足。

——要了解生成式Ai为什么无法满足这种修改需求,我们要从端到端生成式Ai的底层逻辑出发:

万物皆可token化

从最早的Chatgpt文字模型,到后来sora的视频模型,各种图片生成模型以及suno之后的音频模型。本质上,文字,图片,视频,音频在Ai的视角下,都被Token化,这些Token存在于"隐空间"当中,以高纬的向量形式存在。当生成式Ai在生成内容时,本质上是在预测下一个Token是什么。

比如给Ai一张人物图片,然后告诉Ai,把这个人物变成笑脸时。Ai实际上会先把这张图片Token化,然后在"隐空间"中,找到负责笑脸的"向量",提升这个向量,然后重新把Token变回图片。

在音频领域里,给Ai一段音乐,然后告诉他,给我变成赛博朋克风格的音乐。Ai依然是把你上传的音乐,先Token化,然后找到和赛博朋克相关的向量,提升,重新变回音乐交付给你。

生成式Ai之所以无法满足修改意见里的:我想要第三小节的旋律音更重,更突出一些。

是因为,在"隐空间"当中,找不到"第三小节""旋律音"这些概念的向量。之所以能把图片人物变笑,能把音乐变成赛博朋克风格。是因为"笑","赛博朋克"是一个没有严格边界的"风格渲染"。

而"第三小节""旋律音"有明确的空间位置坐标,而这种人类音乐制作领域的空间坐标,在Ai的隐空间中,是极其模糊和不确定的。

Ai可以在隐空间中,把音变重,变突出。但是隐空间中向量变化的影响,通常是全局性的。也就是Ai会把整个音色变重,而不是精确控制第三小节的旋律音。

当了解到端到端生成式Ai的底层逻辑之后,我们可以推断出,这种技术路线,很难融入职业音乐制作的生产流程当中。即使suno对于流行音乐,版权音乐市场,已经产生非常明显的影响,甚至是明显的负面影响。但是对于对内容有着精准要求的B端客户,生成式Ai音乐能产生的帮助和收益都十分有限。

——在职业音乐制作领域,Ai辅助音乐创作的终极蓝图:

midi与wav的统一

未来我们创作音乐时,编辑的对象,是一个高维向量的封装体。

里边既含有音频信息,可以播放听到声音。又含有midi信息,可以转换为midi信号,cc事件,供音乐人精确调控。

我们可以从Synthesizer V,来窥探一下这是一个怎样的未来:

当你把midi导入Synthesizer V,填上歌词之后。你在SV里边的操作,实际上就是既在编辑midi,又在编辑音频wav。在SV里边,每一个midi块下边,都可以预览渲染出来的wav波形,midi和wav将紧密融合为一体。在SV里你画的"张力""力度"等参数,就非常像弦乐编曲的cc1,cc11等参数。

更重要的是,Synthesizer V导出的是干净的人声干声,你可以在这之上做任何操作,比如加混响,EQ,甚至是一些切片剪辑。最终的混音主权仍然在音乐制作人自己手中。

这将无缝融入未来音乐制作人的工作流程当中,目前这项技术在人声合成领域已经相当成熟,但是的器乐领域,依然处于非常早期阶段。

我们有理由推测,这些传统音频巨头,正在布局Ai时代下的新的创作模式与工作流。

——对于音乐制作人来说,需要做什么?

关注行业最新的软件,插件开发进程。我们不需要自己开发Ai(毕竟我们可能对于代码也没什么兴趣),只需要关注谁的产品做的好,能辅助我做出我理想中的声音,我就用谁的,给谁付费。

我们是来做音乐,享受音乐的。不是来跟人打架,跟Ai比大小的。

很多人下意识把suno当做一个竞争对手,要跟这些Ai音乐比划比划。实际上没有意义。

未来游戏音乐一个可能的场景:每一个玩家回到自己的家园系统时,游戏引擎调用类似suno这种生成式Ai的API,给不同性格和偏好的玩家,生成个性化定制的家园BGM。这个玩家比较躁动,给他生成个EDM让他在家蹦迪。那个玩家比较文静,给她生成一个优雅的钢琴。而当这些玩家出去打boss,或者推进一个核心剧情时,这个场景则由音乐制作人与游戏制作人合作设计针对这个环境的音乐。

科技的发展,永远是帮助人类更好的生活和创作,而不是把人干死。

理解和拥抱Ai时代,站在变革的正确一方,才是当下每个人要做的事情。

Built with v0