中国文艺网_AI技术与短视频浪潮下的音乐创作

AI技术与短视频浪潮下的音乐创作——从理论审思到创作坚守

时间：2026年05月29日来源：《中国艺术报》作者：张萌

图片由AI生成

　　◆ 如果说传统创作是意义寻找，即作曲家用音乐语言探索某种尚未被完全把握的内在体验；那么AI生成则是一种模式复现，即模型在统计分布的可能性数据中采样，生成符合用户需求的文本。

　　◆ 技术越是试图将一切平均化、虚拟化，人类真实存在的价值就越显得弥足珍贵。为此，我们必须找准那些AI技术尚未触达的文化坐标。

　　◆ 艺术作品被持续聆听、引用和讨论的时间跨度，是比即时流量更能反映其艺术价值的指标。一首作品被100万人“刷到过”，与被1000人反复“深度聆听”，哪个更“成功”？这是一个值得思考的问题。

　　回望近些年的乐坛，短视频制造的爆款“神曲”，如《科目三》《恐龙抗狼》《跳楼机》等，往往能在短时间内达成指数级传播，洗脑式的旋律无孔不入。与此同时，大量微短剧、信息流广告的配乐都是由Suno等AI作曲软件生成，而广大受众却无从察觉背后人类主体的缺席，或者说他们对此并不在意。算法逻辑和AI技术的泛滥，日益成为当代新大众文艺所处现实语境的技术底色。对于音乐创作而言，一方面是随着新技术的不断推陈出新，掀起一波波感官猎奇和流量狂欢；另一方面是创作者或积极、或无奈地被动应对和整个产业规则的不断解构与重写。

　　谁都明白，这绝不是一次普通的技术迭代。虽然，从留声机、广播、MTV的出现，到MP3、流媒体的发明，历史上每一次媒介革命都深刻改变了音乐的传播与接受方式，但作为创作主体的人的核心地位始终未被动摇。而当下，随着AI技术对于创作环节的深度介入，短视频对于欣赏时间的改变，特别是算法逻辑对于个体趣味形成机制潜移默化的规训，使得身处变革中的艺术工作者共同面临着一系列严峻的本体论追问：传播速度在加速，创作门槛在降低，“什么是音乐？”“谁在创作音乐？”“为什么听音乐？”这些原本不言自明的问题，都迫切需要被重新思考和协商。

　　理论审思——AI作曲与短视频对音乐本质的解构

　　AI技术与短视频的合流，实际上是对人类过去数百年形成的“音乐创作”与“听觉体验”认知的一次深层解构。两套系统不是程度或类型上的差异，而是本质上的不同——如果说传统创作是寻找意义，即作曲家在用音乐语言探索某种尚未被完全把握的内在体验；那么AI生成则是一种模式复现，即模型在统计分布的可能性数据中采样，生成符合用户需求的文本。

　　对于人类创作者而言，创作一首作品的起点，往往是一个极具生命质感的“意图”。这个意图可以是模糊的、矛盾的，甚至是错误的，但它始终是一个有意识主体的创造行为——作曲家在寻找某种他自己也不完全清楚是什么的东西。其中既有贝多芬在构筑他的交响乐宇宙时，苦思冥想、在乐谱上反复修改的艰辛探索；也有冼星海在革命激情的鼓荡下，短短几天便写就《黄河大合唱》的灵感爆发。正是在这些灵感捕捉、意义寻找的过程中，创作者不断校准自己的艺术构想，将内在体验转化为声音表达，孕育了艺术史上一次次创新与突破。

　　然而，AI的生成逻辑则截然不同。当前，市面上的AI音乐大模型的起点，是建立在海量数据投喂基础上的模式复现。当你输入“中国风”“周杰伦早期风格”“悲伤情歌”等提示词时，AI既不懂五声音阶背后的民族韵味，也无法共情周杰伦咬字的个性。它仅仅是在完成一次冰冷的概率计算，演算出哪种音符排列最能契合相关提示词所指向的已有听觉的统计学规律。这种生成逻辑遵循某种“平均值定律”，即AI基于自有数据的最大公约数进行生成，因而注定无法跨越训练数据的边界。纵观艺术发展史，真正推动审美迭代的，恰恰是那些打破常规的“极端值”——如勋伯格早期的无调性探索，或是查理·帕克初创的比博普爵士，它们在诞生之初都曾被视为“离经叛道”的异类而遭到质疑。AI的数据库中可能储存了古今中外所有风格的音乐，但它所生成的“作品”只会迎合耳朵，而永远缺乏人类艺术家的那种创新精神。

　　近年来兴起的音乐表演理论研究，为我们揭示了一个长期被忽视却至关重要的问题：当一位演奏（唱）家在表演时，我们听到的不仅仅是声音本身，还有声音背后那个真实的身体。声乐家演唱时声带的振动、腔体的共鸣、呼吸的控制、嘴唇与舌头的配合——每一个细节都会在声音中留下痕迹。器乐演奏也是如此。我们能够感受到钢琴家指尖触键的力度、踏板的微妙运用、演奏者的呼吸节奏。这些都是身体性的信息，它们让音乐成为一种具体的、有温度的即时性存在。这也是为什么现场演唱会往往比录音更能打动人——在现场，声音、身体、空间共同创造了一种强烈的共在感。反观AI，它没有身体，没有呼吸，没有任何真实的物理过程，它生成的只是纯粹的数字产物。即使这些声音听起来完美无瑕，也因为抽离了人类身体展示的维度，而不可避免地陷入一种精致的“空洞”。

　　如果说AI的创作主要作用于“生产端”，那么短视频的问题则主要在于“受众端”——它正在系统性地改变我们认知音乐、评价音乐的方式。在短视频的流量逻辑中，音乐的社会学功能发生了深刻的改变：它从被聆听的“审美对象”变为“社交货币”与“伴随性工具”。一首歌能不能火，取决于它是否适配特定的舞蹈、是否适合对口型，或能否在数秒内快速贴上“emo”“高燃”的情绪标签。更有甚者，这种算法规则还反过来改变了创作的底层规则。不难发现，近年来，所谓的“网络神曲”有一个高度趋同的模式：前奏极短或几乎没有前奏、副歌部分旋律简单但极具重复性、歌词往往包含一两句高识别度的口号式表达。一些歌曲的走红路径，几乎都遵循着这个原则。伴随着大众听觉注意力的日益碎片化，那些结构复杂、意境深远，需要经历“期待—张力积累—延迟满足”方能获得深层审美快感的交响乐、歌剧、传统戏曲、民族器乐等艺术形式，在算法推荐中往往难以获得足够的曝光，正面临越来越严重的受众流失。

　　现实图景——算法逻辑下的市场分化与生存困境

　　当理论层面的解构投射于现实的产业生态，我们必须面对的现实是，大量音乐从业者正面临着前所未有的生存重压与身份困境。

　　如果只看总量数据，今天的音乐市场似乎是一片繁荣。全球流媒体音乐收入在持续增长，2025年已超过317亿美元，网络等平台汇集了海量的听众。然而，一旦拆解这些收益的分配方式，就会发现其中令人不安的真相：在当前的“流量分账”模式下，少数头部歌手和制造“爆款神曲”的MCN机构获取了绝大部分平台收益，而处于产业中游的广大独立音乐人、乐队，仅靠录音版权的微薄点击分成基本无法维系生存。流媒体音乐平台与算法的联姻，将音乐市场的“赢者通吃”推向了极端。美国经济学家舍文·罗孙在20世纪80年代提出的“超级明星市场”理论——极少数顶端艺术家获得市场的不成比例份额——在流媒体时代获得了比以往任何时候都更彻底的实现。

　　AI的入局更是雪上加霜。如今，海量的微短剧配乐、游戏UI音效、线下商铺的背景歌单等所谓“功能性音乐”，日益被AI以近乎零成本的批量生产所取代。当国内平台上每日被数以万计的AI“罐头音乐”漫灌，人类创作者的曝光率和版税收益正遭遇系统性的稀释。

　　在这样的生态下，青年创作人才在创作上的打磨与坚守，往往在喧嚣的网络现场面前显得无力。由于算法逻辑的裹挟，大量从业者被迫经历着一次深刻的身份异化：仅靠打磨作品已然不够，在自媒体平台，所有人必须强迫自己转型为高频营业的内容创作者。想段子、拍视频、经营人设，带来巨大的认知消耗。社交媒体碎片、高频与即时刺激的特点，与深度艺术创作所需的沉浸、安静与长期专注形成了天然的矛盾。

　　2023年以来，“AI孙燕姿”或“AI周杰伦”风波暴露了现有版权制度在面对人工智能技术冲击的问题。这些虚拟演唱者不仅精准克隆了众多歌手的独特音色和表演风格，甚至可以随意翻唱任何不属于原唱的歌曲，收获数千万点击。在这场技术的狂欢背后是无法回避的伦理困境。首先，AI大模型在算法训练时，近乎剽窃了海量人类艺术家的心血结晶，而原作者分文未得。其次，声音克隆技术直接对歌手的人格权与表演权构成了严重威胁。我国现行的著作权法主要保护“固化的词曲作品”或“录音录像制品”，但面对艺术家“音色特征”与“演唱风格”的被肆意复制盗用的行为，亟须解决法律的滞后性问题。

　　应对与坚守——构建人类主体性的文化坐标

　　面对AI作曲的技术冲击和短视频的流量裹挟，以艺术表达为追求的创作者该如何应对？技术越是试图将一切平均化、虚拟化，人类真实存在的价值就越显得弥足珍贵。为此，我们必须找准那些AI技术尚未触达的文化坐标。

　　首先，勇于展现“真实的不完美”。既然完美无瑕的录音室作品已成为AI产品的标配，具有“此时此地性”的、不可复制的现场表演，便成为人类音乐家独有的文化品格。前段时间曾在网上引发轩然大波的某乐团疑似假唱风波，从一个侧面印证了大众对现场音乐核心诉求的转变：乐迷们愤怒的不是歌手走音，而是被剥夺了“此时此地”的真实在场感。AI或许能生成无懈可击的声学波形，但它永远无法营造音乐演出现场里那种血脉偾张的社会学意义上的“集体欢腾”。要守住作品的“灵韵”，艺术家必须勇于展示自己“真实的不完美”。尤其是在修音技术大行其道的今天，现场偶尔的破音、微弱的节奏游离、即兴的情感喷发，恰恰成为彰显表演者作为“一个活生生的人”的最有力证据。

　　其次，重建“慢时间”的文化场域。面对短视频以秒计算的“快时间”逻辑，创作者不应降格去迎合算法，而应展现出逆向而行的勇气——主动去构建“慢时间”的接受空间。这就意味着对深度体验与意义积累的宽容。例如，一场线下的古琴雅集、一次不插电的民谣弹唱会，其核心价值就在于构建一个引导受众放下手机、重塑持续注意力的仪式场域。在运营模式上，通过网易云音乐的个性化音乐社区、B站的“充电”专属社群，或者小规模高黏性的线下巡演，筛选出真正愿意为深度文化买单的受众，也被证明是一条行之有效的路径。这一策略的思路是，与其被动地接受算法对受众范围的决定，不如主动地找到那些真正喜欢你的音乐的人，并与他们建立直接的、持久的关系。规模可以小一些，但关系要真实。

　　第三，强化人之主体性的叙事价值。AI时代最稀缺的不再是“好听的声音”，而是有深度、有血肉的真实人格。2023年刀郎《罗刹海市》的“出圈”便是一个经典案例。客观而言，歌曲在流行音乐技法和传统民歌的运用上并无太多的颠覆性创新，但它之所以能引发全网超百亿次的点击与文化回声，恰是因为它承载了创作者多年沉淀的人生阅历、对传统文学经典的现代化转译，以及对当下社会现状和人之生存状态的冷峻观照。回归到聆听行为的本质，人们很大程度上是在寻求与另一个真实灵魂的跨时空对话。对于当代创作者而言，想要更好地讲述带着体温的“中国故事”，记录当代国人真实的时代声音，有必要建立清晰的长期叙事框架，即围绕一个核心主题或美学问题，创作一系列相互关联的作品，让受众能够随着系列的推进不断深入地理解作品。因为艺术作品被持续聆听、引用和讨论的时间跨度，是比即时流量更能反映其艺术价值的指标。一首作品被100万人“刷到过”，与被1000人反复“深度聆听”，哪个更“成功”？这是一个值得思考的问题。

　　第四，拓展传统精神与当代情感的对话空间。在谈及民族音乐与古典音乐的当代坚守时，我们有必要恪守一条准则：绝不降格以求，但必须精准切中时代。传统艺术中的价值观和美学体验，之所以有跨越时代的力量，是因为它们触及了人类永恒的情感和生存困境——死亡、爱、失去、归属、意义、时间……这些主题不会因为时代变化而消失。但传统精神的当代激活，需要找到与当代情感节点的真实交汇处。如传统文化中的家国情怀，在当代可以真实地对应年轻一代对“归属感”和“意义感”的精神诉求；而“天人合一”的哲学精神，则可与生态危机和人对自身与自然关系的重思产生共鸣。笔者以为，处理传统文化与当代流行文化或数字媒介的关系，最可行的策略不是“融合”，而是“对话”。这就意味着两者在保持各自完整性的情况下，相互提问、相互参照，但不互相同化，即达成传统技术和形式的当代更新，最有价值的不是表面的混搭（如将昆曲音乐配上电音节拍、将唐诗意象配上爵士和弦等），而是从内部理解传统形式的生成逻辑，在当代条件下以同样的生成逻辑创造新的形式。例如，对于昆曲的曲牌体结构，不能简单地判定是一种格律约束，而应认识到其中蕴含着一种将音乐时间与诗意时间精密整合的思维方式。今天如果要创造一种与昆曲在美学深度上可以对话的新形式，需要的不是保留曲牌格律同时加入当代元素，而是提出同样的问题：在当代的声音条件下，如何实现音乐时间与诗意时间的精密整合？

　　数字平台是传统艺术的窗口，而非其转型方向。传统艺术的当代生命力，来自表演者和创作者自身与作品的真实关系。对这一艺术家群体而言，最重要的工作不仅是如何向外传播，而且是如何向内求索，让这一传统真正成为自己生命体验的一部分。

　　历史上每一次重大的技术、文化变革，都被同时代人既高估又低估。留声机出现时，人们担心音乐演奏将消亡；广播出现时，人们担心音乐会消亡；MP3出现时，唱片工业宣称音乐将死。这些担心虽然都没有发生，但让音乐行业经历了深刻的形态变化。

　　今天的变革与以往的不同，在于它同时在传播机制、经济结构、创作技术和接受模式等多个层面发生，而且变化的速度、深度、广度在历史上都是前所未有的。但无论如何，人类通过声音建立意义、表达体验、形成共同体的根本需要，并没有改变。

　　（作者系中国文联音乐艺术中心副主任）

（编辑：陈佳丽）