建设中华艺术语料库的迫切性
潘鲁生(中国文联副主席、中国民间文艺家协会主席)
今年是习近平总书记主持召开文艺工作座谈会并发表重要讲话十周年。2014年,习近平总书记就结合文艺发展现实前瞻性地指出:“互联网技术和新媒体改变了文艺形态,催生了一大批新的文艺类型,也带来文艺观念和文艺实践的深刻变化。由于文字数码化、书籍图像化、阅读网络化等发展,文艺乃至社会文化面临着重大变革。要适应形势发展,抓好网络文艺创作生产,加强正面引导力度。”
应该说,中华艺术语料库建设是构建创作素材,是生成中华艺术风的基础,不能取代艺术创作的本质。我们之所以提出这个问题,主要有三点原因:第一,在数字化浪潮推动之下,生成式人工智能与艺术创作、设计创意相结合,已经成为不可逆转的趋势。科技与艺术的深度融合,文化艺术发展已经进入了一个全新的阶段。第二,中华文化艺术博大精深,深度融入人工智能是个时代命题。对于传统文化艺术而言,人工智能技术带来的机遇和挑战,与现代化转型时期相比,已经发生了深刻变革。第三,新质生产力发展需要进一步激发中国经济、文化的内生动力。聚焦数字产业、新兴产业和未来产业,加速设计全领域变革,并为产业结构优化、科学技术发展、创新人才供给提供智力支持,势在必行。因此,我们亟须解决的是:在人工智能发展形势下,传统文化资源的数字转化与应用问题。当前,最为迫切的,就是在数字时代建设中华艺术语料库。
一、中华艺术语料库建设的必要性
在工业化时代,经济文化发展依赖于各方面储备的“资源库”;互联网时代,“数据库”成为发展的关键;智能时代,“语料库”是创新艺术语言必备的信息库。语料是人工智能技术发展的语言数据基础,语料的质量和数量将直接影响人工智能系统的性能和应用效果。语料库就是大量在真实情况下使用的语言信息的集成,承载民族语言文化的基础信息,记录语言文化发展的历史,在人工智能深度介入的文化艺术发展中至关重要。
第一,中华艺术语料库是文化权益的阵地,如果缺乏自身的语料库将意味着新的文化的“同质化”或“被西方化”。当前,从人工智能生成内容来看,主要基于西方通用大模型数据,缺乏中华民族的文化内容,这将造成文化传播的新的障碍,甚至是困境。举例来看,今年是中国龙年,中国“龙”是中华民族历史发展中重要的文化形象,具有“祥瑞”的寓意,而且在历史演进过程中成为民族认同凝聚的重要符号。这与西方文化中所谓“龙”的形象和意义大相径庭。西方的神话史诗和不同文化艺术中的“龙”往往是邪恶的怪兽,造成灾难。如果缺乏“中华龙”的精神要素和造型特制的语料储备和训练,那么,人工智能生成“龙”的形象将完全丧失中华文化精神内涵,甚至造成歪曲和丑化。这要求我们建设中华艺术语料库,在语料与语意的表达中,实现汉语言文本的“对齐”标准,推动建立汉语言体系在人工智能技术方面的话语权,满足不同行业和领域的需求,同时促进不同文化之间的交流和合作。
第二,建设中华艺术语料库,有助于避免人工智能创作的相关版权和伦理问题。高质量和原创性的语料库建设是模型训练的基础。现阶段通用人工智能模型的数据集抓取依赖于互联网和多种版权形态的数据搜索,往往质量良莠不齐、版权模糊,生成内容确权不容忽视。例如,生成式人工智能可以通过训练去组合、去生成新的内容。那么,如何避免有害内容的生成和传播?必须加强规范的语料库建设,并进一步展开算法研究,开展针对性对抗攻击,加上安全和对齐手段,自动进行修复。因此,区块链与公共资源确权语料库成为人工智能时代的版权基础。
第三,建设中华艺术语料库,在“通用人工智能”以及“垂直领域的特色模型”应用层面,具有时代价值和战略意义。当前,在东西方人工智能建设竞赛中,以汉语语料库为背景的中华文化“通用模型”和“特色模型”的质量成为我国在人工智能赛道的重要标准。
第四,建设中华艺术语料库,将是丰富人工智能时代全球语料库的重要内容和组成部分。目前,世界不同历史时期、不同文明成果、不同文化传统的资源库尚未充分建立。在生成式人工智能的系统中,不断建构和完善人类社会多样化的历史传统,有助于使人类数千年积累的文化艺术在全新的技术语境中全面激活。从人类命运共同体的意义上来讲,实现古与今的贯通,实现不同民族文化的交流互鉴,并进一步作为创造性的资源得到充分应用和创新,赋能未来技术的发展。总之,以中华文化艺术为出发点,构建高质量中华艺术语料库势在必行。
二、中华艺术语料库的构成要素
首先,中华艺术语料库的数据源是多元的,具有多维立体的特点。语料库的数据源主要包括:文本、图片、音频、视频和印刷复制品等。以戏曲艺术的语料库构成为例,对于戏曲演出中的面部妆容、手势姿态、服饰、方言唱腔、情绪表达等,均需通过文化人类学、图像学提取,分析相关资料中的语言和非语言信息,把握鲜明的文化特征,深入研究语言的实际运用和交流情境。
第二,中华艺术语料库的应用,主要通过人工智能模型的训练展开。主要通过对数据集收集、清洗,结合算法和神经网络进行模型训练,经过检测评估部署,应用于生成式创作。例如,人工智能与中国民间文学结合,如通过学习西北地区民歌“信天游”在歌词、声音、节奏等方面的数据集语料库,深入理解陕北文化特有的语言和风格,通过生成式人工智能创作新的作品,成为民间文学活态传承的新的方式。
第三,中华艺术语料库的构成,有形式因素,也有内涵因素,要做到“形神兼备”。也就是说,不能停留于形式上的简单模仿,必须理解和传承传统文化艺术的内涵,把握中华文化特色的应用场景,创作富有中华美学精神并适应这个时代需要的新作品。如何让人工智能技术充分体现出中华艺术的内涵,是一个非常关键的问题。以中华传统造物艺术为例,可以通过自建“传统营造工艺美术模型”“设计艺术模型”,将中华艺术中传统造物艺术的内容记录为图片形式,根据这些内容形成富含中华造型语言与文化精神的语料库。同时,在人工智能生成内容方面,继续融入当代生活内容,表达生动形象,在传承创新中传播中华造物的美学精神。比如,就汉服构建Lora模型的过程中,首先需要搜集和整理大量有关不同历史时期服装规制,将服饰款式、色彩谱系、纹样构成以及不同历史时期的面料材质等作为基础数据。模型训练过程中,需要修正传统服饰涉及的特殊语汇,如工艺技法、形态特征、面料名称等专用文本描述。进而提升语料库中的描述不够全面、精确和专业的问题,弥补中国的文化背景支撑和情感深度表达。所以,把握中华艺术语料库的构成要素,既要做好不同历史时期语汇形式的梳理开发,也要关注从具体文化形态到精神层面的深化和提升。
三、中华艺术语料库的应用领域
中华艺术语料库的应用领域非常广泛,涵盖自然语言处理、人工智能、机器翻译、文本生成、图像转换、情感分析、智能问答、语音识别以及教育等多个方面。
在自然语言处理领域,中华艺术语料库将促进语言的自动理解、自动生成和自动转换。以年画模型为例, Open Ai为代表的西方通用人工智能模型对版画和年画文本边界模糊不清,不仅是文本对齐问题,也是西方人工智能场景下的中华文化话语权问题,同时无法精准识别年画表达中的地域风格、形象、色彩、纹样、符号语言等关键词。针对这一问题,可以通过特色语料库的构建,融入人工智能信息系统,推进机器的学习与训练,强化中华艺术表达的生成质量和准确性。
在机器翻译领域,中华艺术语料库将促进文化的国际交流与传播。例如,在中华传统艺术的国际传播过程中,许多专有名称、人物、形象、符号、图形等在东西方语言文化上存在差异。建立中华传统艺术多国语言语料库等,实现数据处理与挖掘,包括提取形象、材料、技法、评价等不同的信息进行匹配。从而提高文化适应性,推动中华传统艺术走向世界共享,促进人类文明互鉴交流。
在教育领域,中华艺术语料库可辅助深化教学情境,促进文化艺术的传承与创新。比如,学习中华传统诗词,可以通过文生图重现历史场景、地域文化和人物经历,学生能够身临其境地体验经典诗词语境和传统审美画面,增强对中华诗词艺术的感官理解,促进文化的传承和艺术创作。
在设计领域,中华艺术语料库有助于打造人工智能生成时代的中国设计风格。例如,通过人工智能对中国制造和传统工艺数据所具备的造物智慧、工艺经验、设计美学等内容进行分析,形成中国设计的特色语料库和数据集,实现传统工艺在当代设计转化的基因延续,为中国设计文化增添创新依据。
在文化传播领域,中华艺术语料库将丰富数字时代的传播内容和文化内涵。例如,中央广播电视总台在2024年推出一系列借助AIGC技术制作的动画、短剧和纪录片,从剧本创作、场景设计、配音配乐、动画制作到美术风格实现了更新,以新形态传播推广中华优秀传统文化。
总之,对于一个国家来说,语言是重要的历史资源、文化资源、语言现实生活资源。以高质量、多样化的训练数据为基石,构建中华艺术语料库,是数字时代的一项重要任务。这不仅是技术的革新,更是艺术与设计领域的一场深刻变革。中华艺术语料库的建设,有利于保护和传承文化遗产,传播中华美学精神,提升全民的文化素养和艺术鉴赏能力,为传统文化艺术注入新的活力;同时,有助于推动中华文化艺术的国际传播,包括纠正文化语料对齐问题,构建文化差异语境下的话语权,以及增进国际对中华文化的理解和认同。在数字时代,这要求我们加强跨学科合作,并持续探索技术伦理,不断激发人类创造力与人工智能的协同效应,发展新质生产力,共同创造美好未来。
扫一扫浏览微信版