数字档案:从大粒度到细粒度
作者:赵志强  来源:中国艺术报

  每一位艺术家、每一位优秀艺术人才的档案都是一部个人艺术史,都是其所在的艺术门类发展过程中的重要组成成分、影响因子,是中华文艺发展传承中的一份客观记录和反映,是艺术发展留下的宝贵财富。中国文联及各全国文艺家协会有国家级会员10余万人,加上各地文联、文艺家协会,各产行业文联,计约1000万文艺工作者,这些文艺人才的档案建设,是互联网时代一笔巨大的财富,但同时也是一个巨大的课题。

  拯救空白的档案

  调研中发现,以互联网时代的视角来看,目前各级文联组织、文艺家协会普遍存在着艺术人才档案保存不当的现象,主要体现在档案数字化程度低、档案信息完整性差和档案资料更新滞后或停滞3个方面。

  对于档案数字化程度低,我们去一些地方文艺家协会调研时发现,协会对会员的档案资料存储更多的还是停留在原始纸质文件和以磁性介质为存储载体的水平上,只有少数基本信息进行了数字化整理。比如,像会员入会时的入会申请、各种获奖材料、资格证明等艺术档案中的重要资料还是以原始资料文件的形式存放在个人档案袋中。这样传统的档案保存有很多弊端。第一,传统存放档案的物理介质易受时间和环境影响而发生数据、资源丢失或损坏且不易恢复。第二,档案文件的查找效率不高。虽然数字化存储早已是众所周知的科技手段,但是大量档案资料数字化转化成本高昂、缺乏存储数字档案资源的硬件基础设施、缺少数字化信息化专业技术人才等原因,导致了这种先进技术手段还没有普遍应用。

  档案信息完整性差。我们发现,包括调研过的一些全国文艺家协会,许多协会手中所掌握的艺术家档案信息都不完整。会员在入会时都会填写一份信息表,这个信息表是艺术家人才档案的基础和依据。但就这张表,几乎没有一份是100 %填写完整的;每个协会的会员表格中都近乎有几十上百的信息项需要填写,但很多艺术家仅填写了基本信息,甚至像住址、联系方式、身份证号等这类重要信息,很多都是空白。

  档案资料更新滞后或停滞。调研发现,目前许多协会手中的艺术家艺术档案在信息的更新上进展缓慢,很多老会员艺术档案信息甚至入会后就再也没有更新。而由于没有最新的艺术家信息,在与艺术家的联络上也出现问题,甚至靠原有信息根本联系不上艺术家。这不但不能较好地了解艺术家的诉求,甚至连先期入会的艺术人才的生卒状况也无从知晓。而这一现象产生的原因,一方面是档案管理业务人员有限,另一方面也与艺术家信息变动后没有有效回传有关。

  相比于文联,社会力量所进行的行业应用建设同样不完善。一方面,当前各类艺术人才信息建设不均衡,各社会机构建设各自为营,缺乏统一标准。比如,雅昌、大画家、中国国家艺术网、中华美网等都是集中在美术这一艺术领域做得比较好的网站,但却并没有一个统一的美术人才数字档案标准,所收集和呈现出的档案信息也是详略不均,档案属性多少不均,缺少权威和专业的组织牵头做一个统一的美术人才数字档案标准。同时艺术人才档案数据扁平,不够系统,在提供艺术人才信息时,也还未能专业地从艺术家的方方面面做一个呈现和展示。

  除人才档案外,在其他类似的信息资源存储和开发上,同样存在类似问题。比如文联传统的刊物出版,内容生产加工流程是十分清晰和规范的。从记者采访、专家约稿、大众投稿,到编辑集稿、专家审稿,再到校对发排、印刷运输,内容的生产都是有章可循的。但这个流程中很少涉及内容的资源管理,大部分内容都是一次性使用,各种原材料被使用一次之后就只能进入档案室,仅仅剩下保存的价值,无法进行二次开发和再利用。

  细粒度和关联化

  随着人们对信息需求的日益精确化,对文艺资源内容的检索与挖掘呈现出细粒度和关联化的发展趋势。文联系统内对资源内容的保存、管理和利用却还停留在粗粒度的传统方式上,构成了文艺资源数字内容发现和利用的瓶颈。面对这样的实际问题,我们该如何解决?

  在大数据时代背景下,艺术人才数字档案的建设应当呈现其与时代技术和时代应用相适应的结构特征、建设特点。文艺数字内容的最小组织单位可以深化到数据元,是描述事实、数据、公式等的最小知识单位,深入到数字资源内容之中,实现对知识元等细小粒度实体的分析、挖掘、揭示、聚合。中国文联文艺资源中心在构建新时代背景下的艺术人才数字档案时,考虑从以下3个方面去实现突破。

  一是平面数据到立体数据。

  数据,作为信息的载体,其类型有文字、图片、音频,当然也有视频。在构建艺术人才数字档案信息的过程中,为使艺术人才数字档案能更全面、更生动、更丰富地展现出来,则需在传统的文字信息描述基础上再加入非结构化的文本文件、图片、音视频资源文件的全面信息记录和信息补充,让艺术人才数字档案有全方位立体化呈现。具体如,艺术家、艺术人才参与的重要活动、作品创作过程、具体作品等都通过图像拍摄、影音记录、文档描述的方式和途径进行全面的记载,一并作为艺术人才的档案信息组成。艺术人才数字档案真正由以往的文字描述为主发展成结构化数据与非结构化数据共同构建的立体艺术人才档案。

  二是档案数字化到档案数据化。

  身处大数据浪潮的风口浪尖,艺术人才数字档案的建设已经不光是对艺术家、艺术人才信息进行纸质资料到电子资料的数字化转换,不光是艺术家相关艺术资料的模拟形态到0、 1数字形态的转化,而是一种更为深刻而全面的资源精加工和重组。传统的档案数字化只是艺术人才数字档案建设的首个环节;在此基础上将进入第二环节的处理,即数字化到数据化的提升。如果说数字化后的数据已经实现了便捷管理呈现信息内容、反映各艺术人才档案信息的话,那数据化后的数据还能更多地反映出人才档案信息间的关系、整体的特征趋势,并折射出其背后更大的价值。

  目前已存在的艺术人才数字档案中的数据普遍是数据专用,即每一位艺术家的数字档案是各自专用的。在大数据时代下,在大量数据里面发现挖掘出看上去毫无关系的数据之间、数据背后的深层次联系,从而分析、预测、支撑决策是大数据应用最佳实践之一。元数据的精细划分和数据间形成显性或隐形的关系才更易发掘其价值,在艺术人才数字档案的建设过程中对艺术人才数字档案信息进行元数据精细划分与组织形式重构,最终在建设某个艺术家的数字档案时潜移默化地也建立起其整个艺术体系和关系脉络,快速和方便地了解到与其相关的人、事、物等方方面面的信息。

  三是自主建设到共建共享。

  从建设模式的特点上看,之前艺术人才数字档案的建设大多数是靠艺术家个人自主建设或机构自主建设,但这种模式会适合一些局部性的数字档案建设,在大数据时代背景下,要做覆盖社会化系统性艺术人才数字档案建设,这样一个面向海量数据采集处理的工程,不是仅仅依靠个人或个别机构能完成的,而是要调动和发动社会各方面力量来协作共建,逐步探索并建立艺术档案数据信息标准,通过共建共享的模式来设计和建设艺术人才数字档案。