大数据如何为古村落画像?
——专访中国民协副主席、广东省民协主席李丽娜
栏目:聚焦
作者:本报记者 张志勇  来源:中国艺术报

中国古村落传播力指数排名前三村落之一开平自力村

  随着大数据、云计算等新一代信息技术的迅猛发展,备受关注的古村落保护与传承也有了新的思路和手段,不久前,“基于大数据架构的中国古村落文化保护与传承云服务平台建设”项目成果在广州展示,并发布了中国古村落传播力指数。作为该项目的主要负责人之一,中国民协副主席、广东省民协主席李丽娜接受记者采访时表示,通过这个云服务平台,古村落呈现给大众的不再只是停留在纸上的文字描述和模糊的印象,而是以互联网中多种数据格式为记录载体,为古村落画出更丰富和更鲜活的形象,满足信息社会以网民为主要力量的社会大众的实际需求。

  记者:广东省民协长期致力于古村落保护工作,过去的工作为该项目的实施起到了什么作用?

  李丽娜:古村落云平台项目是由广东省民协和华南理工大学出版社等团队联合开发的。广东村落资源丰富,有自然村落17万个,行政村落1 . 9万个,其中不乏有着悠久历史的古村落,其中160个被列入国家传统村落名录,这些村落少则二三百年,多则七八百年的历史。2007年,在广东省委宣传部的领导和支持下,广东省文联与广东省民协共同开展了“广东省古村落”普查与认定工作,目前,共公布5批296个古村落。这些散落在岭南大地的代表农耕文明的古村落不仅是一个社会单元,也是物质与文化的综合体。它们包含着丰富深邃的历史文化信息。项目首期建设首先对广东省内的前3批共204个“广东省古村落”进行数字化处理,利用项目中提出的方法进行相关信息资料的收集、整理,并提供相关服务,从而验证平台及方法的可行性和有效性,为下一步更大范围的推广奠定了基础。比如,数据平台采集了大量音频、视频、图片、文字等信息,以村落为单位分类存放,后续还将有更深入的大数据分析,例如地区分布、内容分析等。平台采集到的信息数据可以精确到整个房屋的框架构造和历史年份,以及村落整个的变迁历史,并涵盖族谱等文献资源。

  记者:如何理解利用大数据为古村落画像?数据来源是否足以保证画像的准确性?

  李丽娜:古村落文化遗产的数字化保护,由3个空间的复杂系统集成:第一空间为“物理空间” ,即由古村落所处的空间载体组成,包括地理场景和物质文化遗产;第二空间为“信息空间” ,即由计算机、信息网络和大数据组成的“虚拟”空间;第三空间则为“社会心智空间” ,即在物理和信息空间支撑下的社会认知和决策空间。古村落画像是利用大数据技术对古村落在网络上的形象进行勾勒,基于网络上获得古村落网络大数据(主要是文本信息)进行文本挖掘,抽取文本中的关键词为古村落打上一系列文本标签,实现古村落的标签化。古村落特征抽取的文本数据来源于网络,网络信息技术的发展和普及促使大量网络数据的产生,也使得通过收集和分析这些数据构建古村落的村落画像成为可能。利用大数据技术为古村落画像是项目研究内容的一部分,除了古村落网络大数据可以从网上信息空间中进行抓取,项目组还提出利用众包模式对真实世界中的物质和非物质文化遗产进行全面的信息采集,为将来更精准的古村落画像奠定坚实的数据基础。

  记者:中国古村落传播力指数可以为古村落的保护做些什么?排名靠后的村落怎么办?

  李丽娜:中国古村落传播力指数是以一定标准评判某个古村落在网络上的影响力并辅助人们决策的一种手段。本次发布的中国古村落传播力指数中,小洲村、沙湾古镇、自力村碉楼群与村落位列前三甲。古村落在网络上的传播力可以用古村落网络信息资源丰富程度来衡量,古村落的发展、保护和传承与传播力指数有密切关系。现在,互联网对社会有着深远影响,某个古村落传播力指数越大,说明它的网络信息资源越丰富、质量越高,它在网络上的传播力和影响力就越强、知名度也会越高,较高的知名度和网络排名对提高古村落在现实世界中的经济发展、文化保护和传承具有一定的辅助效果。另外,古村落传播力指数有利于决策者和管理者正确认识古村落网络传播现状,对管理者做出发展决策起到参考作用。对于排名靠后的古村落,说明按照项目团队所提出的评价标准,这些古村落的网络信息资源缺乏,可以有针对性地建设其网络信息资源,从而提高其网络信息传播力指数。借助各种平台的力量,让古村落的传播、保护、经营、发展得以实现良性循环,才是“传播指数”真正的意义所在。

  记者:古村落信息采集过程中的难点是什么?有没有信息采集的严格标准?

  李丽娜:古村落信息数据的采集可以精确到整个房屋的框架构造和历史年份,以及村落的变迁史,还有一些珍贵的族谱,详细记录了这个家族的繁衍及重要人物的事迹,还有一些是通过村民口述的方式,记录这些村落流传的轶事。但物质空间的信息采集还好,精神层面信息的采集是项目操作落地的一大难点。我们主要通过规范化和培训等手段来解决这个问题,保证数据采集的客观和完整。为此,我们制定了数据采集规范,以及规范化的任务包。数据采集规范包括采集的前期准备、人员联络、拍摄内容及方法、数据存放、文件命名等详细规定。例如对古建筑拍摄角度、内容等都有要求,对一个村落的各部分信息有很明确的划分。通过上述方法,尽量使收集数据的过程做到客观、规范、完整,为后面的统一分析打下基础。

  记者:这个项目对其他省份的古村落保护有什么启示?

  李丽娜:在信息高度发达的大数据时代,古村落保护应该有新思路、新途径。通过信息技术手段,探讨古村落文化传承与保护的新模式,能为国内外的古村落研究者带来极大便利,亦对我国各地古村落的保护和开发工作起到极好的示范作用。古村落数字资源的生成、搜集和分析,是古村落管理和发展必定会遇到的问题,我们项目组提出了能有效评价古村落网络传播力的中国古村落传播力指数,提出了挖掘古村落网络形象的村落画像,在如何评价和利用这些资源上进行了尝试。古村落文化遗产的数字化保护与传承,获得大量的古村落数据信息是第一步,有了古村落大数据,还需要利用大数据分析技术把碎片化的数据进行分析和挖掘,从而产生有价值的信息和知识。大数据分析技术包括描述性分析、预测性分析和规范性分析,本项目主要应用描述性分析方法,特别是应用聚类分析方法对古村落大数据分析与挖掘进行了初步尝试,得到了部分有意义的结果,现将这些方法与结果发布出来,希望能够为古村落研究者提供一种新的思路与方法。