_基于大数据的非物质文化资源挖掘研究.docx
《_基于大数据的非物质文化资源挖掘研究.docx》由会员分享,可在线阅读,更多相关《_基于大数据的非物质文化资源挖掘研究.docx(36页珍藏版)》请在课桌文档上搜索。
1、第1章绪论1.1研究背景与意义非物质文化资源是指各种以非物质形态存在的与群众生活密切相关、世代相承的传统文化表现形式1。他是中华民族传统文化不可或缺的一部分,也包含着中华民族最重要的精神和情感,更是先贤智慧的载体。而现如今在科学技术发展的潮流中,传统民族文化正受到当代文化的强势撞击。由于人们对非物质文化资源的保护不够重视,导致一些优秀的传统文化被遗失,这种情况不利于我国的发展与进步。现在,人们需要有更多的警示与思考,重视非物质文化资源的保护,留住民族记忆的背影。信息化时代的出现带来了全民信息化水平的提高,也直接或间接地导致非物质文化传承人日益减少。互联网的迅猛发展,使得新兴文化,外国文化成为主
2、流,使我们忽视非物质文化资源对祖国发展和自身发展的意义。数据挖掘技术的出现,为互联网时代的数据采集提供了新的思路和获取渠道。人们利用数据挖掘技术挖掘非物质文化资源,获取非物质文化资源信息,使非物质文化资源信息能够系统全面的展示在人们面前。并通过文本聚类,将相似的非物质文化资源聚类在一起,了解其聚类效果,让人们更好的了解,保护和传承非物质文化资源,也让人们更好的了解数据挖掘技术,并将其运用于实际生活中。12国内外研究现状随着数字化大时代的来临,非物质文化资源的口传身教已经逐渐不再符合时代发展的脚步,尤其是口头文学(京剧,秦腔,相声等等),手工工艺(竹编,苏绣等等),传统表演艺术(舞狮,川剧变脸等
3、等),而如今的我们都通过数字采集、数字存储、数字处理、数字展示和传播等技术,将非物质文化遗产转换成可共享的数字形态并加以保存。美国的非物质文化资源虽然有限,但对其的挖掘与保护手段却走在世界的最前沿,其中有名的“美国记忆”工程运用先进的大数据,将承载美国印象的非物质文化资源做成了可教育和终身学习的公众资源。日本是最早提出保护非物质文化资源的国家。早在1950年便提出了无形文化财产的概念并颁布了文化财保护法误!未找到引州溉,积极的将非物质文化资源数字化并形成了相关的非物质文化遗产数据库:贵重图书图像数据库(2000年3月上网)。而且该网页的电子展览会上,还公开了数字式贵重图书展览会和世界中的日本两
4、个项目。而中国作为走过五千年文化长河的历史古国,从古至今流传的文化精华数不胜数,大到气势恢宏的古典音乐,小到精美绝伦的瓷器,散发着古老气息的甲骨文,凝聚着民族情感的京剧,都是我国珍贵的非物质文化资源。他们源于生活,却形成一种高于生活的文化艺术。然而随着数字化时代的推进,这些承载着美好生活的文化却受到前所未有的打击,人们对非物质文化资源的不重视,大数据时代所带来的快节奏生活让他们渐渐的流失在时代的巨大齿轮中。而面对非物质文化遗产被步步蚕食的情况之下,我们也有了相应的措施。早在2005年,中国国务院便公布了关于加强中国非物质文化遗产保护工作的意见,并且提出“要运用文字、录音、录像、数字化多媒体等各
5、种方式,对非物质文化遗产进行真实、系统和全面的记录,建立档案和数据库。”确切的说就是通过计算机等设备把非物质文化进行文字、音频、视频的多媒处理,在储存、传播、应用等方面的突出优势来传承和发展非物质文化。例如为了使挖掘到得曲艺有得到足够的重视4。目前与曲艺相关的数据库有国曲艺家协会的“中国曲艺网”,星海音乐学院的“岭南音乐全文数据库”“岭南音乐音响数据库”等,在国家的政策之下,我国的学者们也纷纷对非物质文化资源的保护出谋划策,陈思喜在基于动作捕捉的名族舞蹈保护研究中强调让非物质文化遗产“活”起来,与三维动态技术和动作模型结合,通过数据采集将非物质文化遗产生动灵活地展现出来.一张博通过Web数据挖
6、掘技术对少数民族非物质文化资源进行研究,实现少数民族非物质文化资源原型系统,对非物质文化进行信息化保护,实现非物质文化资源的传承和利用!本找到引;雷明将大数据处理技术与数据挖掘技术相结合,对海量的少数民族文化资源数据挖掘方法进行了研究,为促进少数民族文化的保护和传承提供有效途径从这些实例可以看出,数字化手段对非物质文化遗产的保护正在被我们广泛应用。要知道,在如今的大数据时代的推动下,越来越多的非物质文化资源走向式微,而数字化手段的挖掘也是一个有良好发展前途的方式它存储灵活,传播迅速,应用广泛等优点,并且数字化手段有着十分可观的应用前景。(1)可以用数字化手段对非物质文化资源所进行的场所,工具,
7、产品甚至是非物质文化资源进行时的动态资料记录为图片,影像等并存储,保证他们不会遗失。(2)可以在小的存储器中存储大量由文献,图片,碑刻,影像的非物质文化资源实物资料转化而成的数字化信息,借助现代化科技可随时浏览。(3)可以在网络中建立虚拟的档案馆,图书馆,资料库等,并将非物质文化资源的各类资料进行整合,归纳分类,形成一个专门挖掘与保护非物质文化资源的平台。(4)数字化手段突破了以往非物质文化资源的传统表演方式与场合,物质条件的限制可以打破,可利用数字化技术通过高清扫描,虚拟3D等让非物质文化资源跨空间与地域的限制,真实,动态的展现在我们眼前。(5)数字化后的非物质文化资源,应用十分灵活,并且对
8、庞大的数据有自动分析,整理的能力,同时对我们有更方便的查询与检索。综上所述数字化手段对非物质文化资源的挖掘与保护有十分有效的作用。不仅仅是我国在使用,世界各国也将其投入了不同的,更加广泛的领域。在将来的时代中,数字化手段也应对非物质文化资源的挖掘与保护起到巨大的作用。1.3非物质文化资源的特征非物质文化资源并不是独立的存在,反而它的存在与我们的生活息息相关,比如说歌谣和舞蹈是为了欢庆某些特定的日子;瓷器工艺和竹编则是为了方便生活中东西的存放;各种传说是人们对某些生活或者精神的向往。可以说,非物质文化的诞生基本上是为了满足人们的一些生活需求,不仅是物质方面的需求,同时也包含精神的需求。非物质文化
9、资源所包含的东西可以说是方方面面,特定的空间,不同的地域,传承方式的差异创造了形形色色的文化。因此,非物质文化资源有以下几点特征:1.3.1时空性非物质文化资源刚开始的模样并不是我们今天见到的那样,他的开始也许是寥寥无几的几个字,几句话,几个动作。随着时间的齿轮推进,那些字,话,动作就像滚雪球一样愈来愈大,从而形成独特的文化。比如瓷器,从刚开始的胎体和釉层十分粗糙,烧纸温度较低的“原始瓷”,到如今的瓷片质地细腻,釉面有光泽,胎釉结合紧密牢固的瓷器,瓷器的变化十分明显。经历过无数的漫长岁月,先贤们用自己的经历书写智慧,为独特的文化不断积累经验,才有现在无数精彩的非物质文化的出现,因此,非物质文化
10、资源的形成和发展与时间有密切关系。而空间特征则是与空间地理相关的.一个地区的地理环境是该地区相应文化产生的前提条件2地理环境对文化的影响可谓十分巨大,不仅仅是文化本身,更是文化的流传都有着十分明显的地理特色。就拿草原的非物质文化遗产来说,草原多属平原,以游牧民族为主,有着大量的牛羊马等牲畜,在独特的地理环境中,草原之上便有了独特的文化,比较有名的有传统节日“那达慕”,是蒙古族人民的盛会,其中有摔跤,三码,射箭等等,还有草原民族独特的民族乐器马头琴,都是独特的地理环境所形成的文化。而在古代黑龙江流域的赫哲族聚居区,由于生长着大量的桦树,他们的文化便与桦树有着不解之缘,其中桦树皮制作技艺作为非物质
11、文化遗产,也在生活中有巨大作用,包括餐具,住房,篱笆,服饰等等都是由桦树皮制作的,这些也便恰好证明了为物质文化遗产的空间特征。1.3.2地域性非物质文化资源具有很强的地域性特点。有句老话说“百里而异习,千里而殊俗”,不同的地域之间文化差异巨大,哪怕是同一种文化,地域跨度一旦变大,便会形成两种截然不同的文化。简单来说,舞蹈作为非物质文化资源中不可或缺的一部分,在不同地域便有着迥异的风格。北方的秧歌舞古朴刚健,南方的花灯舞纤美柔曼,而少数民族在不同地域的舞蹈更加千姿百态,蒙古族安代舞粗犷有力,藏族锅庄舞舒展曼妙,苗族鼓舞平稳文雅,傣族孔雀舞婀娜多姿。不仅仅是舞蹈,在服饰,刺绣,民乐等多个方面都可以
12、体现出不同地域带来的非物质文化遗产的巨大差异。由此可见,非物质文化资源的地域性特点十分鲜明。1.3.3传承性所谓传承,是后人继承前人留下的非物质文化资源,并在其基础上,进行研究,发展,享用。当然,不同的非物质文化资源的传承方式各不相同,在以前的传承方式中,口传身教的传承方式较为常用,比如京剧,华阴老腔的传承,通过口传来传承。当然,非物质文化资源的传承也有以物传承或通过节日活动传承,如唐山花吹中的啖呐,唐山皮影,玉田泥人等都是以物传承误!术找到引用源。,而徐水狮舞的活动时间在春季和春季寺庙法会,苗族的“四月八”,布依族的“六月六”,彝族的“火把节”错说!未找到调源。,都是每年所拥有的传统节日。然
13、而,以前的传承方式有很大的不稳定性,如石阡木偶戏的老艺人只有三位耄耋老人,并没有传人,而被誉为象形文字“活化石”的水书也面临着失传的危险。因此数字化传承应运而生,我们将非物质文化资源的图片,物品,影像资料等储存在网络档案馆,使得非物质文化遗产更加立体化,全面化的被我们了解,学习。这也同时体现了非物质文化资源的传承性。第2章数据挖掘3.1数据挖掘含义数据挖掘(DM)是20世纪90年代新兴的学科,学名叫做数据库中发现知识(KDD),并在此后发展迅速,它以数据库系统以及数据库应用作为主要工作领域,其作用在于能够从应用数据中提取隐藏的关键信息与知识,无论是不完整的数据,还是受干扰的数据,数据挖掘技术都
14、能够对数据进行识别与筛选,并提取和处理其中的有用信息。数据挖掘的目的在于通过对数据中信息的处理,筛选关键数据,发现被忽略的数据,从而寻找数据中的规律,为决策者提供合理科学的数据分析报告,帮助其作出最优化的决策。其大概流程就是:从数据库中选取目标数据然后经过预处理、转换等步骤提取数据加以分析解释成为人们需要的实用知识。目前应用比较广泛的数据挖掘技术包含神经系统法、树形分析法、自然选择法、估算法、结合法等”:未技州习用选择数据数据挖掘过程(1)数据选择:确定发现任务的操作对象,即目标对象;它是从原始数据中抽取的用户需要的数据(2)预处理:包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转
15、换等;(3)转换:消减数据维数或降维,使得数据能够更好的应用(4)数据开采:明确定义数据开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等。在任务确定后,要决定使用什么样的开采算法;算法的确定可以根据数据的不同特点,也可以根据用户或实际运行系统的需求。(5)解释和评价:数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。3.3数据挖掘的主要功能数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下:(1)数据总结:继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述,让数据能够有针对性,可以直观
16、的表达。例如求和值、平均值、方差值;直方图、饼状图等图形方式表示这些值。(2)分类:目的是构造一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量。(3)聚类:是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显,而同一个群之间的数据尽量相似。这种方法通常用于客户细分,在开始细分之前不知道要把用户分成几类,因此通过聚类分析可以找出客户特性相似的群体。(4)关联分析:是寻找数据库中值的相关性。两种常用的技
17、术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式寻找的是事件之间时间上的相关性,(5)预测:把握分析对象发展的规律,对未来的趋势做出预见。(6)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。2.2文本挖掘2.2.1定义文本挖掘(TeXtMing,简称TM),是数据挖掘挖掘的一个分支。它的概念是Feldman在1995年正式提出的,可定义为:为了发现知识,从大规模文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程9。一般来说,文本挖掘和文本数据库中的知识发现(KnOWIedgeDiscoveryinTextualDatabaSe,简称KD
18、T)被认为是具有相同含义的两个词,最早由RonenFeldman等人提出25.2.2.2文本挖掘预处理文本挖掘是从数据挖掘发展而来,但并不意味着简单地将数据挖掘技术运用到大量文本的集合上就可以实现文本挖掘。文本挖掘的准备工作山文本收集、文本分析和特征修剪三个步骤组成。(1)文本收集需要挖掘的文本数据可能具有不同的类型,且分散在很多地方。需要寻找和检索那些所有被认为可能与当前工作相关的文本。(2)文本分析与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构;此外文档的内容是人类所使用的白然语言,计算机很难处理其语义,数据挖掘技术无法直接应用文本,需要对文本进行分析,抽取代表其特征的
19、元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。(2)特征修剪特征修剪包括横向选择和纵向投影两种方式。横向选择是指剔除噪声文档以改进挖掘精度,或者在文档数量过多时仅选取一部分样本以提高挖掘效率。纵向投影是指按照挖掘日标选取有用的特征,通过特征修剪,就可以得到代表文档集合的有效的、精简的特征子集,在此基础上可以开展各种文档挖掘工作。2.2.3文本挖掘的关键技术经特征修剪之后,可以开展数据文本挖掘工作。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。(1)文档聚类首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个
20、文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。文本挖掘中的聚类可用于:提供大规模文档集内容的总括;识别隐藏的文档问的相似度;减轻浏览相关、相似信息的过程。聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。(2)文档分类分类和聚类的区别在丁:分类是基丁已有的分类体系表的,而聚类则没有分类表,只是基于文档之间的相似度。(3)白动文摘白动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。简单地说白动文摘就是利用计
21、算机白动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。白动文摘具有以下特点:(1)白动文摘应能将原文的主题思想或中心内容白动提取出来。(2)文摘应具有概况性、客观性、可理解性和可读性。(3)可适用于任意领域。按照生成文摘的句子来源,自动文摘方法可以分成两类,一类是完全使用原文中的句子来生成文摘,另一类是可以白动生成句子来表达文档的内容。后者的功能更强大,但在实现的时候,自动生成句子是一个比较复杂的问题,经常出现产生的新句子不能被理解的情况,因此日前大多用的是抽取生成法。2.4文本聚类文本聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小银!未找到引用
22、懈。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段。文本聚类的一般流程如下:图2-1文本聚类流程图Stepl:分词分词这一步主要是对中文文档而言的,一般使用分词工具来完成。一般的中文分词工具主要有:jieba,Hanlp,SnowNLP(MlT),pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心),thulac(清华大学自然语言处理与社会人文计算实验室)等。step2:去除停用词停用词就是我们在实际生活中常用的不能用
23、于区分文档之间关系的一些词语。如“的”,“你”,“我”,“他”等。step3:构建词袋空间VSM(vectorspacemodel)构建词袋空间的步骤如下:(1)将所有文档读入到程序中,再将每个文档切词。(2)去除每个文档中的停用词。(3)统计所有文档的词集合(SkTearn相关函数)。(4)对每个文档,都将构建一个向量,向量的值是对应词语在本文档中出现的次数。Step4:TF-lDF构建词权重TF-IDF(termfrequency-inversedocumentfrequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 物质文化 资源 挖掘 研究
链接地址:https://www.desk33.com/p-889971.html