基于lda的文本情感分析研究信息管理与信息系统专业.docx
《基于lda的文本情感分析研究信息管理与信息系统专业.docx》由会员分享,可在线阅读,更多相关《基于lda的文本情感分析研究信息管理与信息系统专业.docx(38页珍藏版)》请在课桌文档上搜索。
1、摘要1前言3第一章雌41.I情感分析概述41.1主要研究内容41.1.2文本情感分析的分类51.1 .3主题模型在情感分析中的应用61.2 国内外研究现状61.3 本文内容安排7第二章数据预处理82. 1概述82.1 分词以及简繁体转换82.2 去除停用词82.3 抽取情感信息924.1情感词典的构建92.4.2抽取情感信息92. 4.3数据92.5本章小结10第三章LDA建模113. 1LDA概念113.1.1概率主题概念的提出113.1.2LDA模型123.2实验133.2.1划分数据集133.2.2数据词典133.2.3向量化143.2.4使用TFrDF作为特征值153. 2.5LDA模
2、型训练163.3本章小结17第四章SVM分类184. 1SVM概念184.1.1 线性分类184.1.2 软间隔最大化204.1.3 1.3非线性支持向量机204.2本文中的SVC224.2.1算法描述224.3实验234.3.1特征选取234.3.2数据转换244.3.3将数据随机分为训练集和测试集244. 3.4SVM训练和预测254.3本章总结25第五章贝叶斯分类265. 1概念265.2贝叶斯定理265.2.1朴素贝叶斯265.2.2伯努利模型275.3本文中的朴素贝叶斯275.3.1算法描述275.3实验285.3.1特征选取285.3.2向量化285.3.3朴素贝叶斯分类训练285
3、. 3.4测试286. 3.5准确率295.4本章总结30第六章总结与展望317. 1本文主要内容总结316.2存在的问题以及未来展望31参考文献33致谢34互联网的快速发展让各类社交媒体与日俱增,人们在网络上发表各种各样的评论、博客等信息。这些信息很大一部分表达了用户的情感倾向,如微博评论可能表达对某个明星的喜爱,虎扑评论可能表达对某个球队的支持和狂热,去哪儿、蚂蚁蜂窝等网站上的酒店评论集表达了客户对该酒店的喜爱程度,也侧面表达出该酒店的好坏层度。评论集这种简练却信息丰富的数据集具有重要的研究价值。情感分析,也称意见抽取、意见挖掘和倾向性分析8。主要是通过对带有情感色彩的主观性文本进行分析、
4、处理、归纳然后进行推理的过程1。本文对酒店评论数据集进行了如下的工作:首先,整合网络上表现较好的情感词典,然后将数据集进行常见的预处理操作,包括去掉停用词等操作,根据情感词典抽取数据集中的极性词。其次,对预处理过后的文本进行LDA建模,其目的是以文档-主题分布取代文档-词矩阵,从而实现降维的效果。最后分别使用SVM和贝叶斯分类器,以LDA中得到的文档主题分布作为特征向量,来对文本进行分类。这些情感信息具有宝贵的作用,当评论非常多时,我们不可能人工地去观察每一条评论。通过情感分析,我们可以了解客户的心情,对某件事情或者物品的看法,从而挖掘其中潜在的商业价值。关键词:情感分析文本分类支持向量机数据
5、挖掘主题模型LDA朴素贝叶斯AbstractWiththerapiddevelopmentoftheInternet,variouskindsofsocialmediaareincreasingdaybyday,andpeoplepublishvariouskindsofcomments,blogsandotherinformationontheInternet.Alargepartofthisinformationexpressesausersemotionaltendencies,suchasamicro-blogcommentthatmayexpressaloveforastar,the
6、tigerreviewmayexpressthesupportfanaticismofateam,wherethehotelreviewsonsitessuchastheanthoneycombexpressthedegreeofcustomerloveforthehotel.Commentingonthisconcisebutinformativedatasethasimportantresearchvalue.Affectiveanalysis,alsocalledopinionextraction,opinionminingandtendentiousnessanalysis.Itism
7、ainlythroughtheanalysis,processing,inductionandreasoningprocessofsubjectivetextwithemotionalcolor.Thispaperhasdonethefollowingworkforhotelreviewsdataset:First,agoodemotionaldictionaryonthenetworkisintegrated,andthenthedatasetisusedforcommonpreprocessingoperations,includingtheremovalofthedisusewordsa
8、ndsoon,andthepolarwordsinthedatasetareextractedaccordingtotheemotionaldictionary.Secondly,LDAmodelingofpreprocessedtextisaimedatreplacingdocumentwordmatrixwithdocumenttopicdistribution,soastoachievetheeffectofdimensionalityreduction.Finally,SVMandBiasclassifierareusedrespectively,andthedocumenttopic
9、distributioninLDAisusedasthefeaturevectortoclassifythetext.Theseemotionalinformationisvaluableandveryimportantaswell.Whencommentsareverylong,itisimpossibleforustoobserveeverycommentmanually.Throughemotionalanalysis,Wecanunderstandthecustomers*mood,theviewsofacertainthingoritem,andtapthepotentialcomm
10、ercialvalue.Text Classification SVM Data MiningKeyWord:SentimentAnalysisTopicModelLDANaiveBayes互联网的发展让人们不再以以往的“读”的方式访问网络,随着各类开放式平台的兴起,用户开始在互联网上发表自己的评论和见解。即从原来单纯的“读网页”向“写网页”发展。由用户发表的网络文本,包含了大量的信息。通过淘宝上的评论,人们决定是否购买某类商品,通过微博上的评论信息,我们可以得知用户对于某件新闻事件的看法。而在这些文本所蕴含的信息中,情感信息可以表达用户对事件的主观感受,具有非常重要的潜在价值。文本情感分析指
11、的是对于包含用户观点、喜好、情感的文本进行检测、信息抽取、分析和挖掘的过程。利用这些信息,消费者可以理解其他消费者对商品的态度、商店可以了解消费者对自己产品的喜爱程度从而改善自己的服务,提高竞争力等。文本情感分析作为文本分类领域的一个新兴课题,对它的研究呈现出越来越多元化的趋势。通常来说,情感分析将文本分为褒贬二类,这方面的研究比较成熟,也有学者将文本信息划分地更为细致,将褒贬信息分为三类9,甚至四类10。网络上对于酒店的评论文本对于往上预定酒店的客户来说具有非常重大的决定作用,其中蕴含的情感信息也将会作为用户决定是否入住该酒店的重要依据。本文将结合主题模型LDA以及SVM等算法来对酒店评论数
12、据集进行情感分析。本文的主要内容有:(1) 文本预处理(2) 构建情感词典并抽取情感词(3) 1.DA建模(4) 使用SVM进行情感分类(5) 使用贝叶斯分类器分类第一章概述本章简单介绍情感分析的概念,分析国内外在情感分析领域的研究现状,给出本文组织结构。1.1 情感分析概述文本情感分析,又称意见挖掘(OpinionMining),是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程”;情感分析属于计算语言学,情感分析运用到人工智能,NLP,信息检索,机器学习等多个领域的知识8。如从淘宝上的商品评论分析某一件商品是好是坏,从豆瓣电影评论分析用户对某部电影的喜爱程度等。斯坦福大学通过T
13、witter分析网民在2008-2009年金融危机的心情,如下图:window=15,r=0.804g第O 7SSGaHup PollTwitter SentimentOTAen OEd4 OEW OTqaLOLuer WO6Q - 690N 60oo60&8S 60,6n4603 60-Unr69AeW I 60,4 - 60.En 60,qu.60,ue- 0lOQ 01oz ;80,oo80. da I 0 , Bo,_n :80,Unr 80 工 ew I 011)(1,1),(2;1),(3,1);(4,1),(5;1),(6,1),(7,1);(8,1)(2,2),(9,1),(W
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 lda 文本 情感 分析研究 信息管理 信息系统 专业
链接地址:https://www.desk33.com/p-1226430.html