基于lda的文本情感分析研究信息管理与信息系统专业.docx
摘要1前言3第一章雌41.I情感分析概述41.1主要研究内容41.1.2文本情感分析的分类51.1 .3主题模型在情感分析中的应用61.2 国内外研究现状61.3 本文内容安排7第二章数据预处理82. 1概述82.1 分词以及简繁体转换82.2 去除停用词82.3 抽取情感信息924.1情感词典的构建92.4.2抽取情感信息92. 4.3数据92.5本章小结10第三章LDA建模113. 1LDA概念113.1.1概率主题概念的提出113.1.2LDA模型123.2实验133.2.1划分数据集133.2.2数据词典133.2.3向量化143.2.4使用TFrDF作为特征值153. 2.5LDA模型训练163.3本章小结17第四章SVM分类184. 1SVM概念184.1.1 线性分类184.1.2 软间隔最大化204.1.3 1.3非线性支持向量机204.2本文中的SVC224.2.1算法描述224.3实验234.3.1特征选取234.3.2数据转换244.3.3将数据随机分为训练集和测试集244. 3.4SVM训练和预测254.3本章总结25第五章贝叶斯分类265. 1概念265.2贝叶斯定理265.2.1朴素贝叶斯265.2.2伯努利模型275.3本文中的朴素贝叶斯275.3.1算法描述275.3实验285.3.1特征选取285.3.2向量化285.3.3朴素贝叶斯分类训练285. 3.4测试286. 3.5准确率295.4本章总结30第六章总结与展望317. 1本文主要内容总结316.2存在的问题以及未来展望31参考文献33致谢34互联网的快速发展让各类社交媒体与日俱增,人们在网络上发表各种各样的评论、博客等信息。这些信息很大一部分表达了用户的情感倾向,如微博评论可能表达对某个明星的喜爱,虎扑评论可能表达对某个球队的支持和狂热,去哪儿、蚂蚁蜂窝等网站上的酒店评论集表达了客户对该酒店的喜爱程度,也侧面表达出该酒店的好坏层度。评论集这种简练却信息丰富的数据集具有重要的研究价值。情感分析,也称意见抽取、意见挖掘和倾向性分析8。主要是通过对带有情感色彩的主观性文本进行分析、处理、归纳然后进行推理的过程1。本文对酒店评论数据集进行了如下的工作:首先,整合网络上表现较好的情感词典,然后将数据集进行常见的预处理操作,包括去掉停用词等操作,根据情感词典抽取数据集中的极性词。其次,对预处理过后的文本进行LDA建模,其目的是以文档-主题分布取代文档-词矩阵,从而实现降维的效果。最后分别使用SVM和贝叶斯分类器,以LDA中得到的文档主题分布作为特征向量,来对文本进行分类。这些情感信息具有宝贵的作用,当评论非常多时,我们不可能人工地去观察每一条评论。通过情感分析,我们可以了解客户的心情,对某件事情或者物品的看法,从而挖掘其中潜在的商业价值。关键词:情感分析文本分类支持向量机数据挖掘主题模型LDA朴素贝叶斯AbstractWiththerapiddevelopmentoftheInternet,variouskindsofsocialmediaareincreasingdaybyday,andpeoplepublishvariouskindsofcomments,blogsandotherinformationontheInternet.Alargepartofthisinformationexpressesauser'semotionaltendencies,suchasamicro-blogcommentthatmayexpressaloveforastar,thetigerreviewmayexpressthesupportfanaticismofateam,wherethehotelreviewsonsitessuchastheanthoneycombexpressthedegreeofcustomerloveforthehotel.Commentingonthisconcisebutinformativedatasethasimportantresearchvalue.Affectiveanalysis,alsocalledopinionextraction,opinionminingandtendentiousnessanalysis.Itismainlythroughtheanalysis,processing,inductionandreasoningprocessofsubjectivetextwithemotionalcolor.Thispaperhasdonethefollowingworkforhotelreviewsdataset:First,agoodemotionaldictionaryonthenetworkisintegrated,andthenthedatasetisusedforcommonpreprocessingoperations,includingtheremovalofthedisusewordsandsoon,andthepolarwordsinthedatasetareextractedaccordingtotheemotionaldictionary.Secondly,LDAmodelingofpreprocessedtextisaimedatreplacingdocumentwordmatrixwithdocumenttopicdistribution,soastoachievetheeffectofdimensionalityreduction.Finally,SVMandBiasclassifierareusedrespectively,andthedocumenttopicdistributioninLDAisusedasthefeaturevectortoclassifythetext.Theseemotionalinformationisvaluableandveryimportantaswell.Whencommentsareverylong,itisimpossibleforustoobserveeverycommentmanually.Throughemotionalanalysis,Wecanunderstandthecustomers*mood,theviewsofacertainthingoritem,andtapthepotentialcommercialvalue.Text Classification SVM Data MiningKeyWord:SentimentAnalysisTopicModelLDANaiveBayes互联网的发展让人们不再以以往的“读”的方式访问网络,随着各类开放式平台的兴起,用户开始在互联网上发表自己的评论和见解。即从原来单纯的“读网页”向“写网页”发展。由用户发表的网络文本,包含了大量的信息。通过淘宝上的评论,人们决定是否购买某类商品,通过微博上的评论信息,我们可以得知用户对于某件新闻事件的看法。而在这些文本所蕴含的信息中,情感信息可以表达用户对事件的主观感受,具有非常重要的潜在价值。文本情感分析指的是对于包含用户观点、喜好、情感的文本进行检测、信息抽取、分析和挖掘的过程。利用这些信息,消费者可以理解其他消费者对商品的态度、商店可以了解消费者对自己产品的喜爱程度从而改善自己的服务,提高竞争力等。文本情感分析作为文本分类领域的一个新兴课题,对它的研究呈现出越来越多元化的趋势。通常来说,情感分析将文本分为褒贬二类,这方面的研究比较成熟,也有学者将文本信息划分地更为细致,将褒贬信息分为三类9,甚至四类10。网络上对于酒店的评论文本对于往上预定酒店的客户来说具有非常重大的决定作用,其中蕴含的情感信息也将会作为用户决定是否入住该酒店的重要依据。本文将结合主题模型LDA以及SVM等算法来对酒店评论数据集进行情感分析。本文的主要内容有:(1) 文本预处理(2) 构建情感词典并抽取情感词(3) 1.DA建模(4) 使用SVM进行情感分类(5) 使用贝叶斯分类器分类第一章概述本章简单介绍情感分析的概念,分析国内外在情感分析领域的研究现状,给出本文组织结构。1.1 情感分析概述文本情感分析,又称意见挖掘(OpinionMining),是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程”;情感分析属于计算语言学,情感分析运用到人工智能,NLP,信息检索,机器学习等多个领域的知识8。如从淘宝上的商品评论分析某一件商品是好是坏,从豆瓣电影评论分析用户对某部电影的喜爱程度等。斯坦福大学通过Twitter分析网民在2008-2009年金融危机的心情,如下图:window=15,r=0.804g第O 7SSGaHup PollTwitter SentimentOTAen OEd4 OEW OTqaLOLuer WO6Q - 69>0N 60oo60&8S 60,6n4603 60-Unr69AeW I 60,4 - 60.En 60,qu.60,ue-> 0lOQ 01>oz ;80,oo80. da I 0< , Bo,_n :80,Unr 80 工 ew I 01<orc 80,q8ll. 80ue图LlTWitter用户情感1.1.1 主要研究内容情感分析一般包括几个步骤,即情感信息的抽取、情感信息分类以及情感信息的检索与归纳1。情感信息抽取即抽取文本中能表达情感的信息,带有情感倾向的词语称情感词,比如:喜欢、讨厌、恶心等表达用户情感的词语。目前对情感词的抽取主要有两种方法,一种基于语料库,另一种基于词典。前者挖掘语料库中的评价词语判断其极性,但往往只适用于形容词而且过于依赖用来迭代的“种子”词集,同时评价词语在语料库中的分布也很难获取。而后者使用词典中词语之间的词义联系来挖掘评价词语。由于词语的多义性,用种子词集扩展评价词语的方法容易引入噪音。对于词典稀少的非英语语言,有学者通过将英语极性词典翻译成该语言的方法来构建极性词典,以供情感分析使用,但由于翻译中存在一词多义性,翻译过后的词的极性也许会改变,所以可能会存在较大的误差,在这种极性词典的构造中可以通过误差的消除来增加精确度。德黑兰大学的MohammadrezaShams等人通过将英语词典翻译成波斯语,并且通过迭代方法纠正翻译中的错误,构建极性词典,最后使用一种基于LDA的无监督情感分析方法来进行分类,得到了不错的分类结果7。情感信息的分类包括两种,主客观信息分类和主观信息分类。主客观信息分类即将文本分为主观信息和客观信心两类,其依据是文本中是否包含情感信息。主观信息分类即对情感的分类,通过各类分类器将情感文本分类为褒贬,或者其他更多的类别。情感信息的检索与归纳,即检索时,不仅检索包含用户主题的文档,也检索包含情感信息的文档。在搜索过程中,搜索所得到的结果不仅依据传统的信息检索模型,并且对文档中进行主客观识别,对文档表达的情感打分,再结合文档相关性来对检索结果排序。1.1.2 文本情感分析的分类按照应用领域的不同,可以将文本情感分析技术分为基于产品评论的文本情感分析基于新闻评论的文本情感分析1。根据文本的不同粒度,文本情感分析可以被划分为词语级、句子级、篇章级和海量数据级:(1)词语级:指对文本中的情感词进行抽取,根据其情感倾向进行分类。(2)句子级:(a)根据句子中的情感信息,将句子划分为主观句和客观句;(b)如果是主观句,则抽取其中的极性词,根据极性词来判断句子整体的极性,从而进行情感分类。(3)篇章级;可以把篇章级的文本情感分析看成多个句子级的文本情感分析任务的综合,由于一篇文章中不同句子极性可能相反,既含褒义句也含贬义句,所以篇章级别的情感倾向比较难处理。(4)海量数据级从互联网上抓取大量关于某个产品、新闻等的主观文本,对它们进行情感分析,挖掘人们对这些产品或新闻的态度。1.13 主题模型在情感分析中的应用用户在查看某一产品的评价时,往往更加关注的是该产品在某些特征。例如用户查看iPhone的评论数据时,关注的特征是性能、屏幕、续航、电池等。用户的评论通常围绕着这些评论进行。如“屏幕很大,但是续航不太行”。主题模型在评论文本中抽取隐含的主题信息,分析用户对主题的偏好,在文本情感分析领域常常会取得意想不到的效果。1.14 内外研究现状情感分析领域比较系统的研究工作开始于Pang等人对电影评论集进行情感倾向分类的研究6。在此之后陆续越来越多的学者开始在情感分析领域进行研究,但目前的研究大多数依旧是使用文本分类中的机器学习算法。当然,文本情感分析也可以被看成一种特殊的文本分类,即以情感极性为类别,将文本分类到各个极性类别中。但事实上,情感分析和文本分类最大的不同是文本的情感信息和语义相关。目前为止,基于监督学习的机器学习方法在情感分析领域较为成熟。近年来,文本挖掘领域的热点逐渐转移到了主题模型(ToPiCModel)o主题模型主要包括两类:PLSA(Probabilisticlatentsemanticanalysis)和LDA(latentDirichletallocation)oPLSA起源于Deerwester等人于1990年提出的潜在语义分析(LatentSemanticAnalysis)模型。该模型用SVD来对词-文档矩阵进行降维,然后抽取文档与词语之间的潜在语义关联。当文本数据非常大时,SVD的迭代计算特性会让计算非常困难。LSA存在一系列缺点,为了解决这些问题,Hofmann等人于1999年提出PLSA模型。该模型将“潜在语义关联”明确提出,并称之为“主题”,又使用概率统计的思想,从而避免了SVD的复杂计算。2003年,Blei等人提出了LDA模型,事实上,该模型是PLSA模型的“贝叶斯”版本。在PLSA模型中,参数是固定的未知常数,虽然未知,但是我们知道它是一个确定的值,但在LDA模型中,参数是随机变量,是无法确定的,它服从一定的分布,在LDA中,我们主要关注这样的变量的分布。1.15 文内容安排论文全文分为六章:第一章主要介绍情感分析的概念、国内外的一些研究现状以及进展、各种方法的不足和优点。第二章将会对酒店评论数据集进行数据预处理,具体包括分词、去除停用词、抽取情感词等。第三章论述LDA的具体概念以及如何使用LDA进行建模第四章将会使用SVM分类器进行情感分类第五章将会使用贝叶斯分类器对文本进行情感分类第六章总结本论文研究内容,并对可能的研究方向进行展望。第二章数据预处理2.1 概述评论数据集中的数据无法直接用于LDA的建模以及分类器的分类,在进行实验之前必须进行预处理操作,将数据转换为可操作的格式。除此之外,对数据中的无关数据以及噪音的清理会显著地提高建模效率以及分类效果。对数据进行预处理是所有文本分析任务必须经历的一步。2.2 分词以及简繁体转换与英语文本不同,中文中每个单词之间并没有空格隔开,因此在进行中文自然语言处理时,通常需要先进行分词操作。分词即把一个汉字序列变成一个个单独的有意义的词汇的过程。目前常用的分词工具有:(1)哈工大分词器LTP(2)清华大学THULAC(3) HanlP分词(4)结巴分词工具本文选取结巴作为分词工具。在使用结巴分词前先使用snownlp对文本进行简繁体的转换。2.3 去除停用词停用词通常被认为是对信息检索、文本分类等操作没用的词,如英语中的“the”、“that”,中文中的“的”,“了”,“在”,以及一些符号和数字等。它们在文档中出现的频率极高却没有什么实际意义,忽略掉这些词能够提升检索的效率。本文所用停用词集来自于哈工大停用词词库和百度停用词表,去重后整理而成。在对文本进行分词后,对每篇文档,都与停用词集进行差操作从而得到去除停用词的数据集。2.4抽取情感信息2.4.1 情感词典的构建情感词即表达情感倾向的词语。情感词典即由表达情感信息的词构成的词的集合。目前情感词典多为英语,但也有不少学者构建了中文词典。由于单一的中文情感词典容易造成词汇遗漏,本文选取了目前表现较好的三种情感词典:(1) HowNet极性词典。(2)台湾大学NTUSD-简体中文情感极性词典。(3)清华大学的中文褒贬义词典。抽取这三种词典中中的所有词,并进行去重,得到一个整合的大词典。2.4.2 抽取情感信息即从数据集中过滤掉客观信息,抽取主观情感信息。情感信息的抽取一般分为基于词典和基于语料库两种方案,本文采用基于词典的方法抽取情感词。其主要操作步骤为:(1)遍历数据集,对于每篇文档分词后构成的词向量蚌,将它与情感词典D进行匹配。(2)若匹配成功,则抽取匹配到的单词,作为这篇文档的新的词向量。(3)若匹配失败,则该文档的词向量不变。2.4.3 数据原始数据服务态度极其差,前台接待好象没有受过培训,连基本的礼貌都不懂,竟然同时接待几个客人;大堂副理更差,跟客人辩解个没完,要总经理的电话投诉竟然都不敢给。要是没有作什么亏心事情,跟本不用这么怕。分词后服务态度极其差,前台接待好象训,连基本的礼貌都不懂,竟然没有受过培同时接待几个客人;大堂副理更差,跟客人辩解个没完,要总经理的电话投诉竟然都不敢给。要是没有作什么亏心事情,跟本不用这么怕。去除停用词服务态度极其差前台接待好象没有受过培训基本礼貌不懂竟然接待几个客人大堂副理更差客人辩解没完要总经理电话投诉竟然不敢没有作亏心事情跟本不用怕抽取情感词极其差没有礼貌不懂竟然更差辩解没完投诉竟然不敢没有亏心事跟本不用怕表2.1数据示例可以看到在经过数据处理后,数据的形式不仅更加容易处理,而且其情感信息更加突出,极性更加明显。2.5本章小结数据预处理是各类文本分类、回归任务的第一步,数据预处理的有效形直接影响后续操作的准确度。本章通过简单地分词、去除停用词等操作获取可用于LDA建模的数据集合,然后整合目前效果比较好和全面的三个情感词典构建本次实验使用的情感词典,最后根据情感词典抽取数据集中的情感词,从而使得数据集中每篇文本的极性更加突出。3.1 第三章LDA建模3.2 1.DA概念3.2.1 概率主题概念的提出海量文本的出现对文本处理提出了更高的要求,产生了以LDA、PLSA等为主的概率主题模型。在这类模型中,主题是一个抽象的概念,它表示一个潜在的语义主旨。通过将文档一词分布转换到文档主题以及主题一词分布,主题模型的建模实质上是一个降维的过程,将原来高维的单词空间降维到相对较小的主题空间。我们可以看看人们是如何构思文章的。如果我们要写一篇文章,不管我们有意还是无意,其中总是会包含一个或者多个主题。譬如构思一篇信息检索的文章,可能30%关于自然语言处理,20%关于文本分类,30%关于概率统计等。这些主题中每个主题都有很多我们可以联想到的词:自然语言处理:语法、句子、词典、倒排索引、索引压缩概率统计:均值、方差、马尔科夫链、分布.文本分类:支持向量机、朴素贝叶斯、伯努利模型、k近邻因为我们在写关于这些主题的文本时,我们频繁地使用这些词,所以我们可以联想到它们。基于这样的想法,原先用词的分布来描述的文档可以用主题的分布来描述。即一篇文档(DoCUmem)由多个主题(Topic)混合而成,而每个主题都是词汇的概率分布,文档中每个词的生成过程为从主题中选取一个,然后从该主题中选取一个词。以数学为例,一个简单地例子如下图3.1:图3.1示例1文档1是主题的分布,而每个主题又是单词的分布。这种思想在Hoffmn于1999年提出的PLSA(ProbabilisticLatentSemanticAnalysis)中进行明确的数学化。PLSA生成过程为:P(ZId)P(wz)图3.2PLSA生成过程(1)M表示文档数,N表示单词数(2)文档d选择主题Z服从多项分布,主题Z选择W也服从多项分布生成模型:P(worddocy)=(3.1)WP(wordtopic)*P(topicdocy)topic其中P(WOrdltOPiC)和P(topicdoc)属于模型变量。3.1.2LDA模型1.DA主题模型被称为贝叶斯版的PLSA模型,它是一个分层的贝叶斯模型,三个层次分别为文档、主题和词。与PLSA模型不同的是,在PLSA中参数虽然未知,但是它是一个固定的概率值,但在LDA中参数不是一个可求的固定值,而是一个分布。例如PLSA模型中,主题分布和词分布可以是唯一确定的,主题分布可以明确指定为MathO4,geography:0.3,ChineSe:0.3。但在LDA中,主题分布和词分布不是唯一的,我们无法确切给出,例如主题分布可能是Math:0.1,geography:0.1,Chinese:0.8),也可能是Math:0.4,geography:0.5,Chinese0.2o我们不能确定主题分布的确切值,但可以指出主题分布的范围,即主题分布也服从一定的分布。主题分布以及每个主题的词分布由Dirichlet先验随即决定。1.DA模型生成过程为:1 .按照先验概率p(di)选择一篇文档di2 .由超参数生成一个主题分布Oi3 .从主题分布。i中取样生成文档&第j个词的主题ZiJ4 .由超参数B生成主题Zij对应的词语分布5 .从词语的多项式分布中采样最终生成词语37可以看出,LDA在PLSA的区别在于,LDA在计算主题分布和词分布加上了两个Dirichlet先验。3.2实验1.DA模型的实现有非常多的版本,其实现也相对简单,本文算法均采用Python语言,使用gensim对数据进行LDA建模。3.2.1 划分数据集对经过数据预处理的所有数据,先随机打乱,然后取前900条negtive数据,前900条POStiVe数据作为训练集,其余作为测试集。共有PoStiVe和negtive数据集各IOoO篇文档。3.2.2 数据词典针对训练集中的数据构建数据词典,词典的表现形式为:1684-'不小心1339一些471103一再31282一厢情愿21358一口1464一塌糊涂3833一如既往6252一定671116一尘不染21617一律2820一无是处1358一气呵成11557一加171284一清二楚284一点112913一点点12720一肚子气2857一致485一般231图3.4词典其中,第一列为词项ID,第二列为词项,第三列为词项频率本文训练集所构建的词典共1800条词项目。3.2.3 向量化即使用训练集中的数据以及上一步中生成的词典进一步生成向量化的词袋。在这一过程中,词的顺序被忽略,每篇文档被表示成tuple的组合的形式,在每个tuple中,key为词的ID,VaIUe为该词在本篇文档中出现的次数。截取corpus部分打印出来如下图:(e>1)>(1,1),(2;1),(3,1);(4,1),(5;1),(6,1),(7,1);(8,1)(2,2),(9,1),(W,1),(11,1),(12,1),(13,1),(14,1),(15,2),(16,1),(17,2),(18,1),(19,1)(2,1),(6,1),(15,1),(20,1),(21,2),(22,1),(23,1),(24,1),(25,1),(26,3),(27,1),(28,1),(29,1)(15,1),(24,1),(30,1),(31,3),(32,1),(33,1),(34,1),(35,1),(36,2),(37,1)(15,1),(24,1),(36,1),(31,3),(32,1),(33,1),(34,1),(35,1),(36,2),(37,1)(36,1),(38,1),(39,1)(12,1),(15,1),(18,1),(30,1),(31,1),(33,2),(36,3),(40,1),(41,1),(42,1),(43,1),(44,2),(45,1),(46,2),(47,1),(48,1),(49,1),(5,1),(51,1),(52,1),(53,1),(54,1),(55,1),(56,1),(57,1),(58,1),(59,1),(60,1),(61,1),(62,1),(63,1),(64,1),(65,3)>(66,1)(15,1),(36,1),(67,1),(68,1),(69,1),(70,1)(15,1),(21,1),(36,2),(53,1),(71,1),(72,1),(73,1),(74,1),(75,1),(76,1),(77,1),(78,1),(79,1)(15,1),(63,1),(8,1),(81,1),(82,1),(83,1)(8,2),(36,1),(4,1),(46,1),(67,1),(68,1),(84,1),(85,1),(86,2),(87,1),(88,1),(89,1),(9,1),(91,1),(92,1),(93,1),(94,1),(95,1),(96,1),(97,1),(98,1),(99,1),(1W,1),(W1,1),(12,1),(103,1),(IM1),(期,1),(106,1)每篇文档被表示成一个list,该list包含多个tuple,每个tuple为termID,frequency这样的形式。3.2.4 使用tfidf作为特征值使用词项频率(tf)作为特征值有时会不太准确,有时候一篇文档中某个单词出现的次数非常多,但其实它对整篇文档的分类帮助很小,比如常见的停用词,在一些特殊情况下的术语等。如酒店评论集中的“酒店”、“服务”等词,音乐数据集中的“音调”、“五线谱”等词。本文采用tfidf(词频-逆文档频率)作为词项权重代替tf(词项频率)。词项频率即一个单词在某一篇文档中呈现的频率,文档频率表示呈现过某个单词的文档的个数。一般来说,一个词语的文档频率越低,词项频率越高,就越能代表该文档,这样的词对文本分类来说就更重要。idf的计算公式为:Nidf=log(3.2)tf-idf计算公式为:tf-idf=tf×idf(3.3)转化过后的COrPUS为(截取部分数据):(,3908543314061557),(1,.274063953432442),(2,.2253562792123S65),(3,0.5348985949062285),(4,.38397017607839146),(5,0.3856524851581557),(6,.1205165708944511),(7,0.294112346822147),(8,.254640138524313)(2,0.238959880409849),(9,.4577092965806774),(10,0.22586204424576717),(11,0.31331342195544304),(12,.2326352161911786),(13,.18412227582620427),(14,.257514154233473),(15,.14991750119143113),(16,.2340863166121538),(17,0.36322567904941155),(18,.10688638375757),(19,.45779296586774)(2,0.196917517598866),(6,.102l438893376),(15,.11963524560279355),(20,0.11716445638362212),(21,.2824964336254206),(22,.26418972874790964),(23,0.26494352442334),(24,.371289155627986),(25,.17115172873982104),(26,.29738470l5375135),(27,0.3784115547969146),(28,.1929991216212177),(29,.5193388751264862)j(15,0.087689396414233),(24,0.2721449e39975),(3,.17282998399629168),(31,.5285554058422931),(32,.335859196433153),(33,.9315494805184805),(34,0.3983651465230785),(35,.4866158595395894),(36,.84742348777213),(37,0.2913l23275662)(15,0.087689396414233),(24,0.2721449000039975),(3,0.17282998399629168),(31,0.5285554058422931),(32,0.3358591964033153),(33,09315494805184805),(34,0.3983651465230785),(35,.4866158595395894),(36,0.08474234870772013),(37,0.29130123275662)(36,0.611477278945673),(38,0.6317962008433954),(39,0.7727238170858047)(12,0.14161575453045738),(15,0.04563083870884575、,(18,0.0650631598320533),(30,.08993535645445573),(31,0.916812729890204),(33,0.09694988409787761),(36,0.06614592990398115),(40,0.09670412458676783),(41,0.21294760154311546),(42,0.16212976839191803),(43,0.1515841151969968),(44,0.30789984857116726),(45,0.11577301847826896),(46,0.08717727455003123),(47,0.16063334355992664),(48,0.18188793448673354),(49,0.028148081365956316)«(50,0.18460453398371132),(51,0.19072828867804684),(52,0.2196310208174585),(53,0.1504561087217707),(54,0.10193010417403388)1(55,0.11093206326163503),(56,0.12036116360365051),(57,0.1706934622667118),(S8,0.27862869807499036)1(59,0.11208369675536389、,(60,.18188793448673354),(61,0.09258643793946497),(62,0.10665646719845855、,(63,0.06e779S18S79825S),(64,0.125047192146172),(65,0.5182626476S178),(66,0.1591956174081126)(15,0.21595957083369122),(36,0.10435082237260453),(67,0.2840593467764331),(68,0.4810166873353236),(69,0.647662674132S32),(70,.46l2472S126S28)3.2.5 与使用词项频率作为权重类似,使用tf-idf作为权重后的每篇文档的向量表示依旧由多个tuple构成,只不过每个tuple变成了ID,tf-idf的形式。3.2.6 1.DA模型训I练根据上文得到的向量以及词典构建LDA模型,选取其中前15个主题的词项分布如下:(e,0.07*"4<fH"+.043,"if干净"+e.ei8服务"÷e.i3"1ai+e.ei2"O"+0.i2(f"*e.ei2.012""+.011-rtif)(1,.25-IH"+0.ei8到-+.017"½+0.015”不要"+0.O14f0.014"不到"+0.013Ir没在"+e.i2"½+.i2"")(2,e.24tf"+e.22*"i'W+.i7*"fir+o.i7-fcj-+e.ei5三"+e.eu-ft"+e.ou”热态-+e.en"il"+e.ee"+e.eft,)(3,.l9"Zf"+0.018“认为“+0.017"麻娘“÷0.ei7,"H"+.16,"+0.ei6wl-+e.l5"S'+.014""+.ei2""0.l2it")(4,0.026-"+0.022*F'公"+0.019"W"+0.014*-jXt11'+O.W齐全”+0.012,-实惠.+0.012""标准"+0.012”冷"+.012""i½"+0.011,“好(5,e.ei7-tftt+0.e"+e.ei0"if"+e.e.要-+e.ee"没有"+e.ew大"+e.ee*½'+e.ee"H"+.010-"+0.ee"t")(6,'0.023*“这样"+0.021,h+0.015”不过"+0.012”好-+喀朵"+0.011*fll'+0.011*"¾"+0.011*