基于Spark平台的推荐算法研究与应用.docx
《基于Spark平台的推荐算法研究与应用.docx》由会员分享,可在线阅读,更多相关《基于Spark平台的推荐算法研究与应用.docx(74页珍藏版)》请在课桌文档上搜索。
1、单位代码:10293密级:专业学位硕士论文论文题目:基于SPark平台的推荐算法研究与应用学号1218043125姓名殷明康导师童韵专业学位类别工程硕士类型全日制专业(领域)计算机技术论文提交日期2021年4月ResearchandApplicationofRecommendationAlgorithmBasedonSparkPlatformThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByYinMingkangSupervisor:Prof.Zhan
2、gYunApril2021摘要进入数据时代后,互联网上存储的数据量呈指数级增长,面对海量数据,一般搜索功能不能满足所有需求,无法充分挖掘用户兴趣。推荐系统随之诞生,它帮助用户更快地发现感兴趣的高质量信息,在用户需求模糊的情况下也能提供比搜索方式更为精准的内容。论文重点对局部相似性、近邻选择以及在协同过滤推荐中的应用展开研究。首先,基于用户对事物偏好不同的特点引出局部相似的概念,设计了用于提升数据密度的LSWSO算法,该算法从标签着手,确立了以标签因子为衡量准则的聚类算法,并利用遗忘函数解决用户兴趣漂移问题,然后借助加权Sk)PeOne算法填充矩阵,降低数据稀疏性;为了提高聚类效率,LSWSO算
3、法在SPark平台上实现了并行化方案。其次,将并行化的LSWSo算法融合基于用户的协同过滤,设计了LSWSO-USerCF算法,该算法在使用LSWSO获得相对稠密的评分矩阵后,结合用户属性计算相似度并挑选近邻集合,接着以近邻为参考对象进行预测评分和TOP-N推荐;另外,LSWSO-USerCF算法还利用LSWSO的特点提出了一种冷启动解决办法;同时,基于开发环境一致性等因素的考量,LSWSO-USerCF同样采用SPark进行并行计算。最后,开发了一个较为完备的个性化音乐推荐原型系统,将并行LSWSoPserCF算法应用于该系统的推荐模块,进一步检验算法的实用性。使用MOVieLenS和Tag
4、-GenOme数据集在SPark平台上进行实验,测试结果显示并行化LSWSO算法和并行化LSWSO-USerCF算法在大数据场景下有较好的性能表现。关键词:协同过漉,局部相似性,用户属性,SparkAbstractAfterenteringthedataage,theamountofdatastoredontheInternethasincreasedexponentially.Inthefaceofmassivedata,generalsearchfunctionscannotmeetallneedsandcannotfullytapuserinterests.Arecommendation
5、systemwasborn,whichhelpsusersfindhigh-qualityinformationofinterestfaster,andcanprovidemoreaccuratecontentthansearchmethodsevenwhenuserneedsarevague.Thethesisfocusesonlocalsimilarity,nearestneighborselection,anditsapplicationincollaborativefilteringrecommendation.Firstly,theconceptoflocalsimilarityis
6、introducedbasedonthedifferentpreferencesofusers,andtheLSWSOalgorithmisdesignedtoimprovethedatadensity.Thealgorithmstartsfromthelabel,establishestheclusteringalgorithmbasedonthelabelfactor,andusestheforgettingfunctiontosolvetheproblemofuserinterestdrift.Secondly,inordertoreducethedatasparsity,theweig
7、htedSlopeOnealgorithmisusedtofillthematrix.Toimprovetheclusteringefficiency,theLSWSOalgorithmimplementsaparallelizationschemeontheSparkplatform.Secondly,theparallelizedLSWSOalgorithmiscombinedwithuser-basedcollaborativefiltering,andtheLSWSO-UserCFalgorithmisdesigned.AfterusingLSWSOtoobtainarelativel
8、ydensescorematrix,thealgorithmcombinesuserattributestocalculatethesimilarityandselectsthenearestneighbourset,andthenusesthenearestneighbourasreferenceobjectforpredictivescoringandTop-Nrecommendation.Inaddition,theLSWSO-UserCFalgorithmalsousesthecharacteristicsofLSWSOtoproposeacoldstartsolution.Atthe
9、sametime,basedonfactorssuchastheconsistencyofthedevelopmentenvironment,LSWSO-UserCFalsousesSparkforparallelismCalculation.Lastly,arelativelycompletepersonalizedmusicrecommendationprototypesystemwasdeveloped,andtheparallelLSWSO-UserCFalgorithmisappliedtotherecommendationmoduleofthesystemtoverifythepr
10、acticabilityofthealgorithmfurther.UsingMovieLensandTag-GenomedatasetstoexperimentontheSparkplatform,thetestresultsshowthattheparallelizedLSWSOalgorithmandtheparallelizedLSWSO-UserCFalgorithmhavebetterperformanceinbigdatascenarios.KeyWordsjCoIIaborativefiltering,Localsimilarity,Userattributes,SparkII
11、目录第一章绪论1Ll研究背景及意义11.2 国内外研究现状21.3 主要研究内容51.4 论文组织结构6第二章推荐系统相关技术介绍72.1 数据挖掘72.2 相似度的计算82.3 SloPeOne算法102.4 推荐系统相关介绍112.4.1 基于内容的推荐122.4.2 协同过滤推荐132.4.3 混合推荐142.5 SPark平台介绍142.5.1 简介142.5.2 存储体系152.5.3 弹性分布式数据集152.5.4 SparkSQL162.5.5 SPark平台的优势162.6 本章小结17第三章基于局部相似性的SIOPeone算法183.1 引言183.1.1 用户特点183.1
12、.2 局部相似性183.2 标签研究与应用203.2.1 二元型标签203.2.2 标签基因组213.3 LSWSo算法模型223.3.1 基于标签因子的聚类算法223.3.2 融合遗忘函数的评分修正方法243.3.3 算法描述253.4 基于Spark平台的并行化方案273.4.1 并行化方案的必要性273.4.2 SPark平台的设计要点273.4.3 关键步骤的并行化实现283.5 实验与结果分析293.5.1 实验设置293.5.2 聚类分析293.5.3 预测分析323.6 本章小结34第四章融合LSWSO的推荐算法及其并行化研究354J基本思想354.2 基于LSWSO的USerC
13、F算法的设计与实现35III4.2.1 冷启动解决方案354.2.2 基于用户属性的相似性度量方法374.2.3 评分预测384.2.4 LSWSO-USerCF算法描述394.2.5 LSWSo-USerCF算法的并行化实现404.2.6 LSWSo-USerCF算法时间复杂度分析414.3 实验分析424.3.1 实验数据集与环境424.3.2 评价标准424.3.3 实验结果与分析434.4 本章小结45第五章个性化音乐推荐原型系统465.1 系统需求分析465.2 原型系统设计475.2.1 总体架构设计475.2.2 功能模块设计485.2.3 数据库设计495.3 推荐流程分析51
14、5.4 原型系统实现525.4.1 环境选择与配置525.4.2 详情界面展示525.5 原型系统推荐测试555.6 本章小结57第六章总结与展望586.1 总结586.2 展望59参考文献60附录1攻读硕士学位期间申请的专利63致谢64第一章绪论1.1 研究背景及意义伴随着网络的快速迭代发展以及手机等各类电子移动设备的普及,人们不仅可以随时随地通过移动设备上网获取需要的信息,而且还可以在互联网上分享各种各样的视频、音频与图片等资源,于是,网络世界塞满了越来越多的信息,人类世界迎来了数据大爆炸的时代。毫无疑问,信息的持续爆炸性增长不可避免会带来“信息过载(informationoverload
15、)”问题,即信息过于庞大导致很难从中挖掘出有价值的东西。因此,如何在错综复杂的海量信息中提炼出用户真正感兴趣的内容就变得非常重要和关键了。传统的解决方案是以搜索引擎为代表的信息检索和过滤技术,比如浏览器百度搜索入口、手机App内置的搜索功能等,这种方式靠的是人的主观能动性。使用者通过关键字进行查询,结果以分页的形式展示,尽管该方式很大程度上满足了用户的需求,但是也存在着部分缺陷。一方面,搜索后的信息量依然巨大,例如,百度查询“推荐系统立检检索到龙勺35,900,000条记录,而用户一般只关注前几条内容;另一方面,如果用户输入的文本存在表述模糊、语义不清等问题,那么搜索结果极有可能出现匹配度不高
16、甚至南辕北辙的情况。针对检索方式存在的问题,推荐系统(RecommendationSystem)应用而生。系统先收集用户在浏览网络过程中产生的显式或隐式反馈信息(比如商品的浏览记录和收藏行为等),然后通过挖掘信息找出用户潜在的兴趣偏好,理清用户项目关系,最终得到结果后推荐给用户。显而易见,推荐系统满足了人们难以文字表述的需求,通过不断的数据积累以及用户反馈,它能变得更聪明、更善解人意,从而帮助人们发掘自身兴趣;同时,它不仅能很好地挖掘出项目的多样性,而且推荐内容有时会令用户出乎意料却又非常喜欢,有足够的新颖性;另外,它还可以和信息检索结合起来,两者互为补充,增强企业应用的交互性和友好性,提高企
17、业应用与用户之间的“粘性”,实现信息消费者和生产者的双赢,成为吸引新用户、留存老用户的有力手段。1994年明尼苏达大学GroupLens研究组推出GroupLens系统,2006年NetfIiX向数据挖掘科学界提出挑战,要求开发出超过Cinematch准确性的推荐系统叫类似的研究与活动都推动着推荐系统不断向前发展,使之逐渐成为一个独立的研究领域。发展至今,涌现出了众多优秀的推荐思想,主要有关联规则、基于内容的推荐、协同过滤、混合推荐技术等,其中协同过滤是热点研究算法。目前,推荐模型已经在电子商务、社交等许多领域得到广泛的实践,典型的实际案例如AmaZOn网络购物商城、今日头条等。在大数据时代,
18、信息具有大量(Volume)高速(VeloCity)、多样(Variety)的特征,对于一个稍大些的系统,它的数据量级都是很庞大的。每一分钟,48小时的视频被上传,每天在YouTube上有40亿的浏览量;谷歌每天需要监控72亿页面,处理20PB的数据,并且还要翻译成66种语言。由此可见,在现实场景下,传统的单节点存储和计算方案都不合时宜,必须采用分布式存储与并行计算技术。SPark网是一种大数据分析引擎,特点是快速通用可扩展,它的计算核心围绕内存展开,支持多种编程语言,适用于迭代式的算法分析,容错率高且能很好地融入HadOoP生态圈,有广阔的发展空间和市场前景。当然,推荐系统也存在着较多的问题
19、。常见地,因为推荐依赖用户的历史行为数据,所以会出现未产生用户数据或偏好数据稀少等情况,解决或缓解这些问题有助于提升用户忠诚度,也有助于商家销售商品。总的来看,对推荐系统深入研究优化,具有较高的社会和经济效益,本文聚焦于基于用户的协同过滤算法,在SPark环境下采用改善稀疏性的算法,并结合时间因素和用户特征,增强系统个性化和推荐准确度。1.2 国内外研究现状从最初的助力过滤垃圾邮件到现在的个性化推荐服务,推荐系统早已渗透到了人们生活的方方面面,表1.1展现了现今推荐系统在各行业领域的应用情况。从表中可以看出,推荐系统的落地实施成果喜人,企业的良性竞争对推荐技术的进步起着推动作用。有数据显示,零
20、售业巨头Amazon收益的35%来自于它的推荐引擎,视频网站Netflix中75%的用户会根据推荐算法选择影片。到今天,推荐技术可以说是百花齐放,各种模型、优化方案层出不穷。表Ll推荐系统应用领域行业领域应用网址电子商务Amazonhtlps:WWw.amazon,com/一A-q足东https:WW社交Facebookhttps:WWw.facebook,com/知乎https:WW新闻GoogleNewshttps:/news,google,com/今日头条https:WW音乐Spotifyhttps:W网易云音乐视频YouTubehttps:WWw.youtube,com/央视频htlp
21、s:WDeepMind团队致力于深度学习的研究,2006年开发出来的AlphaGo在围棋对决中战胜了韩国九段选手李世石,一时间与AIPhaG。有关的报道层出不穷,成为当时全球轰动性的年2度大新闻;同年,YouTube从视频规模、新鲜度和噪声三个最具挑战的方面入手,发表论文公开了深度学习给视频推荐带来的喜人成果“叫这一年,国际上的推荐系统会议RecSys也开始关注深度学习,并专门组织研讨会学习。从此,推荐系统插上了深度学习的翅膀。KiranR等人为了弥补冷启动造成的误差问题,提出一种新颖的基于混合式深度学习的推荐系统神经网络DNNRectlllO该模型利用一个具有非常深层神经网络的复杂体系结构,
22、使用嵌入来学习用户和项目的非线性潜在因素,将深度学习特性和关于用户和项目的辅助信息相结合,以此来创建一个混合系统。算法可以调整学习率和权重衰减,并通过退出、正则化和提早停止来防止过度拟合。最后使用四种不同的数据集进行实验,实验将这一算法与启发式、基于邻居、基于机器学习和矩阵分解方法的大量技术进行比较,发现无论是在非冷启动还是冷启动情况下,DNNReC模型都优于现有的方法。ChengH-T等人发现在用户和项目之间的互动数据稀疏且排名较高时,带有嵌入功能的深度神经网络可能会过度概括并推荐相关性较低的项目,因此他们提出了一种既有广度又有深度的学习模型1皿。宽线性模型使用跨积特征变换记住稀疏特征交互,
23、而深度神经网络可以通过低维嵌入来生成以前看不见的特征交互,为了兼顾记忆和概括,结合这两种模型的优点创新出一种新的模型。实验从应用程序获取和服务性能两方面对新模型进行评估,结果表明,应用获取率提高的同时较少了客户端延迟。YinH等人针对空间感知个人偏好的空间动态性、冷启动性和数据稀疏性等问题,提出了一种新的POI推荐模型,称作空间感知分层协作深度学习模型SH-CDU。该模型通过异质特征的深度表征学习和空间感知个人偏好的层次加性表征学习共同完成POls的深度表征学习;为了克服空间感知用户偏好建模中的数据稀疏性,以社会规范化和空间平滑的形式利用了目标区域公众的集体偏好和邻近区域用户的个人偏好;引入一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Spark 平台 推荐 算法 研究 应用

链接地址:https://www.desk33.com/p-90243.html