基于细粒度用户可靠性的众包任务分配研究分析工商管理专业.docx
《基于细粒度用户可靠性的众包任务分配研究分析工商管理专业.docx》由会员分享,可在线阅读,更多相关《基于细粒度用户可靠性的众包任务分配研究分析工商管理专业.docx(36页珍藏版)》请在课桌文档上搜索。
1、前言3第1章绪论411J)IJ.正页;111.2 国内外研究现状及挑战41.3 本文的主要工作及创新点4第2章相关技术和研究工作72.1 众包基本特征72.1.2与外包区别72.2 众包工作流程823)iJIj82.2.1 AmazonMechanicalTurk82.2.2 科研领域应用9旦.fjlS*12.4.1 低质量结果产生的原因102.4.2 相关工作115J-1一*11第3章问题抽象与模型建立13第4章算法研究154.1 共聚类可靠性矩阵154.1.1 基于用户回答准确率的任务聚类154.1.2 计算共聚类164.2 预1贝!目K任务正确答案.,164.2.1 朴素贝叶斯相关的统计
2、学知识164.2.2 朴素贝叶斯模型174.2.3 3预贝!目K任务答案.,.17第5章实验与对比225.1 模拟仿真5.1.1 贝塔分布5.1.2 狄利克雷分布5.1.3 模拟用户作答5.1.4 分析预测结果5.2 相关预测方法5.2.1 majorityvoting5.2.2 weightedvoting5.3 方法对比5.3.1 k折交叉验证.5.3.2 对比结果5.4 本章小结第6章总结与展望6.1 本文总结6.2 后续工作展望.22.22.22.23.23.25.25.25.26.26.26.29.30.30.30.32.346.3 致谢摘要众包(CrOWdSoUrCing)计算模式
3、因其自身优势,近年来被学术界视为一种高效大规模数据集收集方式。但是,由于众包用户自身能力所限,不同用户提供的答案可能存在不合理的情况。因此,如何将收集到的用户答案进行整合,来推断任务的正确答案,是一项关键问题。己有的真实答案预测方法通过挖掘用户可靠性和任务话题之间的相关性来解决这一问题。但是,己有研究仅在有限的任务上起作用,对标准数据集的利用不充分,对于有些任务不兼容。为了考虑兼容性,我们认为任务和用户都存在聚类,进而提出了一个通用的细粒度方法。该方法包括两个方面:建立共聚类和基于共聚类可靠性模型的真实答案预测机制。首先,基于用户对标准任务的回答,利用特定的聚类方法得到用户聚类、任务聚类,建立
4、共聚类可靠性模型。然后对于一系列答案未知的目标任务,根据学习得到的模型,将收集到的用户答案以特定的方式组合,预测出目标任务的真实答案。通过理论分析,我们证明了本论文提出的方法适用性强,可以更好的表达用户和任务之间的关系。同时,实验表明,我们的方法可以对目标任务得到更为精确的估计。关键词:众包;共聚类模型;答案预测;标准任务AbstractCrowdsourcinghasbeenregardedasaveryefficientandpromisingmethodtocollectlargedatasetsinrecentyearsduetoitsnativeadvantages.Unfortun
5、ately,theanswersprovidedbyworkersofcrowdsourcingarenotalwaysreasonablesincethevariationabilitiesofworkers.Sohowtointegratethecollectedanswerstoinferthetrueanswerofthetargettasksisacriticalissue.Existingstate-of-the-arttruthdiscoverymethodssolvetheproblembyexploringthecorrelationbetweensourcereliabil
6、ityandtasktopics.However,theabovemethodscanonlyworkwellinlimitedtasks,sincetheyoftendonotmakefulluseofglobaldatasets.Weconsiderthatbothtasksandsourcesexistclustersandproposeageneralfine-grainedmethod,whichcanmaintaincompatibility.Themethodincludestwoaspects:buildingco-clusterreliabilityanddiscoverin
7、gtrueanswer.First,basedonanswersforstandardtasks,wecancalculatethesourceclustersandtaskclustersthroughspecificalgorithmsothatco-clusterreliabilitymatrixcanbebuilt.Thenforaseriousoftargettasks,wecollectworkers,answersandaggregatethem,makingfulluseofthepattern,toproducetheestimation.Throughthetheoreti
8、calanalysis,ourapproachiscompatiblewithvarioustasks.Itcanbetterdescribetherelationshipbetweenworkersandtasks.Atthesametime,weshowthatourmethodcanproduceamoreaccurateestimationthroughextensiveexperimentalresults.Keywords:crowdsourcing;co-cluster;answerestimation;standardtasks随着互联网的不断发展,众包这种新的生产组织形式应运
9、而生。企业为了有效地解决技术问题或者是发现创意想法,利用互联网发布各种任务。而网络大众里,有些人是兴趣驱动,有些人是利益驱动,利用自己的时间,通过网络这一媒介,来完成企业发布的任务。众包提供了i种全新的组织大量劳动力的方式,对于软件业和服务业尤其有用。本文介绍了众包模式以及众包的广泛应用,包括一些众包平台和众包在科研领域的应用,同时也提出了该模式存在的问题,指出众包的质量控制是一项值得科研工作者去研究探讨的问题,进而提出了本文的众包模式学习方法,通过有效的将用户和任务进行聚类,学习用户类和任务类之间的可靠性,更加有效准确地解决任务,此方法具有良好的通用性。本文完成的主要工作及创新点有:(1)介
10、绍众包模式以及众包的工作流程,列举了一些众包平台和众包在科研领域的应用,阐明了众包的研究价值,同时提出了众包模式中存在的问题。(2)提出用户和任务分别存在聚类,将用户集和任务集分别聚类。同时学习用户聚类和任务聚类,得到共聚类可靠性模型,从而得到比现有方法更为通用的模型。(3)利用学习到的共聚类可靠性模型,结合朴素贝叶斯的思想,采取特定的算法,得到对目标任务序列的真实答案更为精确的估计。(4)我们通过在真实的数据集上进行实验,将该方法和现有基本方法的效果进行对比与分析,验证了该方法的有效性。第1章绪论本章首先介绍了众包的研究背景和意义,然后简单介绍了众包国内外研究现状,其次,概述了本文所做的主要
11、工作以及创新点,在本章的最后介绍了这篇论文的组织结构。1.1 研究课题的提出近年来,产生大规模数据集对于研究和工业应用都有着巨大的价值。传统的策略大多是雇佣对相关领域感兴趣的专家,但想要收集大规模的数据,几乎是要付出很大代价且几乎不可能实现的。因此,众包服务,像AMT(AmazonMechanicalTurk)或者CrOWdFk)Wer,通过将将任务分发给全世界的用户,来收集数据集。1.2 国内外研究现状及挑战由于众包在提供大规模数据集时有着很好的有效性,因此它越来越受欢迎。用户不一定要是领域专家,任务也通常不止分发给一个用户,这导致了用户们的答案质量往往是参差不齐的。因此,如何聚集用户答案来
12、推断任务的真实答案是众包领域的一个关键性挑战。一个直观的解决方法是最大值投票法,该方法将被最多数目的用户选择的答案作为最终的真实答案。但是,它没有考虑到一个问题,用户之间的可靠性是参差不齐的当低质量的用户数目比高质量用户数目还多时,这种方法得到的结果并不理想。为了解决这个问题,一系列加权投票的方法被提出,这类方法的宗旨是给有着更高可靠性的用户赋予一个更大的权重,从而该用户所给出的答案对于最终答案的影响因子也更大。然而,这些方法的一个共同特点是,均假设一个用户对于所有任务的可靠性是一致的。其实这是不合理的,因为任务类型是各种各样的,每个用户也都有自己所擅长的任务类型。1.3 本文的主要工作及创新
13、点本文首先介绍了众包是什么,众包模式是如何工作的,我们研究众包的意义和价值体现在哪,同时提出了众包模式中的存在问题,为此,提出了本文的解决方案,也是本文的核心问题。我们充分利用了每个事物都有其代表特征这一想法,认为用户之间存在用户聚类,任务之间存在任务聚类。同一类任务或者同一类用户享有同样的模式而不考虑他们之间的差异性。比如说,一个用户聚类共享的模式是该用户聚类对于各种任务聚类的可靠性。更具体的说,一个用户对于不同的任务类型有着不同的可靠性,但是,我们认为对于一个特定的任务聚类,属于同一个用户聚类的用户们的可靠性是相同的。虽然我们清楚,每个用户都是独一无二的,对于同一任务的认知或者说是可靠性不
14、可能完全相同,但我们将最为相似的用户聚集在一起而不考虑他们之间的细微差别。对于任务来说,也是同理,我们将最为相似的任务聚集在一起而不考虑他们之间细微差别。利用聚类的想法,可以使我们的方法有着更好的通用性和有效性。因此,我们首先学习用户聚类和任务聚类,得到共聚类可靠性矩阵,然后基于该模式,分别通过随机选择一定个数的用户,和基于用户标签及共聚类可靠性矩阵选择用户,来回答目标任务,通过特定的算法获得任务的正确答案推断。在本文中,我们首先引入标准任务,即拥有标准答案的一类数据。用户首先对给定的标准任务进行作答,根据作答情况,得到用户特征,采用k-means算法的思想对用户进行聚类,然后计算出任务特征,
15、采用类似的思想对任务进行聚类,学习到用户聚类和任务聚类以后,计算得到共聚类可靠性矩阵,代表同类用户与同类任务的相关性。然后根据学习到的模型,利用朴素贝叶斯算法的思想,预测目标任务的真实答案,获得对目标任务更加精确的推断。最后,通过在模拟仿真实验以及在真实数据集上进行实验,和基准方法进行对比与分析,验证了该众包方法的有效性。1.4 本文的组织结构本文共分为六个章节,各章的内容安排如下:第一章:绪论。本章简要地介绍了众包的研究背景以及众包的研究价值,同时也介绍了国内外现有的众包研究现状,指出解决众包的质量控制问题的必要性,进而提出了本文的主要工作和创新点。第二章:相关技术和研究工作。本章首先详细介
16、绍了众包的工作流程和一些众包平台,同时介绍了众包在科研领域的应用,并指出了众包研究中的一项关键问题一一众包质量控制问题。第三章:问题抽象与模型建立。本章对众包工作流程进行抽象,介绍了该众包模式的理论模型,给出该问题的形式化定义。第四章:算法设计。本章首先利用聚类算法的思想,给出获得用户簇、任务簇以及共聚类可靠性模型的算法。接着,利用朴素贝叶斯算法的思想,对于答案未知的目标任务,结合已有的用户簇、任务簇和共聚类可靠性模型,推断目标任务的正确答案。第五章:实验与对比。本章首先通过仿真实验,展示了在用户规模不同、用户质量不同时该算法得到的结果对比。然后,基于真实的数据集,将设计的算法与两个基准方法所
17、获得的预测答案准确率进行对比,分析该方法的有效性。第六章:总结全文,提出未来工作的设想与展望。第2章相关技术和研究工作所谓众包(CrOWdSOUrCing),是指一个公司或者组织(requester)把需要执行的工作任务(tasks)分解成合适的规模(microTaSkS),借助于众包平台(例如AmazonMTurk或CroWdFloWer等)进行发布,互联网用户(CroWdS或WOrkerS)可以自愿选择来完成这些任务,当然,这些用户对于公司或组织来说是匿名的,完成任务以后这些用户可以获得相应的奖金。这些任务通常由一些简单操作就可完成,比如判断一句话的表述是否合理,将图片进行分类等。本章详细
18、介绍了众包的特征,众包是如何工作的,众包的应用,列举了一些众包平台,然后介绍了众包模式中存在的问题。2.1 众包基本特征2.1.1 基本特征众包的基本特征包含:(1)计算机自身通常难以解决众包中的任务;(2)通过公开的方式发布一些任务,传递并召集互联网上的大众群体;(3)大众用户独自完成任务,或者协作完成一些任务;(4)是一种分布式的问题解决机制。2.1.2 与外包区别外包(outsourcing)是指企业将非核心业务委派给专业的外部公司(往往是因为人力资源有限,并且想要保持住企业组织的核心力量),从而减少成本,凝聚了人力资源,提升了企业效率和形象。众包和常规意义上的外包不同,众包的任务分配给
19、的大众网络用户具有不确定性,而外包则是将任务给确定的个体来完成。此外,外包非常注重外包对象是否专业,而众包更注重自由发挥和创意,有一定的随机性。最关键的区别在于,外包的合同双方通常不是匿名的,是基于一定的契约精神的。发布者和完成者对于对方的背景、资历等都具有充分的了解才可以确定合作合同,任务实现的媒介也未必是网络平台。而众包的用户对于任务发布人来说,是不知道具体个人信息的,众包平台提供的有限数据就是彼此之间的所掌握的信息。这可能会导致一些众包质量控制问题,比如恶意欺骗。尽管如此,众包还是有其独特的优势。众包的特色就是“众”,集大众的力量,解决大规模的、枯燥的、重复性的任务。2.2 众包工作流程
20、众包领域的研究的主要包含了三个方面的问题,分别是众包的任务该怎么设计,众包的成本如何做到尽可能地低,还有就是众包用户的质量问题。具体来说,众包领域的研究问题可以细化:微型任务设置、用户奖励策略、任务完成时间的控制、发布者成本控制策略,检测欺骗类型用户,众包结果聚集及答案预测、工作流程设计等。众包的主体包括了任务发布者(requester)和任务完成者,也叫做用户(worker)。任务(tasks)将他们关联到一起。当有任务需求的人想要利用众包来完成自己的任务时,需要按照一定的流程来使用众包。首先他要设计自己的任务,然后可以利用众包平台来发布设计好的任务,等待用户来完成任务。用户可以在众包平台上
21、查找感兴趣的任务,选择性的回答并且提交给众包平台。在任务期限截至以后,任务需求者将用户的答案进行筛选并整合。具体的工作过程如图2.1所示。任务发布者任务完成者图2.1众包工作流程2.3 众包应用美国加州伯克利大学(UniversityofCalifornia,Berkeley)的SETIhome分布式计算项目,遍及世界各地的成千上万的个人电脑的闲置计算能力,为他所用。那么,与此类似,成千上万的互联网大众的闲置脑力也可以通过分布式的人力资源网络得到充分的利用。2.3.1 AmazonMechanicalTtirk机器的智能化训练需依靠庞大的数据,谷歌开源的GooogleOpenImageData
22、sets,Yooutube-8M中的标记视频等,这些需要按规则分类的数据集必须依靠人类的智慧,才可以区分每一个细微的差别,机器是无法直接完成的。那么这些海量数据由谁来标定是我们需要考虑的,亚马逊的劳务众包平台(AMT)很好的解决了这个问题。亚马逊劳务众包平台,是一个有着十几年历史经验的平台。随着时间推进,平台不断的发展,到今天为止,AMT拥有累计超过50万的用户参与注册。用户们在平台上领取一些微型的任务,完成这些任务从而可以得到相应的报酬。AMT会给用户进行评级。往往用户等级越高,相应的酬劳也越高。当任务需求者发布任务需求时,AMT系统会自动将任务优先分配给等级比较高的用户。等级较低的用户被分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 细粒度 用户 可靠性 任务 分配 研究 分析 工商管理 专业

链接地址:https://www.desk33.com/p-1226515.html