基于轨迹相似度的轨迹推荐算法分析研究计算机科学与技术专业.docx
《基于轨迹相似度的轨迹推荐算法分析研究计算机科学与技术专业.docx》由会员分享,可在线阅读,更多相关《基于轨迹相似度的轨迹推荐算法分析研究计算机科学与技术专业.docx(33页珍藏版)》请在课桌文档上搜索。
1、摘要1前言3第一章绪论41.1 研究背景及意义41.2 本文的主要工作和创新点51.3 本文的组织结构5第二章轨迹数据压缩算法72.1 降采样方法72.2 Douglas-Peucker算法82.3 离散傅里叶变换算法102.4 分段聚合近似算法112.5 基于速度和方向的轨迹压缩算法122.6 基于GeoHash的数据点压缩算法13第三章轨迹相似度度量标准153.1 距离度量函数153.2 欧几里得距离153.3 DynamicTimeWraping163.4 LongestCommonSubsequences173.5 EditDistanceonRealSequence18第四章轨迹数据
2、的存储方法194.1 对空间点的存储方法194.1.1 R树系列194.1.2 KD树系歹IJ204.2 对时间序列的存储方法204.2.1 对点的倒排索引204.2.2 对特征维度的索引21第五章基于轨迹相似度的轨迹推荐方法225.1 相似度模型225.2 索引策略235.3 算法流程245.4 实验和分析25第六章总结与展望286.1 总结286.2 展望28参考文献30致谢错误!未定义书签。摘要本文以轨迹推荐问题为突破口,研究并分析了轨迹的压缩方法、轨迹相似度度量标准、轨迹特征提取算法以及轨迹索引查询方法等,并且综合了已有方法的优势,针对已有方法的不足,设计了一套基于轨迹相似度的轨迹推荐
3、算法,保证了高效而准确的相似轨迹的推荐。具体的说,本文开展了以下研究:1 .一种轨迹数据的特征提取算法。现有的对于轨迹数据的特征提取算法大多没有考虑的轨迹数据的存储和索引。这些提取出来的特征虽然能够从一定程度上对轨迹数据进行了降维,但是这样的特征提取也只能算是一种数据压缩,我们不能在保证没有漏检的情况下使用这些特征。而本文提出的方法则既能保证数据的压缩效果,也能保证没有漏检情况的发生。2 .基于轨迹相似度的轨迹数据的推荐方法现有的轨迹推荐算法大都是基于机器学习算法,对轨迹数据进行聚类,或者建立用户画像,在拥有相同用户画像的相似用户之间互相推荐轨迹。本文在上面的轨迹数据的特征提取算法的基础上,设
4、计了一套基于轨迹相似度的轨迹推荐算法,单纯的从轨迹相似的角度为用户推荐轨迹数据。关键词:轨迹相似度;文件索引;特征提取;轨迹压缩;相似度查询AbstractThispaperstudiesandanalyzesthetrajectorycompressionmethod,thetrajectorysimilaritymetric,thetrajectoryfeatureextractionalgorithm,andthetrajectoryindexquerymethod,andintegratestheadvantagesoftheexistingmethods.Atrajectoryrec
5、ommendationalgorithmbasedontrajectorysimilarityisdesignedtoensuretheefficientandaccuratesimilartrajectoryrecommendation.Specifically,thisarticlehascarriedoutthefollowingresearch:1. Afeatureextractionalgorithmfortrajectorydata.Mostexistingfeatureextractionalgorithmsfortrajectorydatadonottakethestorag
6、eandindexingoftrajectorydataintoaccount.Althoughtheseextractedfeaturescanreducethedimensionofthetrajectorydatatosomeextent,suchfeatureextractioncanonlyberegardedasakindofdatacompression.Wecannotusethesefeatureswhichmaycausefalsedismissal.Themethodproposedinthispapernotonlyguaranteesthecompressioneff
7、ectofdata,butalsoensuresthatnofalsedismissaloccurs.2. RecommendedmethodfortrajectorydatabasedontrajectorysimilarityMostoftheexistingtrajectoryrecommendationalgorithmsarebasedonmachinelearningalgorithms,clusteringtrajectorydata,orcreatinguserportraits,andrecommendingtrajectoriesbetweensimilarusershav
8、ingthesameuserportrait.Inthispaper,atrajectoryrecommendationalgorithmbasedontrajectorysimilarityisdesigned,whichsimplyrecommendsthetrajectorydataforusersfromtheperspectiveoftrajectorysimilarity.Keywords:TrajectorySimilarity;FileIndex;FeatureExtraction;TrajectoryCompression;SimilarityQuery前三近年来,随着无线定
9、位设备的广泛使用,我们能够越来越方便的获得由这些定位设备发送的定位数据。这些数据通常由经度、纬度、高度和其他辅助信息组成。这些数据给我们带来了大量的研究价值,但是同时也给我们的计算和挖掘能力带来了巨大的挑战。庞大的数据量要求更好的数据存储能力、更快的数据计算能力和更高的数据结构设计能力。同时,如何对这些数据进行高效地应用也是一个复杂的问题。当前.,学术界对轨迹数据挖掘的研究正得到越来越多的重视。对于轨迹数据相似性问题的研究可以追溯到度时间序列相似性问题的研究。时间序列相似性问题的最早研究论文由Agrawal等人在1993年发表。起初加入研究行列的有IBM公司的Agrawal和UCIrvine的
10、一些研究小组,在最近一段时间内则UCRiverside的EamonnKeogh和CarnegieMellon大学的ChristosFaloutsos领导的研究小组则更加活跃。除此之外,UCSantaBarbara大学、Maryland大学、NewYork大学、SimonFraSer大学等都有对相应进行研究的研究小组。国内的相关研究近年来势头强劲,其中有清华大学、复旦大学、浙江大学、中国科技大学、西安交通大学、香港大学、香港城市大学等。而且不仅在学术界,在工业界也逐渐展开了对轨迹序列的相似性问题的研究。知名的研究机构包括Yahoo、IBM、Google以及美国国家航空航天局NASA等。这些公司都
11、有很多专职人员参与本问题的研究。一些资深的数据挖掘领域人士甚至认为,对轨迹数据的挖掘已经成为目前数据挖掘中最具挑战性的问题之一。以经典的轨迹数据相似性查询问题为例,如何既保证查询的效率,又能保证查询的准确性一直是一个值得权衡的问题。在很多情景下,我们为了保证查询的准确性,我们需要牺牲查询的效率,采用全表查找等形式;在有的情形下我们可能不太关注查询的精确度,这样我们就可以通过粗略查找或者近似查找的方法,降低算法复杂度提高查询的效率。为了同时提高算法的准确率和执行效率,本文对轨迹数据的压缩、存储和轨迹数据相似度度量标准进行研究,以设计一个高效的基于轨迹相似度的轨迹推荐算法为主要研究课题。第一章绪论
12、本章首先介绍了轨迹存储与推荐算法的研究背景和意义,其次概括了本文做的主要工作和贡献,以及主要的创新点。最后介绍了本篇论文的组织结构。1.1 研究背景及意义时间序列挖掘研究自从上世纪90年代提出以来,得到了国内外的广泛关注,成为研究的热点领域之一。它包括时间序列的相似性搜索、聚类、分类、模式匹配、规则发现、异常检测等各个方面。轨迹数据是时间序列的一种特殊形式,通常由经度、纬度、高度和其他辅助信息组成,已经成为诸如经济、管理、计算机、数学、电子等诸多学科的交叉研究范畴。轨迹数据相似性问题也是时间序列挖掘中的一个基础问题,它的主要研究内容是判别轨迹数据是否相似、如何衡量相似程度、如何比较轨迹的相似等
13、,它的外在表现是轨迹数据的相似性搜索。随着各种无线通信和定位技术的高速发展,人们可以非常方便地收集到大量轨迹数据。轨迹数据具有很高的应用价值,人们可以进行通过运用这些数据进行相应的数据分析来实现很多重要的功能。如根据日常活动轨迹,我们可以向人们推荐潜在的朋友;根据动作的轨迹,我们可以进行人们动作目的的识别;根据已有的车辆轨迹,我们可以向驾驶员推荐最为流行的行车路线等。相似轨迹查找是对轨迹数据进行充分运用的基础功能之一,即要求对于给定的某个时间序列,从大型数据集合中找出与之相似的时间序列1,主要包括轨迹相似度度量、轨迹数据压缩、轨迹数据存储、轨迹推荐等。但是,由于轨迹数据获取的方便性,轨迹数据的
14、规模也在呈几何数量地增加。因此如何更快、更好、更高效地进行轨迹查找就成了现阶段的一个巨大的挑战。更快,就是要求能够尽可能减少单次查询的时间消耗;更好,就是要求查询的结果更加符合给定的要求;更高效,就是指将空间和性能运用在更有价值的地方。近几年,相似轨迹的查询研究有了很大的进步,提出了很多有效的算法。在轨迹压缩方面,提出了通过减少轨迹点的冗余度来加速轨迹查询的各种轨迹压缩算法,代表性的有DOUgIaS-PeUCker算法2、离散傅里叶变换方法、奇异值分解方法3、滑动窗口法等。在轨迹相似度度量方面,提出了通过设计更优化的相似度度量标准来节约时间的各种下限算法,常用的算法有LB_Kim5、LB_Yi
15、61.BjeeOghr7、LB_PAA8等。在轨迹存储方面,提出了通过设计更加优秀的索引结构和搜索树来加快查找的过程。上述的各种方法各有优缺点,我们将在第二章到第五章中进行详细地分析说明。1.2 本文的主要工作和创新点本文总结并分析了目前较为流行的轨迹数据加工处理的方法,详细研究了各种轨迹压缩技术、轨迹相似度度量标准、轨迹特征提取算法以及轨迹索引查询方法等,分析了各自的应用场景和优缺点。并提出了一套高效的对相似轨迹进行查询的方法。和原有算法相比,该算法具有如下创新:(1)基于文件索引。不需要同时将所有数据读入内存,适合对大量数据进行查找。并且利用索引文件,不需要进行全表查找,可以更高效地进行查
16、找,有效提高了查询效率,减少了查询时间。(2)支持增量添加数据。在数据集扩大时不需要重新构建索引,只需要按照规则将新添加的数据加入数据集即可,具有较强的扩展性。(3)不会出现漏检(FalseDismissal,FD)的情况。为了提高数据的查询效率,当前很多查询方案都将类似KNN(kNearestNeighbor)的问题描述为ANN(APProXimateNeareStNeighbOr)问题。由于不需要保证结果的绝对准确性,所以ANN问题的解决速度比KNN问题快得多,但是代价就是要牺牲准确率,他无法保证检索出最合适的结果,而是一个较为合适的结果。本文提出的方案既可以保证高效率,也可以杜绝漏检情况
17、的发生。(4)支持不等长轨迹数据的比较。即使是轨迹数据长度不同,该算法也可以高效的进行比较以及索引。本文利用的MSRA(MicrosoftResearchAsia)提供的GeoLife数据集9-11对本文提出的方法进行了仿真实验,并与当前已有的方法进行了对比分析,验证了本文提出的方法的正确性和高效性。1.3 本文的组织结构本文共分为六章,各章节的安排如下:第一章为绪论。本章首先简要介绍了本文所涉及的研究课题的背景、意义、实际应用等。然后概括了本文的主要工作和创新点,最后阐述了本文的组织结构。第二章:轨迹数据压缩算法。本章主要介绍了当前主流的轨迹数据压缩算法,并且分析了各个算法的优劣和应用场景。
18、第三章:轨迹相似度度量标准。本章主要介绍了收到学术界广泛认可的相似度度量标准以及这些度量标准的优化版本、下界版本。第四章:轨迹数据的存储方法。本章主要介绍了用于存储轨迹数据的数据结构以及常用的查找方法。第五章:基于轨迹相似度的轨迹推荐方法。本章主要介绍了本文提出的基于轨迹相似度的推荐算法,同时通过实验加以对比分析。第六章:总结与展望。总结全文,提出未来工作的设想与展望。第二章轨迹数据压缩算法通常而言,大多数的轨迹数据都是通过传感器定时采集物体的运动状态,并将数据进行存储。由于传感器的采样率不同,数据获取的密度也有所差异。大多情况下,对于车辆轨迹的采样间隔是秒级的,而对行人轨迹采样的间隔大约是分
19、钟级的。在这种采集频率下,每一辆车一天就大约可以采集到4GB左右的数据,而每一个行人每一天就大约可以采集到160GB的轨迹数据。这导致了采集得到的轨迹数据的规模非常大,其中很多轨迹点包含了很多的冗余信息,有效信息较少,没有存储的必要性。为了能够减少存储时的总数据量,并提高存储的每一个点的有效性,现阶段提出了很多轨迹数据压缩方法。本文详细阐述了目前广泛使用的一些轨迹数据压缩算法,并对它们进行了对比分析,分别阐述了它们的优势和缺点,以及在实际生活中适用的场景。2.1 降采样方法减少一条轨迹中轨迹点的个数最简单而直观的方法就是降低采样率。比如对于一个可控的采样设备,原本是每隔五秒钟获取一个坐标数据,
20、使用降采样方法,可以修改为每隔一分钟获取一个坐标数据,这样数据量就减少为了原先的十二分之一。通过讲采样时间间隔改为更大的树枝,可以达到获取较少的轨迹数据的目的。对于采样率固定的设备,无法更改采样时间,可以通过一些数据过滤算法对数据点进行过滤。通常来说,数据过滤方法可以分为两种:(1)在线过滤。这类方法主要适用于一些不停获得的流式数据。这些数据的重要级别通常比较低,因此可以设置一个较低的采样率,让存储设备每隔N个数据存储一次,这样数据量就可以缩减到原来的1/M有时候为了减少舍弃的轨迹点造成的影响,可以设置一个缓存窗口,每当获得一个轨迹点,就将这个轨迹点添加进缓存窗口。当窗口满了的时候,计算窗口里
21、所有轨迹点的平均值,得到相应的平均点,将这个平均点加入最终的轨迹序列,并且将缓存窗口清空。(2)离线过滤。这类方法主要适用于数据已经完全获取的情况。该类算法通过对存储的轨迹点进行随机采样,或按照固定间隔进行删减,达到压缩存储的轨迹点个数的目的。降采样方法非常的简单、易用、可靠。在大多数场景下都能使用,而且可以精准的控制压缩后轨迹点的个数,非常便捷。但是该类算法常常受到个采样率的选择的影响。在不同场景或是相同场景的不同阶段,采样率的最佳选择都会有所差异。如果将采样率设置得太低,那么将会有大量的轨迹点丢失,和原始轨迹出入较大;如果将采样率设置得太高,那么仍然保留了很多冗余的数据,压缩不完全。而且由
22、于删减轨迹点方法常常带有随机性,很容易将一些重要的轨迹点删除,导致压缩后的轨迹失去了某些重要的特征。总而言之,由于降采样的方法简单,高效,适合快速地将一些稠密的轨迹点变得稀疏,所以比较适合用于对轨迹做初步的压缩。2.2 Douglas-Peucker算法Douglas-Peucker算法12是一个经典的轨迹数据压缩算法,弥补了朴素降采样方法容易使轨迹失去关键特征的不足。该算法的原理是只删除对轨迹特征影响比较小的点,从而保证能够保留轨迹的绝大部分特征。Douglas-Peucker算法的具体步骤如下:输入:T 输入:i 输入:/ 输入: 输出:Douglas-Peucker算法条轨迹轨迹起点的序
23、号轨迹终点的序号预设的误差阈值压缩之后的轨迹1. functionDOUGLASPEUCKEREijQ2. 找出pi+p中距离线段哂最远的点P.,并设这个距离为由St3. ifdistDOUGLASPEUCKERiT,i,f,)DoIJGLASPEUCKERGfj6)输出哂以呵作为近似轨迹通过一个例子对DoUgIaS-PeUCker算法进行简单的说明。给定一个轨迹序列T=,首先连接PO和Pi6,分别计算剩余点到这条线段的垂直距离,如图2.1(a)所示。从图2.1(a)中可以看出,pg离这条线段的距离最大,那么就选择该点作为下一个分段点,将这个轨迹分割为PoP%P9P16两部分,如图2.2(b)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 轨迹 相似 推荐 算法 分析研究 计算机科学 技术 专业

链接地址:https://www.desk33.com/p-1226520.html