基于内容的图像检索系统的设计与实现分析研究计算机科学与技术专业.docx
《基于内容的图像检索系统的设计与实现分析研究计算机科学与技术专业.docx》由会员分享,可在线阅读,更多相关《基于内容的图像检索系统的设计与实现分析研究计算机科学与技术专业.docx(33页珍藏版)》请在课桌文档上搜索。
1、目录HU1131 j2右41.1 基于内容的图像检索41.2 图像检索评价指标6第2章BoF模型72.1 基于视觉单词的匹配72.2 投票机制92.3 倒排索引10第3章汉明嵌入123.1 原始模型的缺点123.2 基于汉明嵌入的匹配13第4章几何重排164.1 弱几何致性164.1.1 弱几何一致性的原理164.1.2 考虑弱几何一致性的相似度计算184.2 基于几何信息的重排204.2.1 随机抽样一致算法204.2.2 错配点剔除21第5章实验过程245.1 开发环境245.2 框架设计245.3 实现25第6章结论28参考文献29致谢错误!未定义书签。通常的,图像检索可以分为两大类:基
2、于文本的图像检索和基于内容的图像检索。本文的主要内容是设计并实现了一个基于内容的图像检索系统。现在主流的图像检索技术主要是对图像提取局部特征,并利用特征袋模型对特征进行处理,以获得检索精度和检索性能之间的平衡。一个检索系统的运作主要包括数据集预处理和正式的检索过程。其中预处理过程包含:图像特征提取、视觉词典构建以及图像特征编码。检索过程会对待检索的图像进行类似处理,同时还有对特征的相似度比对,之后返回结果。本文基于前人的研究成果,做出的主要工作如下:1 .搭建一个基于flask框架的在线检索系统。2 .图像数据集处理阶段,对每幅图像提取ROotSlFT特征,并对特征进行k-means聚类,用来
3、构建特征袋模型。3 .利用UkbenCh数据集,比较了基础特征袋模型,汉明嵌入,弱几何一致性校验,空间几何重排等的检索效果,并对效果进行mAP评价。关键词:图像检索;特征袋模型;汉明嵌入;弱几何一致性;几何重排AbstractIngeneral,imageretrievalcanbedividedintotwomajorcategories:text-basedimageretrievalandcontent-basedimageretrieval.Themaincontentofthispaperistodesignandimplementacontentbasedimageretrieva
4、lsystem.Currently,themainstreamimageretrievaltechnologymainlyextractslocalfeaturesfromtheimagesandusestheBagofFeature(BoF)modeltoprocessthefeaturestoobtainabalancebetweenretrievalprecisionandretrievalperformance.Theoperationofaretrievalsystemmainlyincludesdatasetpreprocessingandformalretrievalproces
5、s.Thepreprocessingprocessincludes:imagefeatureextraction,visualdictionaryconstruction,andimagefeaturecoding.Theretrievalprocesswillperformsimilarprocessingontheretrievedimages,aswellascomparethesimilaritiesofthefeatures,andthenreturntheresults.Basedonpreviousresearchresults,themainworkofthispaperisa
6、sfollows:1. Buildanonlinewebretrievalsystembasedonflaskframework.2. Attheimagedatasetprocessingstage,RootSIFTfeaturesareextractedfromeachimage,andthefeaturesareclusteredusingk-meansalgorithmtoconstructtheBoFmodel.3. Usingukbenchdataset,wecomparethesearchresultsofthebasicBoFmodel,HE,WGC,spatialgeomet
7、ricre-rankingandsoon,andevaluatetheirefficiencybymAP.Keywords:imageretrieval;bagoffeature;hammingembedding;weakgeometricconsistency;reranking随着诸如智能手机、数码相机、平板电脑等电子设备的普及,人们可以用越来越容易的方式创作以及获取图片。同时,社交网站的兴起,如国外的InStagram、FaCebook和国内的QQ等,直接催生了人们分享照片的兴趣。这些原因无疑导致了图像数据库的规模迅猛增长,例如,nickr作为一个照片分享网站,单是2017年就有用户上传
8、了高达6亿张图片,中国最大的电商网站淘宝同样保存着数十亿计的用户图片。海量的图像规模不仅在存储方面增加了难度,同时在应用方面,也对能够让用户精准、快速的查找感兴趣的图片提出了挑战。因此,针对大规模图像数据库的信息检索,成为了当前数字图像处理技术方向的研究热点。到目前为止,大规模图像检索的主流是基于内容的图像检索技术,主要方式是类似于文本处理方面的词袋模型,本文下面即对此展开介绍,并解释其他的扩展方法。本文下面的组织如下:第1章介绍基于内容的图像检索技术的基本内涵,并介绍图像检索的评价指标,第2章介绍了利用提取图像局部特征的基本BOF模型检索方法,以及相应的索引、相似度计算方式,第3章介绍了对聚
9、类的改进,即汉明嵌入,第4章介绍了基于几何信息的重排,第5章则展示了实验效果,对所采用的方法进行相应的实验,并利用评价指标进行效果评价。第1章绪论本章介绍了传统图像检索方法的缺陷,并展示了基于内容的图像检索技术的要点。本章还展示了检索系统的基本工作流程,以及对检索结果的评价方法。1.1 基于内容的图像检索传统的图像检索方法主要是基于关键字的图像检索方法,这种方法主要是通过人工对要处理的图像进行关键字标注,让每幅图像添加对应的关键字,检索时就将对图像内容的检索转化成了对关键字文本的检索,无疑要容易许多。这种方法有时候效果可能会很好,它也曾被百度等搜索引擎采用过,但是它有一些显著的缺点。首先人工标
10、注耗时耗力,今天的大规模图像数据库显然是无法应用的,其次,所谓一图胜千言,一幅图像的内涵有很多,往往无法用几个关键字描述完全,并且每个人对图像内容的理解也不一样,因此检索时会导致误差。这些缺点导致上述技术无法更广泛的应用。而现在的商用的图像检索系统使用的技术主要是基于内容的图像检索(COntentBasedImageRetrieval,CBIR)lo基于内容的图像检索技术基本不需要人工干预,并且是对图像内容本身的理解。一个基本的在线CBlR系统检索流程如图1-1所示2:图LI在线CBIR系统的检索流程首先选取初始的图像数据集,需要对它进行特征提取,本文这里选取了ukbench,共10200幅图
11、片,每四幅一组,每组都是类似物体在不同角度和尺度的图像。下文的内容都是基于这一数据集的5000幅图子集来做效果评估。接着是对选取好的数据集进行图像特征提取。图像特征有很多种,常见的包括颜色特征,纹理特征,形状特征等等,称为底层特征,以前的CBlR系统主要基于此实现,综述性文献对此有叙述。这些底层特征都比较易受环境影响,像是光照、尺度、视角,以及一些背景方面的变化都会对检索结果造成较大的影响,所以图像检索时会选择局部特征,这种特征的抗干扰性比较好。LOWe提出的SIFT特征4就是这样一种在实践中被证明效果较好的局部特征,它具有很好的尺度,旋转,和平移不变性,基于LOWe的工作,后人提出了许多的改
12、进,其中文献5提出了RootSIFT特征,它仅仅是对原始SIFT特征的一种代数扩展(对每个计算出来的原始SlFT描述子进行LI归一化并取平方根),但是却能够改进检索效果。由于RootSIFT对SIFT特征的兼容性和易于计算的特点,本文进行图像特征提取时,对SlFT进行处理转换成了RootSIFT特征。SIFT特征和ROotSlFT特征一样,每个描述子都是128维,每幅图包含成百上千个这样的特征描述子,一个基本的数据集,比如UkbenCh,包含上千万维这样的高维向量,如果查询图片依靠暴力匹配每个向量的距离来计算相似度,性能上无法接受。为了处理大规模图像数据集,SiViC等人基于文本处理领域的词袋
13、模型,提出了特征袋(BagOfFeatUre,BoF)模型,利用k-means算法对所有描述子进行聚类,聚类之内的描述子具有较高的相似度,聚类之间的描述子具有较高的离散度,量化形成k个视觉单词。对于一幅包含几个描述子的图片,每个描述子被划分到最近的视觉单词,统计形成视觉单词的频率直方图,用频率向量来代表这幅图片,这样所有几个图像特征就被一个Z维向量代替,大大减少了计算量。图像查询时可以简单的计算向量之间的欧几里得距离或者余弦距离来获得最终的相似度得分。原始的BoF模型可以获得比较满意的检索精度。一般来说特征聚类过程中,利用k-means算法时选取的聚类数k值设的越高,检索效果越好,但是由于算法
14、本身是。(1)这样一个比较大的复杂度,导致大数据集聚类时间较长,针对k-means本身的https:/archive.org/download7ukbench/ukbench.zip改进有层次k-means和近似k-means等,本文这里介绍的是Jegou等人在文献中提出的另一种思路,即首先对描述子进行较粗的聚类,接着通过添加汉明编码对描述子应用汉明嵌入,来进一步改进粗聚类的视觉单词,这种方法可以获得比原始模型更好的结果。量化描述子形成视觉单词的过程中,原始图像本身的视觉几何信息被丢失掉了,这无疑会限制检索的效果。针对这一问题,很多人做出了利用空间几何信息的改进,文献提出了弱几何一致性约束,即
15、简单的增加了关键点角度和尺度信息的校验,对前面模型得到的结果进行重排。文献则提出了对已有结果的前若干幅图片增加进一步的空间验证过程,重新排序来获得更高的精度。1.2 图像检索评价指标对图像检索返回的结果,本文利用的评价指标为平均精度均值指标(meanAveragePrecision,mAP)指标9。mAP是指的是平均精度(AVeragePrecision,AP)的均值:mAP=吟1-错误!未定义书签。Q代表查询次数。AR则是第i次查询的平均精度。一般检索最重要的两个指标是精度(PreCiSion)和召回率(ReCan),若用X轴表示召回率,y轴表示精度,可得到精度召回率曲线(PreCiSiOn
16、-Recallcurve,PRcurve)AP结合精度和召回率两方面的特征,代表的是PR曲线下的面积:AP=P(r)drI-错误!未定义书签。实现中,积分会被一个有限和代替:n-lAP=WPO)Ar(/)I-错误!未定义书签。J=On表示取回的图像结果的个数,/是取回图像的序列,Po)就代表前/个图像的精度,Aro)则是从第幅图到第/幅图召回率的变化值,这代表当召回率不变时相应的精度也不计入。AP就代表每召回一幅图就计入其精度,最后精度和除以召回数的值。mAP作为所有AP的均值,可以更好的衡量检索效果。本文下面都将采用这个指标。第2章BoF模型BOF模型来自于文本处理领域的词袋模型,其主要思想
17、是将所有描述子聚类形成视觉词典,再根据视觉单词对描述子进行量化,最后根据量化的特征进行检索。本章展示了如何根据已有图像局部特征来进行视觉词典的构建,形成频率直方图,以及利用倒排索引和投票机制进行特征匹配10。2.1 基于视觉单词的匹配原始的BoF模型的处理流程有下面几步:首先对于原始图片,可以先进行增强、分割以及统一格式的处理以方便下面的操作。原始图片处理完成后,对它们提取RootSIFT特征,假设共Tn幅图像,每幅图则可以获取几个RootSIFT的关键点(keypoint)和对应的描述子(descriptor),每个描述子128维。所有图片的特征组合作为训练集,对其进行k-means聚类,聚
18、类数k根据实际训练效果选取,一般来说Z的值越大越好,但也不宜过大,表2-1是对5000幅图的评估结果:kmAP20000.68676150000.70617680000.718785100000.730512120000.726284表2-1对5000幅图像选取不同k值后的检索效果评估可以看到对原始的BOF模型来说,k值的增大,对后面的检索效果提升已经不是那么大了,而且大的Zc值会显著的增加聚类时间。通过聚类可以获得Zc个128维的聚类中心(通常称为视觉单词)和量化函数q:q:xERdq(x)0,k)2-错误!未定义书签。q的作用是将一个特征描述子映射到距离最近的聚类中心,值q(%)是聚类中心
19、的索引。量化过程避免了通过计算向量距离匹配特征的暴力匹配方式,而是通过比较视觉单词的方式来匹配。直观的讲,如果两个描述子和y在特征空间中距离很近,那么就很有可能满足q(%)=q(y)这个条件。两个描述子的匹配函数分可以简单的定义为对他们量化后的索引的比较:fq(x,y)=Lif,qM=2-错误!未定义书签。对一幅图像九个描述子进行量化可以获得一个九维向量,如果再统计每个维度的视觉单词索引,每幅图就可用一个k维的频率向量表征,这里称为一个BoF向量。视觉单词之间的重要性是不一样的。一般来说一幅图中出现次数最多的视觉单词是重要的,但如果一个视觉单词在每幅图中都会出现,那它的重要性就会降低。换句话说
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 内容 图像 检索系统 设计 实现 分析研究 计算机科学 技术 专业
链接地址:https://www.desk33.com/p-1226468.html