欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    基于内容的图像检索系统的设计与实现分析研究计算机科学与技术专业.docx

    • 资源ID:1226468       资源大小:382.61KB        全文页数:33页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于内容的图像检索系统的设计与实现分析研究计算机科学与技术专业.docx

    目录HU1131 j2右»41.1 基于内容的图像检索41.2 图像检索评价指标6第2章BoF模型72.1 基于视觉单词的匹配72.2 投票机制92.3 倒排索引10第3章汉明嵌入123.1 原始模型的缺点123.2 基于汉明嵌入的匹配13第4章几何重排164.1 弱几何致性164.1.1 弱几何一致性的原理164.1.2 考虑弱几何一致性的相似度计算184.2 基于几何信息的重排204.2.1 随机抽样一致算法204.2.2 错配点剔除21第5章实验过程245.1 开发环境245.2 框架设计245.3 实现25第6章结论28参考文献29致谢错误!未定义书签。通常的,图像检索可以分为两大类:基于文本的图像检索和基于内容的图像检索。本文的主要内容是设计并实现了一个基于内容的图像检索系统。现在主流的图像检索技术主要是对图像提取局部特征,并利用特征袋模型对特征进行处理,以获得检索精度和检索性能之间的平衡。一个检索系统的运作主要包括数据集预处理和正式的检索过程。其中预处理过程包含:图像特征提取、视觉词典构建以及图像特征编码。检索过程会对待检索的图像进行类似处理,同时还有对特征的相似度比对,之后返回结果。本文基于前人的研究成果,做出的主要工作如下:1 .搭建一个基于flask框架的在线检索系统。2 .图像数据集处理阶段,对每幅图像提取ROotSlFT特征,并对特征进行k-means聚类,用来构建特征袋模型。3 .利用UkbenCh数据集,比较了基础特征袋模型,汉明嵌入,弱几何一致性校验,空间几何重排等的检索效果,并对效果进行mAP评价。关键词:图像检索;特征袋模型;汉明嵌入;弱几何一致性;几何重排AbstractIngeneral,imageretrievalcanbedividedintotwomajorcategories:text-basedimageretrievalandcontent-basedimageretrieval.Themaincontentofthispaperistodesignandimplementacontentbasedimageretrievalsystem.Currently,themainstreamimageretrievaltechnologymainlyextractslocalfeaturesfromtheimagesandusestheBagofFeature(BoF)modeltoprocessthefeaturestoobtainabalancebetweenretrievalprecisionandretrievalperformance.Theoperationofaretrievalsystemmainlyincludesdatasetpreprocessingandformalretrievalprocess.Thepreprocessingprocessincludes:imagefeatureextraction,visualdictionaryconstruction,andimagefeaturecoding.Theretrievalprocesswillperformsimilarprocessingontheretrievedimages,aswellascomparethesimilaritiesofthefeatures,andthenreturntheresults.Basedonpreviousresearchresults,themainworkofthispaperisasfollows:1. Buildanonlinewebretrievalsystembasedonflaskframework.2. Attheimagedatasetprocessingstage,RootSIFTfeaturesareextractedfromeachimage,andthefeaturesareclusteredusingk-meansalgorithmtoconstructtheBoFmodel.3. Usingukbenchdataset,wecomparethesearchresultsofthebasicBoFmodel,HE,WGC,spatialgeometricre-rankingandsoon,andevaluatetheirefficiencybymAP.Keywords:imageretrieval;bagoffeature;hammingembedding;weakgeometricconsistency;reranking随着诸如智能手机、数码相机、平板电脑等电子设备的普及,人们可以用越来越容易的方式创作以及获取图片。同时,社交网站的兴起,如国外的InStagram、FaCebook和国内的QQ等,直接催生了人们分享照片的兴趣。这些原因无疑导致了图像数据库的规模迅猛增长,例如,nickr作为一个照片分享网站,单是2017年就有用户上传了高达6亿张图片,中国最大的电商网站淘宝同样保存着数十亿计的用户图片。海量的图像规模不仅在存储方面增加了难度,同时在应用方面,也对能够让用户精准、快速的查找感兴趣的图片提出了挑战。因此,针对大规模图像数据库的信息检索,成为了当前数字图像处理技术方向的研究热点。到目前为止,大规模图像检索的主流是基于内容的图像检索技术,主要方式是类似于文本处理方面的词袋模型,本文下面即对此展开介绍,并解释其他的扩展方法。本文下面的组织如下:第1章介绍基于内容的图像检索技术的基本内涵,并介绍图像检索的评价指标,第2章介绍了利用提取图像局部特征的基本BOF模型检索方法,以及相应的索引、相似度计算方式,第3章介绍了对聚类的改进,即汉明嵌入,第4章介绍了基于几何信息的重排,第5章则展示了实验效果,对所采用的方法进行相应的实验,并利用评价指标进行效果评价。第1章绪论本章介绍了传统图像检索方法的缺陷,并展示了基于内容的图像检索技术的要点。本章还展示了检索系统的基本工作流程,以及对检索结果的评价方法。1.1 基于内容的图像检索传统的图像检索方法主要是基于关键字的图像检索方法,这种方法主要是通过人工对要处理的图像进行关键字标注,让每幅图像添加对应的关键字,检索时就将对图像内容的检索转化成了对关键字文本的检索,无疑要容易许多。这种方法有时候效果可能会很好,它也曾被百度等搜索引擎采用过,但是它有一些显著的缺点。首先人工标注耗时耗力,今天的大规模图像数据库显然是无法应用的,其次,所谓一图胜千言,一幅图像的内涵有很多,往往无法用几个关键字描述完全,并且每个人对图像内容的理解也不一样,因此检索时会导致误差。这些缺点导致上述技术无法更广泛的应用。而现在的商用的图像检索系统使用的技术主要是基于内容的图像检索(COntentBasedImageRetrieval,CBIR)lo基于内容的图像检索技术基本不需要人工干预,并且是对图像内容本身的理解。一个基本的在线CBlR系统检索流程如图1-1所示2:图LI在线CBIR系统的检索流程首先选取初始的图像数据集,需要对它进行特征提取,本文这里选取了ukbench,共10200幅图片,每四幅一组,每组都是类似物体在不同角度和尺度的图像。下文的内容都是基于这一数据集的5000幅图子集来做效果评估。接着是对选取好的数据集进行图像特征提取。图像特征有很多种,常见的包括颜色特征,纹理特征,形状特征等等,称为底层特征,以前的CBlR系统主要基于此实现,综述性文献对此有叙述。这些底层特征都比较易受环境影响,像是光照、尺度、视角,以及一些背景方面的变化都会对检索结果造成较大的影响,所以图像检索时会选择局部特征,这种特征的抗干扰性比较好。LOWe提出的SIFT特征4就是这样一种在实践中被证明效果较好的局部特征,它具有很好的尺度,旋转,和平移不变性,基于LOWe的工作,后人提出了许多的改进,其中文献5提出了RootSIFT特征,它仅仅是对原始SIFT特征的一种代数扩展(对每个计算出来的原始SlFT描述子进行LI归一化并取平方根),但是却能够改进检索效果。由于RootSIFT对SIFT特征的兼容性和易于计算的特点,本文进行图像特征提取时,对SlFT进行处理转换成了RootSIFT特征。SIFT特征和ROotSlFT特征一样,每个描述子都是128维,每幅图包含成百上千个这样的特征描述子,一个基本的数据集,比如UkbenCh,包含上千万维这样的高维向量,如果查询图片依靠暴力匹配每个向量的距离来计算相似度,性能上无法接受。为了处理大规模图像数据集,SiViC等人基于文本处理领域的词袋模型,提出了特征袋(BagOfFeatUre,BoF)模型,利用k-means算法对所有描述子进行聚类,聚类之内的描述子具有较高的相似度,聚类之间的描述子具有较高的离散度,量化形成k个视觉单词。对于一幅包含几个描述子的图片,每个描述子被划分到最近的视觉单词,统计形成视觉单词的频率直方图,用频率向量来代表这幅图片,这样所有几个图像特征就被一个Z维向量代替,大大减少了计算量。图像查询时可以简单的计算向量之间的欧几里得距离或者余弦距离来获得最终的相似度得分。原始的BoF模型可以获得比较满意的检索精度。一般来说特征聚类过程中,利用k-means算法时选取的聚类数k值设的越高,检索效果越好,但是由于算法本身是。(1)这样一个比较大的复杂度,导致大数据集聚类时间较长,针对k-means本身的https:/archive.org/download7ukbench/ukbench.zip改进有层次k-means和近似k-means等,本文这里介绍的是Jegou等人在文献中提出的另一种思路,即首先对描述子进行较粗的聚类,接着通过添加汉明编码对描述子应用汉明嵌入,来进一步改进粗聚类的视觉单词,这种方法可以获得比原始模型更好的结果。量化描述子形成视觉单词的过程中,原始图像本身的视觉几何信息被丢失掉了,这无疑会限制检索的效果。针对这一问题,很多人做出了利用空间几何信息的改进,文献提出了弱几何一致性约束,即简单的增加了关键点角度和尺度信息的校验,对前面模型得到的结果进行重排。文献则提出了对已有结果的前若干幅图片增加进一步的空间验证过程,重新排序来获得更高的精度。1.2 图像检索评价指标对图像检索返回的结果,本文利用的评价指标为平均精度均值指标(meanAveragePrecision,mAP)指标9。mAP是指的是平均精度(AVeragePrecision,AP)的均值:mAP=吟"1-错误!未定义书签。Q代表查询次数。AR则是第i次查询的平均精度。一般检索最重要的两个指标是精度(PreCiSion)和召回率(ReCan),若用X轴表示召回率,y轴表示精度,可得到精度召回率曲线(PreCiSiOn-Recallcurve,PRcurve)<>AP结合精度和召回率两方面的特征,代表的是PR曲线下的面积:AP=P(r)drI-错误!未定义书签。实现中,积分会被一个有限和代替:n-lAP=WPO)Ar(/)I-错误!未定义书签。J=On表示取回的图像结果的个数,/是取回图像的序列,Po)就代表前/个图像的精度,Aro)则是从第幅图到第/幅图召回率的变化值,这代表当召回率不变时相应的精度也不计入。AP就代表每召回一幅图就计入其精度,最后精度和除以召回数的值。mAP作为所有AP的均值,可以更好的衡量检索效果。本文下面都将采用这个指标。第2章BoF模型BOF模型来自于文本处理领域的词袋模型,其主要思想是将所有描述子聚类形成视觉词典,再根据视觉单词对描述子进行量化,最后根据量化的特征进行检索。本章展示了如何根据已有图像局部特征来进行视觉词典的构建,形成频率直方图,以及利用倒排索引和投票机制进行特征匹配10。2.1 基于视觉单词的匹配原始的BoF模型的处理流程有下面几步:首先对于原始图片,可以先进行增强、分割以及统一格式的处理以方便下面的操作。原始图片处理完成后,对它们提取RootSIFT特征,假设共Tn幅图像,每幅图则可以获取几个RootSIFT的关键点(keypoint)和对应的描述子(descriptor),每个描述子128维。所有图片的特征组合作为训练集,对其进行k-means聚类,聚类数k根据实际训练效果选取,一般来说Z的值越大越好,但也不宜过大,表2-1是对5000幅图的评估结果:kmAP20000.68676150000.70617680000.718785100000.730512120000.726284表2-1对5000幅图像选取不同k值后的检索效果评估可以看到对原始的BOF模型来说,k值的增大,对后面的检索效果提升已经不是那么大了,而且大的Zc值会显著的增加聚类时间。通过聚类可以获得Zc个128维的聚类中心(通常称为视觉单词)和量化函数q:q:xERdq(x)0,k)2-错误!未定义书签。q的作用是将一个特征描述子映射到距离最近的聚类中心,值q(%)是聚类中心的索引。量化过程避免了通过计算向量距离匹配特征的暴力匹配方式,而是通过比较视觉单词的方式来匹配。直观的讲,如果两个描述子和y在特征空间中距离很近,那么就很有可能满足q(%)=q(y)这个条件。两个描述子的匹配函数分可以简单的定义为对他们量化后的索引的比较:fq(x,y)=Lif,qM=2-错误!未定义书签。对一幅图像九个描述子进行量化可以获得一个九维向量,如果再统计每个维度的视觉单词索引,每幅图就可用一个k维的频率向量表征,这里称为一个BoF向量。视觉单词之间的重要性是不一样的。一般来说一幅图中出现次数最多的视觉单词是重要的,但如果一个视觉单词在每幅图中都会出现,那它的重要性就会降低。换句话说,仅在一幅图中出现多次的视觉单词更加具有鉴别力,也就可以赋予其更高的权重。因此,这里对视觉单词应用文本处理中的tf-idf权重。tf(termfrequency)指的是文档词频,对文档d中出现的单词tf(t,d)计算方式如下:tf(t, d)=2-错误!未定义书签。t,d为这个单词在文档d中的频率,Hd加d是所有单词的总频率。idf(inversedocumentfrequency)指的是逆文档词频,本文这里采用Skleam?的计算方式:idf(ttD)=log"+1)+12-错误!未定义书签。+Tit/N为文档总数,是出现过该单词的文档数,越大则说明这个单词越常见,相应的就会降低权重。一个单词的tf-idf权重就可以计算为:tf-idf = tf × idf2-错误!未定义书签。添加tfidf权重后,匹配函数22可以进一步表示为:£)=虱月2.错误!未定义书签。tdf(q(y)表示如果描述子X和y匹配,匹配函数等于y所属视觉单词的idf权重。由于所有描述子匹配之后的结果本身就带有视觉单词的频率信息,因此这里不需要乘上tf权重。hup:/scikit-leam.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html2.2 投票机制投票机制应用在计算最终的查询图像和己有图像数据集之间的相似度得分上。假设整个数据集共有m幅图,相似度得分的计算方式如下:1 .初始化m幅图中每幅图像对应的分数i0,加)为0。2 .根据查询图像的特征集和每幅图像的特征集的匹配结果来更新分数项:Si = Si+ fqxij,yk)2-错误!未定义书签。假设数据集每幅图有小个描述子,查询图像有几个描述子,上面的更新方式即表示将每幅图的描述子MJj0,为)和查询图像的描述子九次0,n)一一匹配,用匹配函数值进行分数投票。对匹配函数添加tf-idf权重,应用公式26:St = St + A-id(xi>yc)2-错误!未定义书签。Si最后就是匹配函数值的和:Si = WW FSid c=O ;=0可以进一步的对分数Si进行处理可以得到S;:n-l"Li2-错误!未定义书签。2-错误!未定义书签。之所以有这样的处理是由于匹配函数只有idf权重,还没有考虑到图像特征个数的影响。对此有多种选择,可以类似式23那样的处理,即sj=s"ni,也可以除以特征个数(BoF向量LI范数)的平方根:s;=SJR最好的方法是除以BoF向量的L2范数,文献提到,对大规模词汇而言L2范数与Ll范数的平方根是近似的,但是本文经过比对测试发现还是L2范数的效果比较好,因此采用L2范数:s;=VIIFoFdI2O综合上述公式,相似度的最终得分s:可以计算为:*=¾%>SW,"k)iV,Wid)SiI由。用I?I8oF2HFoFdI2BoF22-错误!未定义书签。BoF'BOFHFoFdI2FoF2上式实际上就是经过tfidf加权后的两个BoF向量之间的余弦距离。在实现中,需要保存每个BoF向量的L2范数,最后在计算Sa寸,只需计算两个向量的内积BoFiBoF,并除以相应的范数即可。2.3倒排索引在计算相似度得分s:的时候,通过计算查询图像和参考图像对应的BoF向量之间的余弦相似度能够快速的得到分数,这里还可以利用倒排索引结构。利用倒排索引可以很有效的计算相似度,这主要是因为BoF向量的稀疏性。一幅图的描述子只会对应很少的聚类,比如ukbench00005.jpg的频率向量直方图如图2-1所示:2 -O OIOOO 20003000VWlD400050006 4 2 0 8 6IlllAou<nb(4图2-1描述子对应视觉单词的频率向量直方图统计前5幅图的前10个视觉单词频率向量,将是下面的列表形式:01130310011002040001120201100001031011031001000000其中有大量的单元为0,即图片中没有这个视觉单词对应的描述子。在正排表的相似度投票的过程中,对查询图像的每一个描述子,都会遍历每幅图像的所有描述子进行匹配,共O(TnX彦)的复杂度。倒排表则是以视觉单词为基准遍历,一个视觉单词可以对应一个链表,链表包含属于这个视觉单词的描述子和所属的图片id,遍历为O(TnXTl)的复杂度,实际由于频率向量是稀疏的,复杂度会更低。实现过程中,倒排索引是将视觉单词和倒排列表分开存储。倒排列表的索引与视觉单词是一一对应的,一个列表项包含的是属于某个视觉单词的所有条目组成的链表,每个条目中包含了图片id以及其他的特征信息。利用结合倒排索引的投票机制来计算相似度,可以比正排表快上百倍。第3章汉明嵌入本章展示了在基于原始的BOF模型,利用倒排索引结构来存储预处理的图像特征信息,利用投票机制来获取相似度得分之后,如何通过汉明嵌入来进一步的提升图像检索的精度,并讨论其背后的原理。3.1 原始模型的缺点原始BOF模型比较好的利用了图像局部特征对图像的区分能力,同时利用倒排索引的结果也能够有效的检索图像,这种方式使得利用原始模型能够获得比较好的检索能力,但是缺点也是明显的。首先量化会带来误差,不同的描述子可能因为距离相近被映射到相同的视觉单词,这降低了描述子之间的区分性。聚类数Z是依靠手动选取的,表2-1表明一般来说聚类数设的越高,精度也会提升,主要是越多的聚类数让量化带来的误差越小,要有一个满意的效果,Bo尸向量通常需要达到上万维,获取这么多的视觉单词十分耗时,实验中使用MiniBatChKMeanS3对ukbench的5000幅图像进行聚类,耗时达到数十个小时。然而k也不是越高越好,表中可以看到当k值继续增高后,提升效果越来越差,甚至聚类数达到一定程度精度有可能下降,这是由于描述子中含有噪声,更多的聚类让噪声分布越广泛。一个合适的聚类数k的选取应该谋求量化误差和描述子噪声之间的平衡。量化误差尽可能的小,不同的描述子不应该映射到相同的视觉单词,描述子噪声应该尽量的分布在同一个聚类单元中,以避免干扰到正常的描述子。这依靠手动选取通常是很困难的,需要遍历一个范围内的k值才可以最终选取一个合适的,十分的耗时。文献提出了汉明嵌入方法,可以很好的解决这个问题。huprscikit-leam.orgstablemodulesgeneratedsklearn.cluster.MiniBatchKMeans.htrnl3.2 基于汉明嵌入的匹配汉明嵌入是一种同时兼顾粗聚类和细聚类两方面好处的方法,即更小的量化误差和更少的噪声干扰。首先汉明嵌入选取一个较小的A值,这避免了噪声干扰,下面的问题是对被分配到同一个聚类的描述子进行进一步的细化。为了达到这个目的,可以对同一聚类内的描述子进行汉明编码,再比较汉明距离。同一聚类内的描述子勺,对应的二进制汉明编码b(×)是一个四维向量GO(Xi),瓦(Xi),涉丸-1(覆),两个汉明编码6(%)和b(y)之间的汉明距离Mba)/(y)这样定义:db-l(Kx),b(y)=W瓦G)仇。)3-错误!未定义书签。i=0即每维异或之后的值之和。使用汉明距离是为了能让两个描述子对应汉明编码之间的汉明距离能够反映描述子之间的欧几里得距离,即保留暴力匹配中描述子强大的区分性。这种从欧几里得空间到汉明空间的映射,就称为汉明嵌入(HammingEmbedding,HE),它保证了在欧几里得空间内距离相近的描述子,对应的汉明距离也会是相近的11。汉明嵌入包含在预处理和查询这两个阶段中,需要获得每个描述子的汉明编码,首先预处理包含如下过程:1 .生成投影矩阵:生成(d,d)的随机矩阵,矩阵的值符合标准正态分布,维数d是描述子维度,一般是128维。对随机矩阵进行QR分解获取一个正交矩阵Q取其前盛行,得到了一个(盛,d)投影矩阵P。2 .对描述子投影降维:对所有d维描述子利用投影矩阵P进行投影降维,一个128维的描述子Xi降维得到一个新的四维向量Zi=(Zi,o,Zjj,Zj,db),相同量化索弓Iq(Xi)对应的Zi放到一起。3 .计算投影向量的中值:上面的操作使每个视觉单词都对应若干个投影向量,对这些投影向量求和并求平均就得到了中值向量(,q,Qb),每个视觉单词对应一个中值向量,就形成了一个(k,db)的中值矩阵。本文所有的实验都对B取固定值64o投影矩阵P和中值矩阵用于计算描述子的汉明编码。一个描述子X,首先得到其量化索引q(%)和投影向量Z=P%=(z0,Z,ZdbT),接着就可以计算汉明编码b(x):biM=ifjZi>7-3-错误!未定义书签。XVZfCzvO投影向量Z的每一维都和所属聚类的中值向量比较,如果有Zi>Tq(X)V汉明编码相应维度就为1。至此,描述子X不仅可以用量化索引q(%)来代表,还包含了汉明编码b(x)。大大提高了区分能力。对式26的匹配函数,可以进一步的改进:-E(%y)=fdf(q(y),ifq(x)=q(y)and(b(%),b(y)ht3-错误!未定义书签。I1else如果描述子和y的映射到同一视觉单词,进一步比较他们汉明编码的汉明距离,如果距离小于阈值上,才认为这两个描述子真的匹配,否则它们将被拒绝。阈值儿OSb)是一个固定值,表示对汉明编码匹配的接受程度,当儿=d匕时即表示对匹配到同一视觉单词的描述子全部接受,这相当于原始BOF模型的效果。也不能太高,这样才能过滤掉许多因为量化误差归类到一个聚类的描述子,也不能太低,以保证匹配到足够的欧几里得距离相近的描述子。图3-1表现了这样的折中:图31是对5000幅图在聚类数k为5000的时候,选取不同汉明阈值的检索评价。可以看到瓦=23时,效果是最好的。在阈值较小的时候,比如比=10时,实验的mAP=0.767888,这说明一些正常的匹配被误过滤了,阈值达到23时,m/P为最大值0.877311,此后阈值增大m4P一直缓慢下降,当增大到64之后,等于0.706176,也就是未采用汉明嵌入方法时聚类数为5000的水平。同时对比表2-1可以发现,使用了汉明嵌入方法的粗聚类数为5000时的精度水平最好是0877311,未使用汉明方法的聚类数为12000时的精度水平为0.726284,汉明嵌入对检索效果有极大的提升。本文实验还发现,如果一开始就设一个很高的聚类数K对其应用汉明嵌入,其效果不见得比不应用好,这符合预期,因为汉明嵌入是对属于一个聚类空间的描述子进一步的划分,对于已经过聚类的描述子而言,划分不能够剔除噪声的影响。基于汉明嵌入的良好效果,本文下面的实验将采用这个方法,并采用九广23这个阈值。汉明嵌入方法可以很好的和倒排索引结构结合起来。上文中,倒排列表的索引与视觉单词是对应的,在汉明嵌入中就对应一个中值向量。每个列表项是一个链表。链表中的每个条目都对应某幅图片中的一个描述子,因此在条目中可以加入汉明编码。在实现过程中,由于汉明编码是一个64维的二值向量,可以将这个向量压缩为64位整型存储。在匹配的过程中,利用投票机制计算相似度分数,遍历倒排列表的每一个条目,需要用到式33的匹配函数。可以先计算查询图像描述子的汉明编码与遍历的汉明编码的距离,一旦汉明距离大小超出了阈值瓦,那么就不会再更新相似度分数。实验中,利用了汉明嵌入的查询过程甚至比没有利用的,即单一的倒排索引遍历查询的时间更短。这主要是由于计算汉明距离仅仅是对两个64位整型的汉明编码进行异或操作后再统计1的个数,这里的计算代价要小于更新相似度分数的代价,而利用汉明嵌入,使用一个较小的阈值,可以显著过滤大量量化误差较大的描述子,避免了很多分数更新操作。汉明嵌入也不会增加多少空间复杂度,每个描述子添加一个8字节汉明编码即可,因此值得采用。第4章几何重排无论是原始BoF模型,还是增加了汉明嵌入了改进版模型,尽管图像检索效果已经不错,但是它们仍然没有利用到图像的空间几何特征。如果要进一步的改进检索效果,应该考虑到图像几何信息,因此本章接下来对汉明嵌入之后得到的结果进一步添加了基于图像空间几何的重排序阶段。4.1 弱几何一致性前面提到过,加入集合信息能够对检索效果很好的提升,但是却无法实际应用,因为和暴力匹配算法一样,几何匹配算法的计算代价都很高昂。即使有不少工作都基于对几何匹配算法的优化,但是到目前为止,还是只能应用于几百张规模的数据集,没有大规模利用的可能性。为了解决这个问题,文献提出了弱几何一致性(WeakGeometricConsistancy,WGC)匹配。4.1.1 弱几何一致性的原理顾名思义,弱几何一致性仅仅只利用了一部分的几何信息,即角度和尺度信息。对于SlFT(或者RoOtSlFT)局部特征而言,每个不变的感兴趣区域的检测都具有相关的尺度和旋转角度信息12,这里具有特征尺度和主导方向。相应的,一对匹配图像之间会有一个尺度和角度方面的差异,并且就全局图像而言,尺度和角度的变化大致是一致的。下面进行一个比较:图4l(a)和图4-l(b)是一对匹配图像,图4-1对他们之间的匹配点之间进行了连线。对这两幅图片图像基于角度差进行直方图统计,可以得到图4-2:20 -10 -0-20angle difference2O 87060504030 SgIPjBIU jo .JBqErIU图4-2图4-1和图4-l(b)所有的匹配描述子基于角度差的频率统计图4-2有一个很明显的峰值出现,峰值出现在大约-加/4附近,即在角度差大约为-r4的位置,两幅图像匹配到的描述子是最多的,这符合肉眼观察到的现象,两幅图有个一致的旋转关系。对匹配图像图4-3(a)和图4-3(b)而言:O-100 -200 -300 -400 -020040060080010001200图4-3图像a和b之间的匹配如果对它们进行基于尺度差统计形成频率直方图,可以得到图4-4:O 1/81/41/212scale difference48Oooo 8 6 4 2图4-4图4-3(a)和图4-3(b)所有的匹配描述子基于尺度差的频率统计同样有峰值出现在大约3/4附近,这表示在尺度差(尺度差是关键点半径的对数差)3/4附近匹配到的描述子最多,这同样符合肉眼观察到的缩放现象。可以认为峰值附近的值就是特征尺度和主导方向,如果加入权重考量,在特征尺度和主导方向的相似度得分就是最高的峰值,其余位置的匹配都是噪声,将它们都过滤掉,不计入投票分数。4.1.2 考虑弱几何一致性的相似度计算考虑一对匹配的图像,它们之间会有一个一致性的变化,弱几何一致性会过滤掉角度和尺度方面变换不一致的特征,这是通过假设以下变换分别估计查询图像和参考图像之间的旋转和缩放参数来完成的口引:?=S×c0s2-sinX阴+ttx4-错误!未定义书签。1.yqLsinCOSJLytLCyJ&,%),和(M%)T是查询图像和参考图像的匹配位置,S和。以及是尺度、角度以及平移信息14。弱几何一致性考虑其中的尺度、角度信息。将弱几何一致性应用到倒排索引中,修改式27的分数更新函数,得到:si(afs)=si¾)+(xi-,-lyk)4-错误!未定义书签。心和6s是量化后的角度差和尺度的对数差,注意这里需要对角度差和尺度差做一些处理。首先是角度差需要限制在-r,兀的区间,那么给定角度差,可以对其正切值反正切,正切值需要对应正确的象限,这可以从正弦值和余弦值中得出。其次,对于尺度,保存其对数,然后再计算的是对数差,即两个尺度比值的对数,对数差限制在-3,3的区间,也就是只计算1/8,8这个区间放缩关系的分数。对应式2-10,最后的分数是:s:=g(m%(si(6t2,a)4-错误!未定义书签。Si这个初始分数是一个二维的直方图,角度和尺度差量化后的值作为矩阵的索引,确定位置后往该处加上匹配函数的值,最后取所有位置的分数当中的最大值作为最后分数s:。这么做的动机就是尽量利用角度和尺度信息剔除不属于一致变换的特征,找到Si这个二维直方图的分数峰值,并认为这个峰值所在位置的角度差和尺度差就是式2-1所展现的变换的值S和d其余位置对应的特征被认为不符合估计得到的变换模型,就不计入投票分数。这相当于变相的给属于一致变换的特征的匹配函数值增加了权重。在实验中,角度和尺度信息分别都是独立变化的,因此没有必要在一个二维的直方图上投票,可以将它们分开计算,更新方式如下:Si()=Si()+f(%,”)SG)=si(s)+f(xij,yk)4-错误!未定义书签。即分别在角度差和尺度差对应的一维直方图上投票计算相似度分数,将它们看作是二维的直方图的边缘概率。之后将两者统一起来,得到最后的分数:5- =g(minmax(si(a),max(si(s)4-错误!未定义书签。角度差对应的分数和尺度差对应的分数都是取各自直方图中的最大值,两者之间再取一个最小值,就作为最后的分数。二维转化为维计算可以降低内存和CPU的消耗,上式也是对式4-3的合理估计。弱几何一致性方法同样很好的利用了倒排索引结构,在汉明嵌入的基础上,继续向倒排列表每个列表项中的每个条目加上弱几何信息,即弧度形式的角度和尺度的对数,并没有增加多少空间消耗。在查询时间方面,弱几何一致性拖慢了查询的速度。尤其是对没有利用到汉明嵌入时的单一弱几何一致性的应用来说,查询一幅图的时间可以达到十秒左右,这主要是由于它利用的是式4-4来计算投票分数,即对两个直方图的更新,而直方图的更新访问具有随机性,这就无法利用到缓存。没有经过汉明嵌入过滤的原始特征数量很多,大量的直方图更新操作增加了运行的时间。而在同时添加汉明嵌入和弱几何一致性后,时间相较于原来BOF模型来说,只是略微有所增加,还可以接受。不同于完整的几何重排,弱几何一致性方法能够被利用到大规模图像数据集。4.2基于几何信息的重排几何匹配算法由于计算代价高昂不适用于大规模图像检索,但是它还是能够应用于重排序的过程,也就是对用前面所有的算法检索得到的结果,选取前若干幅结果,然后对它们根据空间几何信息进行重排序。对几十幅图像进行空间重排序的过程不会让查询时间增长多少,但却是很好的增加检索精度的方式。下面是详细的介绍。4.2.1 随机抽样一致算法RANSAC(RANdomSAmpleConsensus,RANSAC)算法15诞生于1981年,由FiSCMer和BOneS首次提出,这是一种需要迭代的方法,作用是从一组观测数据中估计数学模型的参数,观测数据可以包含异常值,并且异常值不会影响估计值。RANSAC并不会产生固定的结果,它只能是在一定概率的情况下产生相对合理的结果,但是如果整个过程包含更多的迭代,产生合理的结果概率会增加4。一般要从包含异常值较少的数据集当中拟合出适当的数学模型,可以应用最小二乘法,但如果数据包含很多的异常值,即噪声较大,最小二乘法就显得力不从心,这时候RANSAC就可以派上用场。RANSAC算法本身就假设了数据集中既包含正常值(inliers),又包含异常值(outliers),正常值可以被数学模型很好的描述(数学模型本身就来自正常值),而异常https:/en.wikipedia.org/wiki/Random_sample_consensus值偏离了正常值的范围很远,并且无法适应由正常值得到的数学模型。如果给定一组可信的观测数据,RANSAC算法假设存在一个能够解释数据的数学模型。RANSAC算法基本步骤如下:1 .首先从输入数据集中随机的选择一个子集,称之为假设正常值(hypotheticalinliers)o2 .对在假设正常值中的元素,拟合出相应的数学模型,获取模型参数,其中假设正常值中的元素个数确保能够得到一个确定的模型。3 .对所有其他数据针对拟合模型进行测试。根据拟合模型对应的损失函数,适合拟合模型的,就认为与假设正常值是一致的,将其加入到一个集合中,称为一致集(COnSenSUSset)。4 .如果有足够多的数据都被归类于一致集,那就说明由假设正常值估计得到的模型是适当的。对不在一致集的数据,可以认为它们就是异常值。而对在一致

    注意事项

    本文(基于内容的图像检索系统的设计与实现分析研究计算机科学与技术专业.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开