基于内容学习的图像视频分类检索工具设计与实现.docx
基于内容学习的图像视频分类检索工具设计与实现摘要基于内容学习的图像视频检索(Content-BasedVideoRetrieval,CBVR)已经成为信息数据检索领域的研究热点之一。它利用视频内容本身的特点,进行严格检索图像视频数据,这样用户可以在大量视频数据中快速、准确地找到自己需要的数据信息。此外,还可以研究如何将图像视频检索方法有效地应用到各媒体资产管理系统中,既提高了图像视频检索的效率,又提高了图像检索的质量。本文采用文献综述的方法,总结了图像视频检索技术在全球的最新动向,重点介绍了图像视频信息检索的基本概念和技术标准,研究和分析了基于文本和基于内容学习的两种主要检索方法。本文发现图像视频文件具有丰富复杂的信息行为特性,在媒体资产管理系统中自动提取的视频关键帧中设置搜索对象,可以将动态图像搜索简化为自动提取的视频关键帧静态图像的搜索对象,提高图像视频检索的效率和质量。本文提出了一种基于视频关键帧的视频检索方案,该方案包括对媒体资产管理系统进行定位工作,添加视频关键帧的视觉特征,进一步扩大搜索空间等步骤。本文的创新点在于,首次将视频关键帧作为视频检索的对象,提出了一种新的视频检索方法,为视频检索技术的发展提供了新的思路和方向。关键词:内容学习;图像视频分类;检索工具;关键帧第一章绪论1.1研究背景及意义近些年来,随着移动互联网和云计算技术的飞速发展,网络数据量呈现爆炸性增长,其中大部分是图像和视频文件。据统计,中国领先的电子商务企业阿里巴巴的后端数据库存储了超过300亿张商品图片。FliCkr发布了超过50亿张高清图像,增长速度快且稳定。YoUtUbe是全球最大的视频分享平台,用户每分钟都会上传超过100小时的视频内容。随着数字化资料量的增加,信息处理技术和大规模存储技术也有了长足的发展。在当前的信息时代中,从媒体信息中检索相关内容已经成为一项重要且具有挑战性的任务,与海量存储技术相比这一任务更为复杂和严峻。多媒体信息包括图像、视频、声音等多种形式,如何有效地从中提取所需的信息,是当前仍被解决学术难题之一。现在已有研究表明,下面的图像视频检索介绍以图片和视频为例,也可以应用到视频和声音。图像视频检索方法被描述为基于文本的检索,其过程设计将图像中的物体、位置和场景等关键信息人工编码并以文字形式记录在图像数据中。在信息检索的过程中,人类通过输入关键词来获取相匹配的图像和视频。这些图像和视频可以从数据库中被准确提取出来。尽管搜索速度很快,但它的弊端十分明显:首先,图像和视频的输入具有很强的主观性,检索精确度受到输入者认知和语言水平的影响。在海量数据时代,手动标记100万条数据已变得困难,而目前已无法标记1000万亿条数据。现阶段,许多图像视频检索方法已开始采用基于内容的方式,以弥补之前存在的缺陷。例如,通过利用一张查询图像,研究人员可以在包含百万张图像的数据库中快速识别出具有相似内容的图像,而无需依赖人工手动标记的方式。这种方法建立在一个事实上,那就是图像本身所包含的数据信息内容能够提供最准确的描述。一般来说,内容图像搜索的典型流程是这样的:首先建立一个特征提取系统,把图像转化为低维特征;其次利用该系统将数据库中的图像转化为特征。然后提取并使用相同系统来获取图像的外观,最后利用距离的计算规则,进行评估检索图像与数据库图像中显著特征之间的相似度,并按照距离从近到远的次序排列,以作为检索结果。内容识别技术在图像搜索领域具有诸多优势,能够克服文本搜索的两个困难:主观性和人工因素,充分利用图像算法的特征提取和大规模并行计算能力。通过内容学习的图像检测在多媒体搜索中具有重要的经济意义,涵盖了购物、艺术和犯罪预防领域。在医疗领域,医务人员可以通过对大规模图像数据库的比对分析,发现与患者病例相似的案例,从而为患者提供更为精准的诊断。在电子商务领域,借助路上拍摄的行人照片和杂志封面等图片,可以通过即时搜索功能快速识别出西服、裤子、围巾、鞋子等不同品牌及购买渠道。多媒体搜索在日常生活中广泛应用,因此提升搜索算法性能与个体生活体验密切相关。研究图像以及视频的检索方法对于基于整体内容的多媒体检索具有重要意义。描述具有简洁明了、富有代表性的特点,有助于提高检索效率和准确性。因此,在多媒体检索领域中,对图像和视频的紧凑描述方法进行深入研究具有重要的理论和实践意义。在评估多媒体搜索算法的优劣时,通常会考虑其精确度和速度这两个关键标准。从之前介绍的内容可以得知,检索算法的关键难点在于提取和存储图像和视频等特征。提高搜索效果有两个方面,其中一个是紧凑准确的特点。精确的特征描述有助于提升搜索结果的相关性和准确性,而简明扼要的描述可加速特征间距离比较的执行速度,从而减少搜索延迟。1.2研究目的我们旨在研究一种基于内容学习的图像视频检索技术,利用图像的视觉特征进行检索,以便用户能够在海量视频数据中快速、准确找到所需要信息。本文重点研究了图像特征提取方法,结合关键字和图片主要色调提出了新的分类方法,并提出了基于以图搜图的视频检索分类方法,考虑了用户对图像语义的需求,并同时符合视觉感知,内容审核算法将内容的图像视频检索技术与用户感兴趣的模型相结合,为用户提供更贴合需求的检索分类结果。最后,本文开发了一个基于内容的图像视频检索分类系统,并通过实验比较和性能分析验证了新的图像分类检索方法的有效性和优越性。本篇文章创建了一个实验平台,为未来的深入研究奠定了基础。1.3相关研究现状1.3.1国夕Hi形觎状1996年,吉滕德拉马里克及其团队创造了一种新的图像检索技术,通过对图像的颜色、纹理、形状等特征进行分析来实现图像检索。随后,在1998年,SharadMehrora和其他研究人员在这一基础上进行了大量的视觉特征提取和系统构建工作【划。这些研究为基于内容学习的图像视频检索技术奠定了一定的基础,然而目前的方法论中存在的问题包括系统忽略了图像的上位语义特征与下位视觉特征之间的差异,以及人们在对图像进行识别时所存在的差异性挑战1川oMirceaIonescu等人(1999)提出了一个关键问题,即检索系统中图像相似性计量函数的选择对检索效果具有重要影响。他们应用了汉明距离函数,能够准确计算图像之间的特征值距离,从而实现了图像相似性的度量。,2000年,Vnertan等学者提议采用彩色图像内容作为图像描述符,他们引入了像素色值不准确和人类感知差异引起的模糊性,提出了一种新的颜色直方图和相应的模糊距离用于搜索图像数据库中各种颜色皿,之后tefan。Beretta等相关学者提出了一种更有利用局部描述符和有效索引进行形状相似性搜索的方法。他们将每个形状分割为不同的标记,每个标记与形状中的突出物对比相似性,并根据一组感知显著的属性对其进行建模。随后,他们利用m树索引结构对经过适当变形的形状标记进行排列,从而实现了形状的快速索引【可。当前的研究在有效的基于内容的图像视频检索中取得了一定的进展,主要关注颜色、特征、纹理和空间关系等方面有很多种方法可以用来解决图像检索问题,每种方法都有不同的角度。在基于内容的检索中,通过颜色和相对位置将图像进行分割。Chabot主要利用文本搜索图像的方法,然而在需要时也会采用一定程度的颜色百分比自动搜索图像功能,若无法自动搜索到相应结果,则需要手动输入所有相关特征。EXCalibUr与QBIR和Virage是同类产品,它们使用与PiChUnter相同的标准规格、颜色、形状和纹理的图像比例本文研究还提取了清晰度和颜色结构等特征,以帮助用户进行选择,以显示哪些功能在图像中起主导作用。巴克莱大学数字图书馆项目让用户可以自定义图像中不同颜色的比例和点的特征,包括点的颜色和大小。这些模型推动了基于内容图像检索领域从起步阶段到成熟阶段的发展,它们致力于研究图像的多种特征,并从图像内容中实现图像的检索。在过去的十年中,该领域的研究已取得长足进展,但仍需要进一步探索和发展。为此,为用户提供搜索多媒体和图像数据库的工具,包括输入文本、图像和绘画,被认为是一种高效的方法。这种方法有助于提高用户对多媒体内容的检索效率和准确性,为未来研究和实践提供了有益的启示。虽然有了一定的进展,但还有几个问题有待解决。总之,这个领域还有很多难以解决的研究问题。1.3.2国内研究现状在图像检索技术领域,国内的研究起步相对较晚,然而近年来取得了一定的突破和进展。一些大学和研究机构开发了一些基于内容的图像检索原型系统,若干高等教育机构及研究机构已研发多款基于内容学习的图像视频检索原型系统,其中就包括:浙江大学的基于图像颜色和形状的检索系统、清华大学的Internet静态图像原型系统,中国科学院计算机技术研究所的多媒体信息检索(multimediainformationretrieval)系统网以及MIRESU°】等,其中IRES为中国科学院计算所智能信息处理重点实验室研发,得到国家863计划的支持。它还允许用户可以设置不同特征的权重,并且使用核心函数和SVM相关反馈算法来提高检索的效果和效率。可以调整各种特征的权重,并利用核心函数和SVM的相关反馈算法来提升检索的效率和准确性。结构化是指对特征进行组织和表示,以便于检索和比较;检索算法是指根据用户的查询,从图像数据库中找出与查询图像最相似的图像的方法;索引结构是指为了提高检索的速度,对图像数据库进行预处理,建立适合的索引结构的方法。查询接口是指为了方便用户输入和获取信息,设计友好的用户界面的方法。在用户查询界面方面,主要有以下几种类型:图形示例查询界面,即用户通过提供一幅或多幅图像作为查询条件,系统返回与之相似的图像;相关反馈学习界面,即用户通过对系统返回的图像进行评价,系统根据用户的反馈调整检索参数,提供更符合用户需求的图像;提交内容查询界面:即用户通过输入一些描述图像内容的文字或符号,系统根据用户的输入返回相关的图像W1.目前,国内的基于内容学习的图像视频检索原型系统虽然已经取得了一定成果,但仍然存在一些问题,尚未达到商用的水平。基于内容的图像检索技术是一门涉及多个学科的综合性领域,它需要借鉴和应用图像理解、图像处理、模式识别、人工智能、数据库技术等方面的理论和方法。目前,基于内容的图像检索技术面临的主要挑战从如下几个方面研究:(1)基于语义特征的图像检索。目前绝大部分的图像检索系统都是建立在对图像的低层次视觉特征,如颜色、纹理和形状等,进行分析和识别的基础上。但是这些低层次的视觉特征与人类的视觉感知和认知有很大的差异,很难表达图像的高层次的语义内容,导致检索的效果不理想。例如,对于一幅含有蓝色天空和白色云朵的图像,基于颜色特征的检索系统可能会返回一些含有蓝色和白色的图像,但这些图像的语义内容可能与用户的查询意图完全不同。因此,怎样从图像中提取能够反映图像语义内容的特征,才是提高图像检索性能的关键。越来越多的研究人员开始关注这个问题,尝试利用机器学习、本体论、自然语言处理等方法,从图像中提取语义特征,或者利用用户的反馈信息,来建立图像的语义模型,去实现基于语义的图像检索。(2)人机交互系统。它是杳询接口的设计是其功能的一部分,也是人机交互的关键之一。用户可以通过使用查询接口更快更便捷地输入和检索各种信息。在设计查询接口时,应该考虑到用户的需求和习惯,为他们提供多种查询和交互方式,以便用户能够自由表达查询意图并方便地查看和评价系统返回的结果。目前,人们正在探讨和研究如何同时实现友好的用户界面和快速的图像检索功能,这是一个困难且关键的问题。(3)网上搜索引擎技术。随着大数据和互联网的发展和崛起,图像视频检索技术也成了目前关注的重点。然而,由于网上图像数量庞大且无法精确计量,如何有效地搜索图像成为一个棘手的挑战,也是视觉信息搜索领域中的重大研究议题。首先建立一个图像搜索引擎,其中包括搜索、过滤、特征提取、分类、数据库、检索、记录分析以及用户界面设计等多个主要模块。需要充分发挥这些模块之间的关系,充分利用各个功能模块的作用;其次,进一步研究显示,网上图像分类和模式识别的分类技术相较于传统分类技术具有独特特征。在处理网上图像时,必须考虑到其多样性、动态性和噪声性等特点。选择适当的图像库分类方法成为了基于网络图像数据库检索技术和网络搜索引擎技术的主要研究焦点。(4)高维索引技术将海量异构数据资源进行整合,并根据用户的查询请求实现相似性检索。高维数据查询是非常重要的索引技术之一,在互联网大数据时代应用非常广泛,涉及到数据库、计算几何、机器学习和统计学等多个领域的理论和技术。它在数据检索、生物信息数据库和图像数据库等领域也得到了广泛应用。(5)压缩域图像检索目前,研究人员正在关注和研究压缩格式图像检索技术,这是由于许多压缩标准(如JPEG、JPEG2000等)的制定和推广所引起的。图像压缩和图像检索技术在本质上皆具有降低数据量的功能,从而实现数据处理和存储效率的提升。一些图像压缩技术可以应用于图像检索技术。在图像检索领域,一般将压缩区域的图像搜索任务划分为空间区域和变换区域两种分类方式。迄今为止,在压缩领域的图像检索中,检索效果虽然较高,但仍存在几个问题需要解决,因此,当前研究的重点是在压缩域图像检索中探讨空间域和变换域的检索技术,并研究数据获取方法。综上所述,图像检索技术是一个涉及图像分割、特征提取、高维索引、用户界面、数据库技术等多方面的综合性研究领域,也影响了相关领域的发展。现在有一些形式的搜索系统,还有一些问题有待进一步研究和改进。无论如何,图像检索技术还是一个很有发展空间的研究领域。第二章关键技术介绍2.1 关键帧的提取提取视频资料中关键帧的技术是进行相关数据操作的关键,常用的提取方法包括(12-13.1、通过计算镜头中所有帧的统计直方图的平均值,并选择最与平均直方图相似的帧作为关键帧,来实现直方图平均法;2、帧平均法:帧均法是一种数据处理方法,通过比较在某个位置和该位置像素值之差的平方和和最接近于该位置的像素值进行统计特征选择和特征选择。此双轨关键帧提取策略显露出其独到之处,其所拣选出的帧点,恰如其分地映射出整部视频的精粹。并借助特定的软件工具实施技术,转场帧自会如图2,1所示,自动跃入视野,成为关键帧的标识。此外,422协议的运用,使得画面能在瞬息间或悄然无声的后台被捕获,不仅抽取关键帧,更同步于磁带上U位与IC的信息,无延时且无遗漏。图2.1自动提取转换帧以手工甄选的方式获取关键帧,此法实属行之有效。如图所示,揭示的乃一软件界面范例。现今国内众多视频非线性编辑工作平台搭载的视频捕获硬件及配套软件,均内嵌了关键帧抽取机制。故此,从程序运用的角度审视,视频关键帧业已存在,可供直接调用。当作为检索原型的视频序列,其通过同款视频采集卡萃取出的关键帧,与数据库中的同类帧,在捕获参数与技术规格保持一致的前提下,对比操作得以顺畅进行。图2.2所示的多媒体物件描绘手法,源自mpeg-7标准,其融合了图2.2的关键帧视觉特性,从而开创了以文字(关键词)探寻视频搜索领域的崭新可能。图2.2白动获取关键帧界面2.2 基于各种视觉特征的信息检索2.2.1 基于颜色的检索因为颜色是图像最突出的特征之一,因此在检索过程中,根据颜色进行检索是一种重要的方法。直方图中的纵轴代表颜色像素的比例,横轴代表颜色的等级,刻度则表示该空间内的特定颜色。虽然按颜色搜索不能展示空间特征,但是其优势在于能够方便地计算图像之间的相似度也。2.2.2 基于纹理的检索所有图像实际上都可以看作是不同的纹理组合,但在根据纹理搜索视频资料时,必须考虑纹理的粗糙度、方向性和对比度。根据纹理的特征,可以在一定程度上定量地描述图像。因为很难描述纹理,所以只能通过示例方法搜索基于纹理的搜索1。2.2.3 基于形状的检索基于形状的检索是一种利用图像中物体的外部轮廓或内部区域来表示和匹配图像的方法。形状特征具有一定的语义信息,可以反映图像中物体的类别和结构,因此在图像检索中有着重要的作用。目前常用的形状描述方法主要有如下几种:基于轮廓的形状描述方法:这类方法主要关注图像中物体的边界信息,通过对边界点的坐标、曲率、方向等进行变换或提取特征,来表示形状的特征,包括链码、傅里叶描述子、小波描述子以及曲率尺度空间描述子等。基于区域的形状描述方法:这类方法侧重于对图像中物体内部信息的研究,考虑到物体区域的灰度、颜色、纹理等特征,并通过分析或提取这些特征来描述物体的形状特征。例如,几何不变矩、正交矩、通用傅里叶描述子、角半径变换等,在计算机视觉中,人脸识别技术得到了广泛应用,并在安防监控、金融支付等领域发挥重要作用。基于混合的形状描述方法:这类方法综合考虑图像中物体的边界和内部信息,通过对物体的轮廓和区域进行组合或分解,来表示形状的特征。例如,形状上下文、形状树、形状分布、形状谱等。2.3 图像检索技术的发展检索技术的主要是分为两个阶段【划刊:1、基于关键字的检索:这一阶段的检索技术主要采用关键字作为搜索标准,通过检索系统查询相关信息。这种检索方法类似于常规文本检索,但通过搜索相关关键字,可以在图像资料中检索出附加有相似关键字的相关图像。这种基于关键字的搜索是有问题的。不同观者对于同一图像的诠释存在差异,这表明图像所携带的信息量极其丰富。因此,图像的标注标准并不统一,导致检索结果往往无法充分满足用户的需求。此外,此方法需要大量的人力资源支持,随着图像数据数量的增加,其实施变得更加困难。2、基于内容的检索:这是第二阶段检索技术的一部分,比第一阶段的基于内容的检索是一种更高级的实用技术,相对于基于关键词的检索而言,在查找必要的图像和视频时更为准确和快速,当然,基于内容的搜索存在缺点。那就是被检索的图像和视频信息会产生偏差。搜索结果可能不尽如人意,因为每个视频信息都有相似的颜色或纹理,这将导致使用颜色或纹理等方法进行搜索时的不理想情况。2.4 基于颜色的图像检索技术理论颜色、纹理和形状等特征是图像最重要的特征,其中颜色是视觉上重要、更显著、更稳定、更可靠的特征,因此人们通常会通过颜色来存储和识别图像。许多专家和科学家提出了各种不同的解决方案来进行基于颜色的图像检索,包括颜色集、主色调、颜色矩等。目前,常用的检索方法是使用颜色直方图。图像检索效率的提高与图像特征提取技术的高度密切相关,处理图像时,可以通过对图像进行分割来获得对象图像的形状信息。但是,当前的图像分割问题依然具有挑战性,尤其是对于复杂图像的分割处理而言,解决此类问题仍然具有一定的困难。将其分割成几部分,甚至在提取有意义的形状特征时也是不可能的。因此,通过分析复杂相关图像的几何结构来识别部分特征,然后有序地整合这些特征,就可以有效解决描述整体图像的问题。将需要检索的图像分为相同大小的格子,然后提取每个格子中的颜色直方图,用HSV分析图像的颜色相关信息,可以将该颜色的直方图作为图像的特征向量,每一个方块的初始运动轨迹均能显现出整体色彩模式的特征,具有一定色彩分布信息。通过整合各种特征,可以精确地描绘复杂的场景。能够准确地描绘复杂的情境,需要组合各种特征。描述复杂场景时,可以结合多种特征来实现准确性。对于如何部署空间信息,我们进行了以下研究:为了保证检索的精度而导入空间信息,有一种方法是将图像空间固定化,即将相关图像分割成几个块,并提取每个区块的颜色特征。当然,图像的分割时,需注意分割大小既不宜过大也不宜过小。分割过大则无法完成任务,分割过小则会增加计算量,造成不必要的劳力消耗。在图像分割过程中,随着子块数量的增加,每个子块所包含的空间范围变得更加有限,相应地蕴含的空间信息也更为丰富。然而,随之而来的是计算复杂度的增加,但检索结果的精确度也随之提高。2.5 选择程序语言C+语言是一种支持对象、方法、类、消息等概念的面向对象的语言,是目前比较适用和普及以及流行的编程语言。C+有统一的标准库,提供了一些常用的数据结构和算法,方便了程序的开发和调试。C+还具有可视化环境的优势,可以使用微软公司的MicrosoftVisualStudioC+2003等工具,实现图形界面的设计和编程。因此,本文选择C+语言作为程序语言,实现基于内容的图像视频检索分类系统的设计和开发。然而,一些检索程序选择使用XM1.语言进行检索,因为MPEG-7描述定义语言采用XM1.,可以通过DD1.对现有描述结构进行扩展和修改,使其更加灵活方便,XM1.是一种具有扩展性的标记语言,用于表达文本、图像、音频、视频等各种类型数据。XM1.可以与XS1.T、XPath.XQUery等其他语言和技术共同使用,实现数据的转换、查询和处理,因此,本研究亦将运用XM1.语言对图像视频的特征和元数据进行描述和存储,以提高检索和分类的效率。第三章网络视频流获取算法研究随着互联网的快速发展,视频搜索技术在互联网视频流搜索领域将被广泛应用,由于网络视频具备信息富集性和较佳的视觉表现力等特征,大量多媒体内容已成为互联网信息传播的主要形式,逐渐取代了文字和图片;所以需要研究网络视频流目前所采集方式,更有利于在网络环境下实现快速获取视频流的数据,从而实现在线视频检索功能。3.1 网络视频流概述网络视频流体系结构主要包括视频压缩、流媒体分布服务、QoS控制、流服务器、媒体同步机制和流媒体协议。视频流传输体系结构图显示,各个方面之间存在密切联系,如3.1图所示:Ki始音频Intemet图3.1基于Internet的视频流传输体系结构图音频压缩视嫉压缩视频解码器存储设备压缩后的视频压缩后的音颜(连续的流媒体分布服务)在图3.1的示意图中,我们可以看到原始视频和音频数据经过压缩处理后,被存储在流服务器的存储设备中。当有客户端发出请求时,流媒体服务器会从存储设备中检索这些压缩的视频/音频数据。在应用层质量服务(QoS)控制模块的监管下,服务器会利用传输协议对压缩比特流进行整合打包,并发送至互联网。数据包到达接收端后,首先由传输层处理,随后经过应用层的QoS控制模块进行解码,确保视频与音频通过媒体同步机制实现同步播放,从而提升数据传输的质量。视频压缩是一种网络传输前的预处理技术,它利用编码器和解码器对原始视频进行压缩,以便于在网络中高效传输。解码器的作用是将压缩后的视频数据还原为可显示的格式。应用层QoS控制是一种重要的技术手段,主要用于解决网络延迟和拥塞问题。它具备分类、标记和优先级设置等功能,确保视频传输的稳定性和高质量。针对用户需求和网络环境的匹配性,研究提出了多种应用层服务质量控制(QoS)技术。3.2 网络视频流数据包提取算法3.2.1 相关算法简介多样的网络视频流编码形态,催生了探求海量信息海洋中视频流踪迹的急迫需求,专家学者们遂致力于挖掘有效的视频聚类策略。国内外的研究者们已涉足数据包的提炼与划分领域,构建出一种新颖的构架一一基于面积四分树的数据结构0在传统的BV聚类策略中,融入了位图递归聚合与滤波校正的理念,孕育出ABV这一革新性的分类方法。然而,这些算法的应用并未止步于防火墙的范畴,它们的足迹广泛拓印在更广阔的网络监管领地、入侵检测系统和路由器等网络设备中,其功能是在数据包传输过程中根据预设的规则进行过滤,网络中的视频流出现具有随机和突发特性,难以事先确定过滤规则,因此视频数据包过滤无法直接应用这些算法。根据散列算法的原理,设计了一种高效的包分类算法,用于分离不同网络应用的数据包。然而,若缺乏相关算法,可能会导致各种网络应用中数据包的混乱排序,例如FTP和WEB服务等,这对于提取视频包来说并不理想。3.2.2 网络视频流数据包提取算法XS1.H通过分析网络视频流的交互过程特征,利用流媒体信令协议数据包中的特征参数作为过滤规则,研究者提出了一种名为XS1.H的网络视频流数据包快速提取算法,该算法结合了异或位移和线性哈希的方法,能够有效地快速提取视频流数据,确保提取的完整性。XS1.H基本思路:(1)定义结构体NVSQUeUe,如图3.2所示。它代表某个网络视频流。其中Head11指向由该视频流所有数据包组成的队列,PktCount为Head所指队列中数据包的总数,若PIktCoUnt为0,说明NVSQUeUe为未发现的网络视频流,否则,NVSQueueB发现网络视频流。typedefStmctQueueusignedChar*Head;UsignedlongPktCount;NVSQueue;图3.2NVSQueue结构体将所有已知的网络视频流存储在NVS_A1.1.数组中,其中NVS_A1.1.是NVSQUeUe类型且最大数量为MAX_NUM。MAX_NUM为NVS_A1.1.数组长度。在算法初始时,NVS_A1.1.中所有元素的Head=NU1.1.fPktCount=O,定义一次线性Hash函数为1.HF(VaIlle)=Value;设P为网络中的任一数据包,其所对应的四元组(sip,dip,sport,dport)记为A,其中sip为源IP地址,dip为目的ip地址,sport为源端口号,dport为目的端口号。XS1.H算法过程如下:Step(1):第一步是计算A的异或位移哈希值,记为AXShVaIUe;Step(2):若NVS_A1.1.1.HF(AxshValue).PktCouunt=O,贝NVS_A1.1.1.HF(AxshVaIue).PktCount+,将P添加到由Head指定的队列NVS_A1.1.1.HF(AxshValue)中,并执行Step(6)SteP:对P应用VPFSl85算法。Step(4):如果P是SMCP数据包,则表示新的视频流出现在网络中。从P中提取CP包含的四元组(SiPl,dip1,spot1,dport1),计算该四元组的异或位移哈希值NewVaIue,将NVS_A1.1.1.HF(NewValue).PktCountig1,然后继续执行Step(6);Step(5):如果P不是SMCP数据包,则直接丢弃P;Step(6):取下一个数据包,转Step(I);从以上过程可以看出,XS1.H算法仅利用异或位移运算和线性Hash函数,即可识别所有已发现的视频流数据包,并可根据不同的异或位移哈希值对多个视频流进行区分,从而满足了数据包过滤算法的准确性和完整性要求。3.2.3实验分析该研究表明,此数据在网络中每次同时访问两个不同视频流为例子,其共进行了3次实验过程,并涉及6个不同的视频网站。利用抓包软件Wireshark分别获取了这3次过程中的所有数据包,形成了3组实验数据样本,即TeStDataI、TeStData2和TestDataS0这些实验样本的主要特征参数如表3.1所示。其中,TD1-1、TDI-2、TD2-1、TD2-2、TD3-1和TD3-2分别为各样本所包含的网络视频流。表3.1实验样本主要特征参数实验数据名称数据包总数视频流个数各视频流数据包个数文件大小TestDataI_G101682TD1-1:2873TD1-2:13336.94MBTestData2_G301682TD2-1:6153TD2-2:482918.6MBTestData3_G527112TD3-1:5060TD3-2:833639.1MB实验过程中,作者对样本数据进行了分析处理,分别使用了简单规则过滤方法SRF(SimpleRulesFilter)和作者提出的XS1.H算法。SRF算法遵循预先设定的规则列表,用于数据包的提取。规则列表由多个四元组组成,其中包括源IP地址、目标IP地址、源端口号和目标端口号。这些规则是根据研究目的而设定的。SRF算法对网络流量进行分类,将数据包的四元组与规则列表进行对比,若符合规则则允许通过,否则将被丢弃。实验结果显示,当设定的过滤规则总数为50条时,经实验证明,SRF算法和XS1.H算法均具有能力从3个样本文件中提取视频流分组,且所提取的分组数量与表3.1中的记录保持一致。表3.2SRF与XS1.H算法的时间性能比较实验样本花费时诃(ms)SRFXS1.HTestDataI_G33TestData2_G1512TestData3_G2518从表3.2可以看出,XS1.H算法的时间性能优于SRF算法,尤其是在网络流量较大和过滤规则较多的情况下,XS1.H算法的时间花销比SRF算法分别降低了20.00%和28.00%,说明XS1.H算法在处理大规模和复杂的网络数据时具有更高的效率。第四章关键算法和系统的实现4.1系统结构4.1.1系统体系结构图本文研究致力于构建一个试验系统,其功能包括视频数据管理及向用户提供视频数据查询服务。总的系统结构框图如下图所示。数据咋生成J-系统数据陈介湖广系统图4.1系统体系结构图根据图4.1呈现的内容,系统主要可划分为两个主要功能模块系统,即数据库查询子系统和数据库生成子系统。前者为用户提供视频浏览和查询等直观功能,旨在满足用户的需求和期望。视频数据搜索的具体工作流程和原理可以直接通过后者来反映,该过程由四个主要功能模块组成,分别是采集视频数据、对视频数据进行分割、获取视频镜头以及提取关键帧。下面我们接着来看,具体的功能模块。4.1 .2功能模块首先,让我们来研究一下数据库生成子系统,通过分析系统架构图,我们可以得知系统包含了四个主要模块:1 .视频数据:未经处理的原始视频数据流,即视频数据。多媒体信息与传统文字数据具有明显区别,前者具有更丰富的内容呈现形式。通过时间轴连接不同的图像序列而构成。你会发现该实体不仅具有空间属性,还包括时间属性。2 .视频分割:视频分割模块的主要功能是根据原始视频流数据的属性分析和解析数据。电影可以看作是由多个场景组成,每个场景可以包含多个镜头,而每个镜头又可以分解成多个帧,如图4.2所示。电影场景1场景2一场景N镜头1镜头2一镜头N帧1帧2一帧N图4.2视频数据结构图3 .设计者可以直接绘制帧贴图或导入外部图形进行编辑,制作单独的帧贴图,再将这些帧贴图合成视频。也可以在场景中直接创作帧贴图,也可以导入外部图形进行编辑处理,最终将合成的帧贴图转化为视频。必须确定纵向、横向、分辨率、帧播放速率等。4 .帧是数据通信过程中的一个固定长度的数据块,每一帧包含了传输所需的所有信息。flash是时间轴窗口中的一个小格子,编号从左向右。视频是由一帧一帧的图像信息在时间向前推进的过程中连续放映而成。帧,亦称为静态帧,是一种在视频压缩中依赖于关键帧的普通帧类型,无法在其上添加新内容或改动O有内容的静态框架是灰色的,灰色的静态框架表示有内容,而白色的静态框架表示没有内容。5 .关键帧是定义图像视频中可变化的帧数,还包含帧运动的帧。每个图层的起始帧被设定为关键帧,默认情况下,这些关键帧在时间轴上会以黑点来标识,而时间轴上显示的黑点代表每个图层的第一帧为关键帧。且每个层都会默认生成一个黑点标记作为当前图层的关键帧,并在时间轴上显示,空的关键帧也是可以存在的,它可以通过空的关键帧来进行暂停指定层中已有内容的显示。更可以在关键帧上不放置任何数据内容,以便于用户停止指定层中内容的显示。在接下来的讨论中,我们将进一步深入探讨数据库查询子系统,其可以被细分为以下四个主要模块:1 .视频浏览:这个可视化模块是为用户提供视频浏览功能而设计的。2 .查询接口:使用查询接口来实现数据查询的操作。3 .检索引擎:用来实现查询过程。4 .计算相似度:查询的实现原理。4.2 关键帧的提取我们介绍了一种经典的提取关键帧的方法,它主要包括两个步骤:第一步:将视频资料划分为不同的镜头;第二步:在划分出来的镜头上提取关键帧。提取关键帧的方法存在一些局限和不完善之处:4.2.1 保不会错过重要的关键帧,我们经常遵循着“宁可多选,不可少选”的准则,结果反而选择了过多的关键帧;4.2.2 选取的关键帧,往往代表性不强。根据所述关键帧进行视频检索可能导致匹配不一致、多重选取或遗漏选取等情况。4.2.3 基于图像相似度的关键帧提取技术在采集和分析多种类型的影像时,通过确保镜头不发生突变,发现每一帧都展现了微小连续变化的图像信息特征值。据了解,非突变视频由一组连续的图像组成。因此,视频序列中的每一帧图像,其相邻帧图像以及自身的图像信息特征值在空间上具有高度的相关性。然而,我们了解到积累了一系列微小变化可能导致重大的“从量到质”的突变,在发生质的变化后,对比前一帧可见特征值发生了显著变化。此时,仅仅选取图像中的某一帧作为关键帧进行检索,将无法获得准确的信息。关键帧不再具有重要性和代表性,无法准确地表现整个影像资料,这是主要原因。在这种情况下,解决这个问题变得至关重要。4.2.4 基于图像相似度的关键帧提取技术算法的实现本文提出了一种新的视频关键帧提取算法,即基于内容的算法,其关键是图像相似度。通过分析视频连续帧的特征,识别镜头是否发生改变,以增强关键帧的表现力,并减少可能存在的关键帧冗余。该算法的具体步骤如下:1 .对于视频起始帧的确定,需要根据其是否已知进行分类处理。第一种:如若某个图像的帧不是视频的起始帧,则可将其后一帧视作起始帧;第二种:如果某个图像帧就是视频的起始帧,那么就把它作为起始帧。2 .基于选取的特征值,对起始帧进行解码建立M级直方图。设定亮度信息丫、色度信息Cb和Cr的阈值Key,提取图像信息后按照SDTV的颜色规范进行分级,最终建立M级直方图。3 .设j为起始帧,k为后续帧,M为直方图级数,Key为阈值,用以下公式计算起始帧和后续帧的特征值直方图的欧式距离D(j,k):D(M)=>m(8)2其中,Hj(e)是起始帧e级直方图值,Hk(e)是后续帧e级直方图值。然后依次解码后续帧,重复第2步,提取其特征值建立M级直方图,并与起始帧直方图进行比较,直到其差值大于阈值Keye4 .求取D(m,n)(mnJ<=m<=k),m为起始帧后的第m帧,n为起始帧后的第n帧,如果出现D(m,n)>Key的情况,就对第m帧和第n帧进行标记,排除它们作为关键帧的可能性。5 .对第i帧以及其它帧的D(i,z)(in,im,j<=z<=k,j<=i<=k)±fiH(i)进行计算,公式如下:k“=y。(6 .在视频序列中,根据第五步的计算结果,寻找使得特征值直方图差值之和最小的一帧,将其视为关键帧并标记为Min(H(i)o7 .对于连续的帧解码后提取特征值,建立直方图,并计算其与第i帧直方图的差值,直到差值大于给定的阈值Key为止,具体公式如下:循环解码k帧后续帧,提取其特征值,建立直方图,计算其与第i帧直方图的差值,直到差值大于阈值Key为止,公式如下:8 .当第i帧被确定为关键帧后,就把第k+1帧作为新的起始帧,重复第1-7步,直到视频序列结束。4.2.5 实验结果的分析我们进行了实验验证以测试4.2.2中提到的算法的性能,我们选择了三种不同的技术来提取实验视频中的关键帧,包括目测、传统的基于内容的方法和基于图像相似度的方法。实验视频的帧数范围广泛,有的是几百帧,有的是几千帧不等。表4.1实验的视频相关帧数类型总数目测基于内容的提取基于图像相似度的提取早间新闻_G630122319汽车行驶_G3000327842世界杯_G1500275337根据实验结果,我们使用的本文提出的基于图像相似度的关键帧