《多媒体技术第9章多媒体内容分析与检索.ppt》由会员分享,可在线阅读,更多相关《多媒体技术第9章多媒体内容分析与检索.ppt(55页珍藏版)》请在课桌文档上搜索。
1、第九章多媒体内容分析与检索,9.1 基于内容检索概述,9.1.1 基于内容检索的概念,基于内容检索从媒体数据中提取出特定的信息线索,然后根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据出来。,9.1.2基于内容检索系统的一般结构,插入子系统该子系统负责将媒体输入到系统之中,同时根据需要为用户提供一种工具,以全自动或半自动(即需用户部分干预)的方式对媒体进行分割或节段化,标识出需要的对象或内容关键点,以便有针对性的对目标进行特征提取。特征提取子系统对用户或系统标明的媒体对象进行特征提取处理。在提取特征时,往往需要知识处理模块的辅助,由知识库提供有关的领域知识。,9.
2、1.2基于内容检索系统的一般结构,数据库媒体数据和插入时得到的特征数据分别存入媒体数据库和特征数据库媒体库包含各种媒体数据,如图像、视频、音频、文本等。特征库包含这种媒体用户输入的特征和预处理自动提取的特征。查询子系统主要以示例查询的方式向用户提供检索接口。,9.4.2基于内容检索系统的体系结构,9.1.3基于内容检索的过程和指标,检索过程初始检索说明:用户开始检索时,要形成一个检索的格式,最初可以用QBE或特定的查询语言来形成。相似性匹配:将特征与特征库中的特征按照一定的匹配算法进行匹配。特征调整:用户对系统返回的一组满足初始特征的检索结果进行浏览,挑选出满意的结果,检索过程完成;或者从候选
3、结果中选择一个最接近的示例,进行特征调整,然后形成一个新的查询。重新检索:逐步缩小查询范围,重新开始。该过程直到用户放弃或得到满意的查询结果时为止。,9.1.3基于内容检索的过程和指标,分割是指把媒体对象划分为几个有意义的子对象的过程。视频和音频分割主要是根据提取出来的多媒体特征,把连续的多媒体数据流在特征发生突变的地方分割成不同的物理单元,进而由这些不同的物理单元组成高级语义的场景、故事单元和故事片断。多媒体场景本质上是由文本、图像、图形、音频和视频等多模态交互融合形成的,虽然每一模态都表示了或多或少的场景语义,但是只有多模态媒体融合在一起才能表达一个多媒体场景。,9.1.3基于内容检索的过
4、程和指标,识别分类 分割得到的只是多媒体数据的最小物理单元,而用户对多媒体信息进行检索是基于一定语义的,所以还必须通过多媒体识别分类把分割出来的多媒体物理单元标注成预定义的语义类。对分割出来的多媒体单元数据分类标注可以基于不同级别的语义层次:一是高级语义,这种语义是不同时间和空间的几个多媒体事件高度抽象概念化的结果;二是中级语义,这种语义是对单个事件的描述,不涉及几个事件的交叉;最后是低级语义,它是利用视觉和听觉信息对多媒体进行初步分类的结果。,9.1.3基于内容检索的过程和指标,特征匹配 特征匹配是基于内容检索中最关键的部分。因为媒体的内容语义无法十分精确,所以要采用相似性的匹配方法。,9.
5、1.3基于内容检索的过程和指标,主要指标 由于基于内容检索系统采用相似性匹配,检索到的对象往往存在一定的误差,这个误差常用查全率(Recall)和查准率(Precision)来表示。查全率是指数据库中所有的相关对象是否都查到了,查准率是指查到的对象是否都是正确的,均用百分比来表示。,9.2 图像内容分析及检索,9.2.1图像特征的提取与表达,对图像进行内容分析需要考虑三个层次:原始数据层、特征层和语义层。其中,原始数据层采用像素矩阵对图像进行表示;特征层考虑像素模式的特性;语义层则关心的是图像的含义。1图像物理特征的提取与表达图像颜色特征的提取与表达 图像纹理特征的提取与表达 图像形状特征的提
6、取与表达 图像空间关系特征的提取,9.2.1图像特征的提取与表达,2图像语义特征的提取 人们判断图像的相似性并非仅仅建立在图像视觉特征的相似性上。用户在检索图像时,存在一个大致的概念,这个概念建立在图像所描述的对象上,而不是颜色、纹理等特征,直观的进行分类并判断图像满足自己的需要程度,这就需要对图像含义的理解。这些含义就是图像的语义特征。图像的语义信息可以根据层次的不同分成场景语义、对象语义、情感语义。感兴趣区域特征的提取 局部不变特征的提取,9.2.1图像特征的提取与表达,3图像高维特征缩减和索引 图像高维特征缩减 图像高维特征索引,9.2.2图像相似性检索与匹配方法,1利用颜色直方图进行检
7、索 指明颜色组成 指明一幅图像 指明图像中的一个子图 2颜色直方图的相似性匹配,9.2.3图像检索中的相关反馈机制,在基于内容的图像检索中,查询得到的结果应该是一组和用户提交的查询请求相似的图像集合,然而由于基于内容的图像检索还无法达到非常精确的匹配,结果中必然含有非用户想要查询的图像。因而,用户在结果中再次选择与其检索目标最接近的图像作为示例图像进行二次查询,系统将根据用户的反馈信息对图像库进行相应的修改,并重新返回一组结果,这样的过程就是图像检索中的用户相关反馈问题。相关反馈可以让用户的个性化反映到结果中,并提高系统的适应性。,9.3 视频内容分析与检索,9.3.1 视频媒体基本特性,1视
8、频序列 视频序列主要由镜头(Shot)组成,每一个镜头包含一个事件或一组连续的动作。每个镜头中的内容发生在一个场景(Scene)中,一个场景可以分散在多个镜头之中。一个故事将由一组镜头组成,这中间将会有多个场景不断地进行变化。对视频序列的分割最基本的单位就是镜头,往下就是镜头中对象的运动或图像,可以另外处理;往上是场景,将由多个镜头组成。,9.3.1 视频媒体基本特性,2镜头的切换 镜头的切换点是视频序列中两个不同镜头之间的分隔和衔接,是在导演切换台上或特技发生器上做出来的。切换的方法主要有两类。直接切换 一个镜头与另一个镜头之间没有过渡,由一个镜头的瞬间直接转换为另一个镜头。渐变切换 镜头与
9、镜头之间的变换是缓慢过渡的,没有明显的镜头跳跃。,9.3.1 视频媒体基本特性,3镜头的运动 在拍摄时根据剧情的需要,可以采用多种镜头的运动方式对镜头进行处理。镜头的运动方式主要包括:推拉镜头(Zooming)摇镜头(Panning)跟踪(Tracking)还有一些镜头运动的方式,如水平、垂直的移动,仰视、侧视拍摄,近摄、远摄等,都取决于所要表现的内容。,9.3.1 视频媒体基本特性,4视频的层次化结构 视频数据从表面上看是非结构化的数据流,其最高层是整个视频流,最低层是一帧帧的图像。而从它的拍摄和情节的组织上来讲,视频是有结构的,一般的视频节目都具有分层结构。视频结构化工作就是要实现结构切分
10、和内容提取,主要步骤包括镜头边界探测(Shot Bound Detection)、关键帧(Key Frame)提取和故事(场景)单元边界探测(Story Bound Detection),在此基础上可以对视频的内容进行浓缩和摘要。,9.3.2 视频结构化分析,镜头边界检测关键帧提取故事单元边界检测,一、镜头边界探测,1直方图比较法 直方图比较法是一种简单的镜头分割方法。由于在连续的视频序列中,如果没有特殊的处理,相邻的两幅图像的差别是很小的。如果发生了镜头转换,在帧与帧的差值上就会发生大的改变。对于突变镜头切换来说,帧与帧之间的直方图差值是很明显的,也就很容易确定出视频序列中的镜头起点和终点。
11、,一、镜头边界探测,2双重比较法 对于采用渐变类的镜头切换来说,直方图的差值虽然有,但不很明显。所谓双重比较法,是指采用两个阈值。首先用第一个较低的阈值来确定出潜在渐变切换序列的起始帧。一旦确定了这个帧,就将它与后续的帧进行比较,用得到的差值来取代帧间的差值。这个差值必须是单调的,应该不断地加大,直至这个单调的过程中止。这时,将这个差值与第二个较大的阈值进行比较,如果超过了这个阈值,就可以认为这个不断比较差值单调增的视频序列对应的就是一个渐变切换点。,一、镜头边界探测,3基于背景的镜头探测方法 同一镜头通常都含有相同的背景区域。摄像机在做摇动、推拉和旋转等运动时,其对象有可能移动、变化、快速运
12、动或者消失,但是背景区域的变化相对而言却很小。基于这一特点,可以认为具有相同背景区域的图像帧可能属于同一镜头,一旦背景区域发生了显著变化,则认为出现了镜头边界。同时,为避免出现背景相似而镜头内容完全不同的情况,即漏检某些镜头,在分析背景区域的基础上,对主要对象区域进行分析,以辅助镜头边界的准确探测。,二、关键帧提取,1首尾帧法和中间帧法 首尾帧法将切分得到镜头中的第一幅图像和最后一幅图像作为镜头关键帧。中间帧法,选择在时间上居中的一幅图像作为关键帧,这种方法简单实用,适合多种类型的镜头。首尾帧法和中间帧法虽简单,但它不考虑当前镜头视觉内容的复杂性,并且限制了镜头关键帧的个数,使长短和内容不同的
13、视频镜头都有相同个数的关键帧,这样做并不合理。,二、关键帧提取,2基于颜色特征法 在基于视频图像颜色特征提取关键帧的方法中,镜头当前帧与最后一个判断为关键帧的图像比较,如有较多特征发生改变,则当前帧为新的一个关键帧。,二、关键帧提取,3基于运动分析法 将相机运动造成的图像变化分成两类:一类是由相机焦距变化造成的;一类是由相机角度变化造成的。对前一种,选择首、尾两帧为关键帧;对后一种,如当前帧与上一关键帧重叠小于30%,则选其为关键帧。,二、关键帧提取,4基于聚类的方法 基于聚类的关键帧提取方法不仅计算效率高,还能有效地获取视频镜头变化显著的视觉内容。对于低活动性镜头,大多数情况下它会提取少量的
14、关键帧或仅仅一个关键帧。但对于高活动性镜头,它会根据镜头的视觉复杂性自动提取多个关键帧。,三、故事单元边界探测,故事又称“故事单元”(Story Unit),一般由多个连续的镜头组成,描述一段具体的语义内容,针对的是同一环境下的同一批对象,描述的是发生在同一环境下的一段情节。播音员镜头(简称口播帧)是指在新闻视频中重复且间隔出现的含有一个(或多个)播音员的镜头,是新闻视频所特有的结构标志,它的出现通常被视为一个新的新闻故事单元的开始。对播音员镜头探测比较有代表性的方法包括模板匹配法、多特征融合法以及聚类法。,9.3.3 视频语义对象提取,视频中的语义对象是指用户所关注的一些重要语义内容,例如重
15、要的人物、出现的重要文字信息等。视频中人脸对象的探测与识别视频中字幕信息的提取运动对象探测与跟踪,9.3.4 视频摘要,视频摘要,就是以自动或半自动的方式,通过对视频的结构和内容进行分析,从原视频中提取出有意义的部分,并将它们以某种方式合并成紧凑的、能充分表现视频语义内容的视频概要。其目标就是把原始视频流的内容用一句简单的“话”表达出来。视频摘要有多种表现形式,它可以是一段文字、一幅图像或多幅图像的组合,也可以是一段视频或者由多种媒体组合而成的多媒体文档。,9.3.4 视频摘要,(1)文字描述 这种方式是最紧凑的视频摘要形式,非常便于用户理解和建立索引,但很难由计算机自动生成能准确概括视频内容
16、的文字描述。(2)视频代表帧 这是一种使用较多的视频表现形式,镜头、场景和故事单元都可以用一幅或几幅从视频中抽取的图像来作为这段镜头、场景和故事单元的摘要。,9.3.4 视频摘要,(3)情节串连图 这种摘要十分类似于电影海报,它是由一组从视频中抽取的图像按照时间顺序组合而成,将这些代表帧合成在一起,形成名为“漫画书”(Comic Book)的视频摘要。(4)视频剪辑 视频剪辑或称缩略视频,是由视频中的一些片段拼接而成,或者是由视频中的图像序列和声音片段合成得到。用户可以通过播放这些相对短小的视频片段了解整个视频的内容。,9.3.4 视频摘要,(5)多媒体视频摘要 多媒体视频摘要是由多种媒体形式
17、组成的视频内容表现方式。它将文字、图像、声音和视频等媒体综合集成在一起来表现视频的主要内容。,9.4 音频内容分析与检索,9.4.1 基于内容音频检索概述,基于内容的音频检索,是指通过音频特征分析,对不同音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似。在音频检索中,也需要经过特征提取、音频分割、音频分类识别和音频检索这几个关键步骤,9.4.2音频结构化分析,音频结构化包括两个方面的内容:音频语义内容分析和音频结构分析。音频语义内容是通过对音频数据的分析获得音频中的一些特定语义内容。原始音频是非结构化的数据流,无法直接从中提取有意义的语义内容,这就需要对原始音频按一定语义内容进行时
18、域上的分割,即音频结构分析。,9.4.2音频结构化分析,分类是音频结构分析的一种主要方法,类别信息包含了音频数据的重要语义内容,它能够让用户对音频内容有一个全局概念上的认识。根据音频的作用和特点一般可将音频分为如下图所示的类别层次。,9.4.2音频结构化分析,另一种结构化模型类似视频的结构化,如下图所示。,9.4.3音频特征提取,1特征抽取的相关技术 音频是一种缓慢时变的信号,可以应用数字信号处理技术和信号系统理论来抽取音频的物理特征。对音频特征的抽取要用到多种方法,其中短时时域处理技术短时频域处理技术和同态处理技术是最基本、最典型的技术。短时处理技术将音频信号分成一些相继的短段进行处理。,9
19、.4.3音频特征提取,短时处理技术分为短时时域处理技术和短时频域处理技术。短时时域处理主要是计算音频的短时能量短时平均幅度短时平均过零率和短时自相关函数。这些计算都是以音频信号的时域抽样为基础的。短时频域处理主要是对各个短段音频信号进行频谱分析。,9.4.3音频特征提取,2特征分析与抽取 根据短时处理技术理论,音频帧是处理音频的最小单位,通常的音频处理中帧的长度一般取为2030ms。特征抽取的基础是数字信号处理技术和信号系统理论,特征抽取包括3个步骤:原始音频预处理,特征抽取和特征集的构造。,9.4.3音频特征提取,(1)原始音频预处理 原始音频往往含有尖锐噪音,会影响处理效果。同时音频处理的
20、单位是帧,所以特征提取前,需要对原始音频数据做预处理,包括预加重、切分和加窗成帧。(2)特征抽取 首先计算帧层次上的特征,然后在此基础上抽取子带能量比均值、带宽均值、频率中心均值、基音频率标准方差、和谐度、平滑基音比、High ZCR比率、Low Frequency Energy比率和频谱流量等clip层次上的特征来构造特征集。,9.4.3音频特征提取,(3)特征集构造 在特征抽取的基础上构造音频分类的特征集合。由于不同音频特征的值有很大的差别,所以要对特征集合进行归一化处理。,9.4.4基于内容的音频检索,基于语义描述的音频查询方式 基于示例的音频检索方式 音频示例相关反馈方式,9.5 多媒
21、体融合分析与检索,多媒体信息分析可以借助各种媒体之间的关系融合进行。例如,在对新闻视频进行分析时,可能需要对音频、视频和文本信息进行综合分析,才能得到更好的结果,如下图表示的过程。,9.5多媒体融合分析与检索,9.5.1多媒体特征融合,下图所示的超级隐马尔科夫链(superHMM),就是一种实现视频和音频特征融合的方法。,9.5.2 单媒体交叉索引,在这种方法中,先是对音频、视频和文字等单媒体信息分别处理,得到各自处理结果,然后在这个基础上,用生成的结果对自身或其他媒体数据流进行索引,索引表可以用元语言(Meta Language)结构表达,用户可以用元语言形式进行检索和查询,9.5.2 单媒体交叉索引,媒体交叉索引,9.5.3 单媒体结果融合,在多媒体处理时,得出分别单独应用文字、音频和视频特征得到的结果,然后将这些结果融合起来。这种方法把多媒体融合问题转换成了多结果融合问题。多媒体中的视频图像、文字和音频等每一种单媒体,既可以看成是来自不同感知器的数据,也可以看成检索对象,这样,每一种媒体都有一个检索结果。不同媒体的检索结合起来,可通过融合决策形成最后的判断。,9.6 小 结,本章重点,基于内容检索图像内容分析及检索视频内容分析与检索音频内容分析与检索多媒体融合分析与检索,
链接地址:https://www.desk33.com/p-248082.html