多媒体技术第9章多媒体内容分析与检索.ppt
《多媒体技术第9章多媒体内容分析与检索.ppt》由会员分享,可在线阅读,更多相关《多媒体技术第9章多媒体内容分析与检索.ppt(55页珍藏版)》请在课桌文档上搜索。
1、第九章多媒体内容分析与检索,9.1 基于内容检索概述,9.1.1 基于内容检索的概念,基于内容检索从媒体数据中提取出特定的信息线索,然后根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据出来。,9.1.2基于内容检索系统的一般结构,插入子系统该子系统负责将媒体输入到系统之中,同时根据需要为用户提供一种工具,以全自动或半自动(即需用户部分干预)的方式对媒体进行分割或节段化,标识出需要的对象或内容关键点,以便有针对性的对目标进行特征提取。特征提取子系统对用户或系统标明的媒体对象进行特征提取处理。在提取特征时,往往需要知识处理模块的辅助,由知识库提供有关的领域知识。,9.
2、1.2基于内容检索系统的一般结构,数据库媒体数据和插入时得到的特征数据分别存入媒体数据库和特征数据库媒体库包含各种媒体数据,如图像、视频、音频、文本等。特征库包含这种媒体用户输入的特征和预处理自动提取的特征。查询子系统主要以示例查询的方式向用户提供检索接口。,9.4.2基于内容检索系统的体系结构,9.1.3基于内容检索的过程和指标,检索过程初始检索说明:用户开始检索时,要形成一个检索的格式,最初可以用QBE或特定的查询语言来形成。相似性匹配:将特征与特征库中的特征按照一定的匹配算法进行匹配。特征调整:用户对系统返回的一组满足初始特征的检索结果进行浏览,挑选出满意的结果,检索过程完成;或者从候选
3、结果中选择一个最接近的示例,进行特征调整,然后形成一个新的查询。重新检索:逐步缩小查询范围,重新开始。该过程直到用户放弃或得到满意的查询结果时为止。,9.1.3基于内容检索的过程和指标,分割是指把媒体对象划分为几个有意义的子对象的过程。视频和音频分割主要是根据提取出来的多媒体特征,把连续的多媒体数据流在特征发生突变的地方分割成不同的物理单元,进而由这些不同的物理单元组成高级语义的场景、故事单元和故事片断。多媒体场景本质上是由文本、图像、图形、音频和视频等多模态交互融合形成的,虽然每一模态都表示了或多或少的场景语义,但是只有多模态媒体融合在一起才能表达一个多媒体场景。,9.1.3基于内容检索的过
4、程和指标,识别分类 分割得到的只是多媒体数据的最小物理单元,而用户对多媒体信息进行检索是基于一定语义的,所以还必须通过多媒体识别分类把分割出来的多媒体物理单元标注成预定义的语义类。对分割出来的多媒体单元数据分类标注可以基于不同级别的语义层次:一是高级语义,这种语义是不同时间和空间的几个多媒体事件高度抽象概念化的结果;二是中级语义,这种语义是对单个事件的描述,不涉及几个事件的交叉;最后是低级语义,它是利用视觉和听觉信息对多媒体进行初步分类的结果。,9.1.3基于内容检索的过程和指标,特征匹配 特征匹配是基于内容检索中最关键的部分。因为媒体的内容语义无法十分精确,所以要采用相似性的匹配方法。,9.
5、1.3基于内容检索的过程和指标,主要指标 由于基于内容检索系统采用相似性匹配,检索到的对象往往存在一定的误差,这个误差常用查全率(Recall)和查准率(Precision)来表示。查全率是指数据库中所有的相关对象是否都查到了,查准率是指查到的对象是否都是正确的,均用百分比来表示。,9.2 图像内容分析及检索,9.2.1图像特征的提取与表达,对图像进行内容分析需要考虑三个层次:原始数据层、特征层和语义层。其中,原始数据层采用像素矩阵对图像进行表示;特征层考虑像素模式的特性;语义层则关心的是图像的含义。1图像物理特征的提取与表达图像颜色特征的提取与表达 图像纹理特征的提取与表达 图像形状特征的提
6、取与表达 图像空间关系特征的提取,9.2.1图像特征的提取与表达,2图像语义特征的提取 人们判断图像的相似性并非仅仅建立在图像视觉特征的相似性上。用户在检索图像时,存在一个大致的概念,这个概念建立在图像所描述的对象上,而不是颜色、纹理等特征,直观的进行分类并判断图像满足自己的需要程度,这就需要对图像含义的理解。这些含义就是图像的语义特征。图像的语义信息可以根据层次的不同分成场景语义、对象语义、情感语义。感兴趣区域特征的提取 局部不变特征的提取,9.2.1图像特征的提取与表达,3图像高维特征缩减和索引 图像高维特征缩减 图像高维特征索引,9.2.2图像相似性检索与匹配方法,1利用颜色直方图进行检
7、索 指明颜色组成 指明一幅图像 指明图像中的一个子图 2颜色直方图的相似性匹配,9.2.3图像检索中的相关反馈机制,在基于内容的图像检索中,查询得到的结果应该是一组和用户提交的查询请求相似的图像集合,然而由于基于内容的图像检索还无法达到非常精确的匹配,结果中必然含有非用户想要查询的图像。因而,用户在结果中再次选择与其检索目标最接近的图像作为示例图像进行二次查询,系统将根据用户的反馈信息对图像库进行相应的修改,并重新返回一组结果,这样的过程就是图像检索中的用户相关反馈问题。相关反馈可以让用户的个性化反映到结果中,并提高系统的适应性。,9.3 视频内容分析与检索,9.3.1 视频媒体基本特性,1视
8、频序列 视频序列主要由镜头(Shot)组成,每一个镜头包含一个事件或一组连续的动作。每个镜头中的内容发生在一个场景(Scene)中,一个场景可以分散在多个镜头之中。一个故事将由一组镜头组成,这中间将会有多个场景不断地进行变化。对视频序列的分割最基本的单位就是镜头,往下就是镜头中对象的运动或图像,可以另外处理;往上是场景,将由多个镜头组成。,9.3.1 视频媒体基本特性,2镜头的切换 镜头的切换点是视频序列中两个不同镜头之间的分隔和衔接,是在导演切换台上或特技发生器上做出来的。切换的方法主要有两类。直接切换 一个镜头与另一个镜头之间没有过渡,由一个镜头的瞬间直接转换为另一个镜头。渐变切换 镜头与
9、镜头之间的变换是缓慢过渡的,没有明显的镜头跳跃。,9.3.1 视频媒体基本特性,3镜头的运动 在拍摄时根据剧情的需要,可以采用多种镜头的运动方式对镜头进行处理。镜头的运动方式主要包括:推拉镜头(Zooming)摇镜头(Panning)跟踪(Tracking)还有一些镜头运动的方式,如水平、垂直的移动,仰视、侧视拍摄,近摄、远摄等,都取决于所要表现的内容。,9.3.1 视频媒体基本特性,4视频的层次化结构 视频数据从表面上看是非结构化的数据流,其最高层是整个视频流,最低层是一帧帧的图像。而从它的拍摄和情节的组织上来讲,视频是有结构的,一般的视频节目都具有分层结构。视频结构化工作就是要实现结构切分
10、和内容提取,主要步骤包括镜头边界探测(Shot Bound Detection)、关键帧(Key Frame)提取和故事(场景)单元边界探测(Story Bound Detection),在此基础上可以对视频的内容进行浓缩和摘要。,9.3.2 视频结构化分析,镜头边界检测关键帧提取故事单元边界检测,一、镜头边界探测,1直方图比较法 直方图比较法是一种简单的镜头分割方法。由于在连续的视频序列中,如果没有特殊的处理,相邻的两幅图像的差别是很小的。如果发生了镜头转换,在帧与帧的差值上就会发生大的改变。对于突变镜头切换来说,帧与帧之间的直方图差值是很明显的,也就很容易确定出视频序列中的镜头起点和终点。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 多媒体 内容 分析 检索

链接地址:https://www.desk33.com/p-248082.html