多媒体数据压缩.ppt
《多媒体数据压缩.ppt》由会员分享,可在线阅读,更多相关《多媒体数据压缩.ppt(105页珍藏版)》请在课桌文档上搜索。
1、第三章 多媒体数据压缩,本章提纲,多媒体数据压缩的概念和分类常用的压缩编码方法音频压缩标准图像和视频压缩标准,3.1 多媒体数据压缩的概念和分类,多媒体数据压缩的重要性数据冗余的类型数据压缩技术的性能指标数据压缩方法的分类,3.1.1 多媒体数据压缩的重要性,多媒体数据压缩编码是信息产业的关键技术多媒体技术最大的难题是海量数据存储以及电视信息数字化之后的数据传输,数据量是否等于信息量,电视信号512*512*8*3=6291456=6.3Mb/s6.3*30fps=188Mb/s188/8=23.5MB/s650MB光盘/23.5=27.5s,语音信号正常人说话频率20Hz-4KHz采样定律采
2、样精度8位4KHz*2*8=64Kb/s=8KB/s与电视信号相比23.5MB/8KB=3000倍,陆地卫星陆地卫星(Land Sat-3)其水平和垂直分辨率分别为2340和3240,四波段,采样精度7位2340*3240*4*7=212Mb按每天30幅计,每天数据量为212*30=6.36Gb每年的数据量高达2300Gb,如此巨大的数据量给存储器的传输容量、通信干线的信道传输率以及计算机的运算速度都增加了极大的压力单纯用扩大存储容量、增加通信干线的信道传输率是不现实的数据压缩是行之有效的方法,信息量和数据量的关系,I=D-duI:信息量D:数据量du:冗余量,3.1.2 数据冗余的类型,冗余
3、:信息存在的各种性质的多余度。冗余例子中文广播员一分钟180个汉字,一个汉字2个字节,共360字节采样一分钟:8k*60*8/8=480kB/分钟480kB/360B=1000倍冗余,冗余例子中文百科全书扫描进计算机200万字*2=4MBB5扫描(182*257mm 300dpi 12pixel/mm)185*257*12*12*8/8=6.84MB200万字以1000页计算,数据量6.84GB图像、视频数据冗余量更大,数据冗余的类型,空间冗余时间冗余信息熵冗余视觉冗余听觉冗余结构冗余知识冗余,1、空间冗余,在同一幅图像中,规则物体和规则背景的表面物理特性具有相关性,在数字化图像中表现为冗余示
4、例,空间冗余,统计上认为其像素的信息存在冗余,这是冗余的一种。图像的冗余信息会产生生理视觉上的多余度,去掉这部分图像数据并不影响视觉上的图像质量,甚至对图像的细节也无多大影响,这说明数据具有可压缩性。可以在允许保真度的范围内压缩待存储的图像数据,以大大节省存储空间,同时在图像传输时也会大大减少信道的负荷。,2、时间冗余,它反映在图像序列中就是相邻帧图像之间有较大的相关性,一帧图像中的某物体或场景可以由其它帧图像中的物体或场景重构出来。示例,空间冗余和时间冗余是把图像信号看作概率信号时所反映出的统计特性,因此,这两种冗余也被称为统计冗余。,3、信息熵冗余,信息量:从N个相等的可能事件中选出一个事
5、件所需的信息度量和含量信息熵:指一堆数据所带的信息量,平均信息量就是信息熵(entropy),例如:从64个数中选出某个数。可先问是否大于32?从而消除半数的可能这样只需6次即可选出某个数每提问一次得到1 bit信息量,在64个数中选中某数所需的信息量是log2 64=6 bit,信息量:从N个相等的可能事件中选出一个事件所需的信息度量和含量,信息量和事件出现的概率有关,概率越大,信息量越小;概率越小,信息量越大I(x)=IP(x)=loga(1/P(x)=-logaP(x)若a=2 则信息量度量单位为bit 若a=e 则信息量度量单位为nit 若a=10,则信息量度量单位为哈特莱,如果将信源
6、所有可能事件的信息量进行平均,就得到了平均信息量。信息熵=平均信息量,信息熵:指一堆数据所带的信息量,平均信息量就是信息熵(entropy),信息熵冗余,无失真编码定理:无失真编码极限=信源所含平均信息量(熵)信源编码时,当分配给第i个码元类的比特数 b(yi)=-logpi,才能使编码后单位数据量等于其信源熵,即达到其压缩极限。但实际中各码元类的先验概率很难预知,比特分配不能达到最佳。实际单位数据量dH(S),即存在信息冗余熵。,4、视觉冗余,人眼对于图像场的注意是非均匀的,人眼并不能察觉图像场的所有变化。事实上人类视觉的一般分辨能力为26灰度等级,而一般图像的量化采用的是28灰度等级,即存
7、在着视觉冗余。,5、听觉冗余,人耳对不同频率的声音的敏感性是不同的,并不能察觉所有频率的变化,对某些频率不必特别关注,因此存在听觉冗余,6、结构冗余,数字化图像中的物体表面纹理等结构往往存在着冗余,这种冗余称为结构冗余。当一幅图有很强的结构特性,纹理和影像色调等与物体表面结构有一定的规则时,其结构冗余很大。例如,草席的纹理很规范清晰,它的图像就存在结构冗余。,7、知识冗余,由图像的记录方式与人对图像的知识差异所产生的冗余称为知识冗余。人对许多图像的理解与某些基础知识有很大的相关性。例如人脸的图像建筑物中的门、窗的形状、位置等等这类规律性的结构可由先验知识和背景知识得到。人具有这样的知识,但计算
8、机存储图像时还得把一个个像素信息存入,这就是知识冗余。,3.1.3 数据压缩技术的性能指标,评价压缩技术的三个指标压缩比恢复效果压缩算法复杂度、速度另外也必须考虑每个压缩算法所需的硬件和软件。,无损压缩(图象质量不变)有损压缩,3.1.4 数据压缩方法分类,根据解码后数据与原始数据是否完全一致可以分为两大类:无损压缩法:采用可逆编码方法实现的压缩称为无损压缩。这种方法的解码图像与原始图像严格相同,即压缩是完全可恢复的或没有偏差的。压缩比在2:15:1,又称冗余压缩法,熵编码法有损压缩法;采用不可逆编码方法实现的压缩称为有损压缩。这种方法的还原图像较之原始图像存在一定的误差,但选择的压缩率应使视
9、觉效果可被接受。压缩比几十到几百。又称熵压缩法,数据压缩方法分类,数据压缩方法,预测编码变换编码统计编码(熵编码)哈夫曼编码行程编码算术编码其它:子带编码、运动估计,1、预测编码(Prediction Coding),预测编码的基本原理是统计冗余数据压缩理论的三个重要分支之一,用预测编码减少数据时间和空间的相关性,如果有一个数,通过数学模型能够精确地产生数据源,则不需要传输这个数,通过以往的样本值,预测,将预测值与实际值相减,对差进行编码,预测编码的基本思想建立一个数学模型,利用以往的样本数据,对新样本值进行预测,将预测值与实际值进行相减,对其差进行编码差值很小,可以减少编码码位,典型的预测编
10、码方法DPCM(Differential Pulse Code Modulation):差分脉冲编码调制ADPCM(Adaptive DPCM):自适应的差分脉冲编码调制,1、预测编码,在多媒体通信的图像传输上使用预测编码是常用的方法,图像压缩中的“未来”是指下一个像素、下一条线或下一帧,一般景物在这三方面都有一定程度的冗余。同一帧图像内,相邻像素之间的相关性比较强,任何一像素均可以由与它相邻的且已被编码的点来进行预测估计。连续的若干帧中,“未来”的帧中也会有许多地方保留了“过去”的部分,如背景或静止的地方等。,1、预测编码,关键:建立一个理想的预测器(数学模型)如果能找到一个数学模型完全代表
11、数据源,那么在接收端就能依据这一数学模型精确地产生出数据。但是,现实中的系统是无法找到一个完整的、贴切的数学模型的。实际上能找到的最好的预测器只能以某种最小化的误差对下一个采样作预测。,1、预测编码,优点可以去除数据的时间和空间冗余,直观、简捷和易于实现,特别是用于硬件实现。在传输速度要求很高的应用中,大多选用此方法。缺点预测方法的不足使压缩能力有限,DPCM一般只能压缩到2-4bit/像素。,2、变换编码(Transformation Coding),其实质是一种函数变换,从一个信号域变换到另一个信号域,使其更适于压缩该过程是可逆的如将时域信号变换到频域,因为声音、图像大部分信号都是低频信号
12、,在频域中信号的能量较集中,再进行采样、编码就可以压缩数据。,2、变换编码,变换本身是可逆的,因而其也是一种无损技术。然而,为了取得更满意的结果,某些重要系数的编码位数比其他的要多,某些系数干脆就被忽略了。这样,该过程就成为有损的了。数学家们已经构造了多种数学变换。除了傅里叶变换外,还有余弦、Hadamard、Haar、Karhunen-Loeve(K-L)变换。最实用最常用的数学变换是离散余弦变换(DCT)。,3、统计编码(熵编码),原理:变字长编码定理若各码字长度严格按照所对应符号出现概率的大小逆序排列,则其平均码长最小根据变字长编码定理,概率大的用短码字表达,反之用长码字表达。统计编码的
13、目的是减少符号序列的冗余度,提高符号的平均信息量。,3、统计编码,它根据符号序列的统计特性,寻找某种方法把符号序列变换为最短的码字序列,使各码元承载的平均信息量最大,同时保证无失真地恢复原来的符号序列。如数字序列:742300000000000000000055 编码为:7423Z1855,3、统计编码,典型的熵编码方法哈夫曼编码方法(利用信源概率分布特性)行程编码方法(利用相关特性)算术编码(利用概率分布特性),哈夫曼编码,Huffman在1952年提出了对统计独立信源达到最小平均码长的编码方法,又称最佳码。从理论上可以证明,这种编码具有即时性和唯一可译性。Huffman编码的基本原理是按信
14、源符号出现的概率大小进行排序,出现概率大的分配短码,反之则分配长码。,哈夫曼编码,求信息熵信源有4个符号,信息熵:H(x)=-1/2log2(1/2)-1/4log2(1/4)-1/8log2(1/8)*2=1/2+1/2+3/4=1.75 bit/字符,哈夫曼编码,编码步骤信源符号按概率大小排列出现概率最小的两个符号概率相加,合成一个概率将合成概率看作一个新组合的符号概率,重复上述做法,直到最后只剩下两个符号概率为止反过来逐步向前编码,每一步两个分支,各赋予一个 二进制代码,对信源进行Huffman编码,信源a1a2a3a4,概率1/21/41/81/8,1/4,0,1,0,1,1/2,0,
15、1,1,码字010110111,平均码长L=1/2*1+1/4*2+1/8*3+1/8*3=1.75 bit/字符=H(x)编码效率100%,码长1233,哈夫曼编码,编码码字长度不均匀在信源符号概率不均匀时效率高;若信源符号概率均匀,则不用huffman编码,行程编码(run-length coding),又称运行长度编码或游程编码,该压缩算法是将一个相同值的连续串用一个代表值和串长来代替。以图像编码为例,可以定义在特定方向上具有相同灰度值的相邻像素为一轮,其延续长度称为连续的行程,简称为行程。行程终点位置由到前一行终点的相对距离确定,这样就可以由灰度行程来表示图像数据。例如,若沿水平方向有
16、一串(M个)像素具有相同的灰度 N,则行程编码后,只传递两个值(N,M)就可以代替M个像素的M个灰度值N。,行程编码,分为定长行程编码和变长行程编码两种对传输差错很敏感一位符号出错就会改变行程编码的长度,从而使整个图像出现偏移,因此一般要用行同步和列同步的方法把差错控制在一行一列之内。一组连续同值的若干像素可用两个值表示:像素的值和同值像素的个数。对于有许多相同颜色的图像区域,这种算法的压缩效果是很明显的。,行程编码,例如有一串数码为000011111000,按上述的表示方法,则它的行程码为0453。第一位表示该数码串的首码0;第二位表示有4个连续的0;第三位表示有5个连续的1;第四位表示l以
17、后是3个0。由于二进制数的码非0即 l,因此无须在04后再写 l。,算术编码(arithmetic coding),算术编码方法不是将单个信源符号映射成一个码字,而是把信源符号表示为实数0到1之间的一个区间,其长度等于该消息的概率。消息序列中的每个元素都要用来缩短这个区间。消息序列中元素越多,所得到的区间就越小,就需要更多的数位来表示这个区间。再在该区间内选择一个代表性的小数,转化为二进制作为实际的编码输出。原理,算术编码,算术编码的特点不需要码表当信源符号概率比较接近时,算术编码效率高于哈夫曼方法实现方法复杂,尤其是硬件实现 JPEG成员对多幅图像的测试结果表明,算术编码比哈夫曼编码能提高5
18、左右的效率。在JEPG的扩展系统中,用算术编码方法取代了哈夫曼方法。,3.3 音频压缩标准,音频压缩编码的基本方法电话质量的语音压缩标准调幅广播质量的压缩标准高保真立体声压缩标准,3.3.1 音频压缩编码的基本方法,3.3.2 电话质量的语音压缩标准,ITU建议的用于电话质量的语音压缩标准,3.3.3 调幅广播质量的压缩标准,调幅广播质量音频信号的频率范围是50Hz7KHz,又称“7KHz音频信号”,当使用16KHz的采样频率和14bit的量化位数时,信号速率为224Kbps。1988年ITU制定了G.722标准,它可把信号速率压缩成64Kbps。,3.3.4 高保真立体声音频压缩标准,高保真
19、立体声音频信号的频率范围50Hz20KHz,在44.1KHz采样频率下用16bit量化,信号速率为每声道705Kbps。目前国际上比较成熟的高保真立体声音频压缩标准为“MPEG音频”。MPEG是动态图像编码的国际标准,“MPEG音频”是该标准中的一部分。,3.4 图像和视频压缩标准,静止图像压缩标准JPEG运动图像压缩标准MPEG系列MPEG-1,MPEG-2,MPEG-4,MPEG-7,MPEG-21视频通信编码标准H.261、H.263运动静止图像专家组的M-JPEG其它:Real-Networks的RealVideo、微软公司的WMT以及Apple公司的QuickTime等,3.4.1
20、静止图像压缩标准JPEG,1986年ISO和CCITT成立联合图片专家组(Joint Photographic Experts Group)1992.1 提出“多灰度静止图像的数字压缩编码”(简称JPEG标准)草案主要制订静态图像帧内压缩编码ISO/IEC 109181994.2 正式第一次编辑出版,JPEG标准采用了混合编码方法,定义了两种基本压缩算法:基于DCT变换并应用行程编码和熵编码的有损压缩算法,压缩率1011001基于空间线性预测技术(即DPCM)的无损压缩算法,压缩率大约为41,JPEG编码框图,原图像数据,8*8块,DCT变换,量化器,熵编码器,压缩图像数据,表说明,表说明,J
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体 数据压缩
链接地址:https://www.desk33.com/p-248116.html