求一篇多媒体技术论文

多媒体图像压缩技术

姓名:李文森

多媒体数据压缩技术是现代网络发展的关键技术之一。因为在图像和声音信号中存在各种冗余，所以可以压缩数据。数据压缩技术有两种:无损压缩和有损压缩，这些压缩技术有不同的标准。

一、多媒体数据压缩技术

当C.E.Shannon创立信息论时，他提出数据应该被看作是信息和冗余的组合。早期的数据压缩成为信息论的一部分，因为它涉及冗余。数据可以压缩，因为有各种冗余。其中，有时间冗余、空间冗余、信息熵冗余、先验知识冗余和其他冗余。时间冗余是语音和序列图像中常见的冗余，运动图像中两帧之间有很强的相关性。通过使用帧间运动补偿，可以极大地压缩图像数据的速率。发音也是如此。尤其在浊音段，语音信号长时间(几到几十毫秒)表现出很强的周期性，通过线性预测可以获得很高的压缩比。空间冗余用于表示图像数据中的一些空间规律性，例如在大的均匀背景中的大的空间冗余。信息熵冗余是指在信息源的符号表示中，不遵循信息论意义上的最优编码而导致的冗余。这种冗余可以通过熵编码来压缩，例如Huff-man编码。先验知识冗余是指对数据的理解与先验知识有相当大的关系。例如，当接收者知道一个单词的前几个字母是administro to时，他可以立即猜出最后一个字母是r，所以在这种情况下，最后一个字母不包含任何信息，这是一种先验知识冗余。其他冗余是指由主观感受不到的信息引起的冗余。

通常，数据压缩技术可以分为无损压缩(也称为冗余压缩)和有损压缩(也称为熵压缩)。无损压缩是去除或减少数据中的冗余，但这些冗余可以重新插入到数据中，所以不会有失真。这种方法一般用于文本数据的压缩，可以保证原始数据的完全恢复；它的缺点是压缩比低(它的压缩比一般是2: 1到5: 1)。有损压缩压缩熵，所以有一定程度的失真；主要用于压缩声音、图像、动态视频等数据，压缩比比较高(一般压缩比高达20: 1)。被称为“e-igen-ID”的最新压缩技术可以将基因数据压缩654.38+0.5亿次。对于多媒体图像，有静态图像压缩标准(JPEG标准，即“JointPhotographicExpertGroup”标准)和动态图像压缩标准(MPEG标准，即“MovingPictureExpertGroup”标准)。

JPEG利用人眼的心理和生理特性及其局限性，对彩色、单色和多灰度连续色调、静态图像和数字图像进行压缩，因此非常适合不太复杂且一般来源于真实的情况。

真实场景的图像。它定义了两种基本的压缩算法:一种是基于失真的压缩算法，另一种是基于空间线性预测(DPCM)的无损压缩算法。为了满足各种需求，它制定了四种工作模式:无损压缩、基于DCT的顺序工作模式、渐进工作模式和分层工作模式。

MPEG用于压缩运动图像。MPEG标准包括三个部分:(1)MPEG视频，(2)MPEG音频和(3)MP系统(视频和音频的同步)。MPEG视频是该标准的核心。它采用帧内和帧间相结合的压缩方法，基于离散残差变换(DCT)和运动补偿。在图像质量基数不变的情况下，MPEG可以将图像压缩到1/100以上。MPEG音频压缩算法基于人耳掩蔽滤波功能。利用声音心理学的基本原理，即回放某个频率的音频时听不到该频率的声音，对人听不到或基本听不到的冗余音频信号进行压缩，最终音频信号压缩比达到8: 1或更高，音质逼真，堪比CD唱片。根据MPEG标准，MPEG数据流包含系统层和压缩层数据。系统层包含定时信号、图像和声音的同步以及多重同步。

分布等信息。压缩层包含实际压缩的图像和声音数据。视频和音频信号合并同步后，数据传输速率为1.5 MB/s..压缩图像数据的传输速率为1.2M，压缩声音的传输速率为0.2mb/s..

MPEG标准的发展经历了不同的层次，如MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21。在不同的MPEG标准中，每一个标准都是基于先前的标准，并且向后兼容先前的标准。目前，图像压缩广泛采用MPEG- 4标准。MPEG-4是在MPEG-2基础上的巨大扩展，主要目标是多媒体应用。在MPEG-2标准中，我们的概念是单个图像，它包含了一个图像的所有元素。在MPEG-4标准下，我们的概念变成了多图像元素，每个多图像元素都是独立编码的。该标准包含对接收器的说明，告诉接收器如何形成最终图像。

上图不仅展示了MPEG-4解码器的概念，还清晰地描绘了各个组件的用途。这里，不是使用单个视频或音频解码器，而是使用几个解码器，每个解码器仅接收特定的图像(或声音)元素并完成解码操作。每个解码缓冲器只接收自己的敏感数据流，并将其转发给解码器。复合存储器完成图像元素的存储，并将它们发送到显示器的适当位置。音频也是如此，但明显的区别是要求同时提供所有元素。数据上的时间戳确保这些元素可以及时正确地同步。MPEG-4标准区分并规定了自然元素(物理图像)和合成元素，计算机生成的动画就是合成元素的一个例子。例如，一个完整的图像可以包含一个实际的背景图像，前面有一个动画或另一个自然图像。这样的图像可以被最佳地压缩并彼此独立地传输到接收器，并且接收器知道如何组合这些元素。在MPEG-2标准中，图像被整体压缩。在MPEG-4标准下，图像中的每个元素都被优化和压缩。静态背景不需要压缩到下一个I帧，否则会使带宽的使用非常紧张。如果背景图像静止10秒，只需要传输一次(假设我们不用担心这段时间有人切入这个通道)，只需要持续传输前景中相对较小的图像元素。对于某些程序类型，这将节省大量带宽。MPEG-4标准也以同样的方式处理音频。例如，有一个独奏演员由电子合成器伴奏。在MPEG-2标准下，首先要将独奏者和合成器进行混音，然后对合成的音频信号进行压缩传输。在MPEG-4标准下，我们可以单独对独奏进行压缩，然后传输乐器数字接口的声道信号，让接收端重构声音。当然，接收器必须能够支持MIDI播放。与传输合成信号相比，单独传输独奏信号和MIDI数据节省了大量带宽。其他节目类型也可以做出类似的规定。MPEG-7标准也称为多媒体内容描述接口标准。图像可以用颜色、纹理、形状、运动等参数来描述。MPEG-7标准依靠许多参数来对图像和声音进行分类并查询它们的数据库。

二、多媒体数据压缩技术的实现方法

目前，多媒体压缩技术的实现方法有近百种，其中基于信源理论编码的压缩方法、离散余弦变换和小波分解技术比较有代表性。小波技术突破了传统压缩方法的局限性，引入了局部和全局相关冗余去除的新思路，潜力巨大，因此近年来吸引了众多研究者。在小波压缩技术中，一幅图像可以分解成若干个区域，称为“小块”；在每部影片中，图像经过滤波后被分解成若干个低频和高频分量。低频分量可以用不同的分辨率进行量化，即图像的低频部分需要大量的二进制比特来提高图像重建的信噪比。低频成分可以细量化，高频成分可以粗量化，因为在变化的区域你不容易看到噪声和误差。此外，已经提出了分段技术作为压缩方法，其依赖于实际图形的重复特性。用分块技术压缩图像会占用大量的计算机资源，但可以获得很好的效果。借助DNA序列研究发展起来的模式识别技术，可以减少通过WAN链路的流量，压缩比最高可达90%，从而为网络传输图像和声音提供更大的压缩比，降低网络负荷，更好地实现网络信息传播。

第三，压缩原理

因为图像数据之间存在一些冗余，所以可以压缩数据。信息论的创始人香农提出，数据应该被看作是信息和冗余的结合体。所谓冗余，是因为一幅图像的像素之间有很大的相关性，可以用一些编码方法删除，从而达到减少冗余压缩数据的目的。为了去除数据中的冗余，往往需要考虑信号源的统计特性或者建立信号源的统计模型。图像冗余包括以下内容:

(1)空间冗余:像素之间的相关性。

(2)时间冗余:运动图像的两个连续帧之间的冗余。

(3)信息熵冗余:单位信息大于其熵。

(4)结构冗余:图像的区域中存在非常强的纹理结构。

(5)知识冗余:有一个固定的结构，比如一个人头。

(6)视觉冗余:有些图像的失真是人眼察觉不到的。

数字图像的压缩通常使用两个基本原理:

(1)数字图像的相关性。在图像的同一行中的相邻像素和运动图像的相邻帧中的对应像素之间通常存在很强的相关性。去除或减少这些相关性也会去除或减少图像信息中的冗余，即实现数字图像的压缩。

(2)人的视觉心理特征。人类视觉对尖锐的边缘变化(视觉掩蔽效应)不敏感，颜色分辨率较弱。利用这些特性，可以在相应的部分适当降低编码精度，使人们在视觉上感受不到图像质量的下降，从而达到数字图像压缩的目的。

编码压缩方法有很多种，从不同的角度看也有不同的分类方法。例如，从信息论的角度来看，它们可以分为两类:

(1)冗余压缩方法，又称无损压缩、信息保持编码或熵编码。具体来说，解码后的图像与压缩编码前的图像完全相同，没有失真。从数学上讲，这是一个可逆的操作。

(2)信息压缩方法，也称为有损压缩、失真编码或熵编码。也就是说，解码后的图像与原始图像不同，允许有一定的失真。

多媒体中应用的图像压缩和编码方法可以分为:

(1)什么样的无损压缩编码？霍夫曼编码？算术编码？游程编码？伦佩尔zev编码

(2)什么样的有损压缩编码？预测编码:DPCM，运动补偿？频域方法:文本变换编码(如DCT)，子带编码？空间域方法:统计分组编码？模型方法:分形编码，基于模型的编码？基于重要性:滤波、子采样、比特分配、矢量量化

(3)混合编码？JBIG、H261、JPEG、MPEG等技术标准。

衡量一种压缩编码方法优劣的重要指标

(1)的压缩比更高，几倍、几十倍、几百倍甚至几千倍；

(2)压缩和解压缩速度要快，算法要简单，硬件实现要容易；

(3)解压缩后的图像质量更好。

第四，JPEG图像压缩算法

1 ...JPEG压缩过程

JPEG压缩分四步实施:

1.颜色模式转换和采样；

2.DCT变换；

3.量化；

4.编码。

2.1.颜色模式转换和采样

RGB颜色系统是最常用的表示颜色的方式。JPEG使用YCbCr颜色系统。如果要使用JPEG基本压缩方法处理全色图像，必须先将RGB颜色模式图像数据转换为YCbCr颜色模式数据。y代表亮度，Cb和Cr代表色度和饱和度。数据转换可通过以下计算公式完成。

y = 0.2990 r+0.5870g+0.1140 b

CB =-0.1687 r-0.3313G+0.5000 b+128

Cr = 0.5000 r-0.4187g-0.0813B+128

人眼对低频数据比对高频数据更敏感。事实上，人类

我们的眼睛对亮度的变化也比对颜色的变化敏感得多，也就是说Y分量的数据更重要。由于Cb分量和Cr分量的数据相对不重要，所以只能取部分数据进行处理。以增加压缩比。JPEG通常有两种采样方式:YUV411和YUV422，分别代表Y、Cb和Cr的数据采样率。

2.2.DCT变换

DCT变换的全称是离散余弦变换，是指将一组光强数据转换成频率数据，从而了解光强变化的情况。如果我们对高频数据进行修改，然后转回原始数据，显然与原始数据有所不同，但人眼不容易识别。

压缩时，将原始图像数据分成8×8个数据单元矩阵，例如，第一个亮度值矩阵的内容如下:

JPEG将整个亮度矩阵、色度Cb矩阵和饱和度Cr矩阵作为一个基本单元，称为MCU。每个MCU包含不超过10个矩阵。例如，如果行和列采样的比率是4:2:2，那么每个MCU将包含四个亮度矩阵、一个色度矩阵和一个饱和度矩阵。

当把图像数据分割成8*8的矩阵时，每个值必须减去128，然后代入DCT变换公式，这样就可以达到DCT变换的目的。图像数据值必须从128中减去，因为DCT转换公式接受的数字范围在-128和+127之间。

DCT变换公式:

x和y表示图像数据矩阵中某个值的坐标位置。

F(x，y)表示图像数据矩阵中的几个值。

u和v表示DCT变换后矩阵中某个值的坐标位置。

F(u，v)表示DCT变换后矩阵中的某个值。

U=0且v = 0 c(u)c(v)= 1/1.414。

u & gt0或v & gt0 c(u)c(v)=1

DCT变换后的矩阵数据的自然数是频率系数，这些系数的最大值是f (0，0)，称为DC。其余63个频率系数多为接近0的正负浮点数，统称为AC。

3.3、量化

在图像数据被转换成频率系数之后，在它能够进入编码阶段之前，它必须经历量化过程。

在量化阶段，需要两个8*8的矩阵数据，一个是处理亮度的频率系数，另一个是

对于色度的频率系数，用频率系数除以量化矩阵的值，得到最接近商的整数。

即量化完成。

量化频率系数时，频率系数由浮点数转换为整数，最方便执行

编码后。但量化阶段后，所有数据只保持整数近似，再次丢失。

JPEG提供的量化表如下:

2.4、编码

霍夫曼编码没有专利权，已经成为JPEG中最常用的编码方式。霍夫曼编码通常是用一个完整的单片机来实现的。

编码时，每个矩阵数据的DC值和63个AC值会使用不同的霍夫曼编码表，亮度和色度也需要不同的霍夫曼编码表，所以一个* * *需要4个编码表才能成功完成JPEG编码。

DC编码

DC是一种差分编码方法，通过差分脉冲编码对颜色进行调制，即在同一图像分量中获得每个DC值与前一个DC值的差值进行编码。DC采用差分脉冲编码的主要原因是在连续色调图像中，差分大多小于原值，对差分进行编码所需的比特数会比原值编码所需的比特数少得多。例如，如果差值为5，则其二进制表示值为101。如果差值为-5，则先将其改为正整数5，然后将其二进制转换为1的补码。所谓1的补码，就是把每一位的值如果是0，就改成1；当该位为1时，它变为0。应该为差值5保留的比特数是3。下表列出了应为差值保留的位数与差值内容之间的比较。

在差之前加上一些差的霍夫曼码值。比如亮度差为5(101)的位数是3，那么霍夫曼码值应该是100，两者连在一起就是1001。下面两个表分别是亮度和色度的DC差的编码表。根据这两个表的内容，可以将霍夫曼码值加到DC差上，完成DC的编码。

交流编码

AC编码方法与DC略有不同。交流编码前，63个交流值必须按之字形排序，即按下图箭头所示顺序串联。

如果排列63个AC值，将AC系数转换为中间符号，表示为RRRR/SSSS，RRRR指非零AC前值为0的AC的个数，SSSS指AC值所需的位数。AC系数的范围与SSSS的对应关系类似于DC差分位数和差分内容的对照表。

如果有连续零的AC的个数大于15，则16个零用15/0来表示，称为ZRL(零朗姆长度)，(0/0)称为EOB(块的艾尼路)来表示下面的几个。

其余的AC系数都等于0。以中间的符号值为索引值，从对应的AC编码表中找到合适的霍夫曼码值，然后与AC值连接。

比如某组亮度中间字符为5/3，AC值为4。首先，使用5/3作为索引值。从亮度AC的霍夫曼编码表中找到1111111110065438。霍夫曼码1111111110065438+。

因为亮度AC和色度AC霍夫曼编码表比较长，所以这里省略。有兴趣的可以参考相关书籍。

实现以上四个步骤，即完成一幅图像的JPEG压缩。