姓名:李文森
多媒體數據壓縮技術是現代網絡發展的關鍵技術之壹。因為在圖像和聲音信號中存在各種冗余,所以可以壓縮數據。數據壓縮技術有兩種:無損壓縮和有損壓縮,這些壓縮技術有不同的標準。
壹、多媒體數據壓縮技術
當C.E.Shannon創立信息論時,他提出數據應該被看作是信息和冗余的組合。早期的數據壓縮成為信息論的壹部分,因為它涉及冗余。數據可以壓縮,因為有各種冗余。其中,有時間冗余、空間冗余、信息熵冗余、先驗知識冗余和其他冗余。時間冗余是語音和序列圖像中常見的冗余,運動圖像中兩幀之間有很強的相關性。通過使用幀間運動補償,可以極大地壓縮圖像數據的速率。發音也是如此。尤其在濁音段,語音信號長時間(幾到幾十毫秒)表現出很強的周期性,通過線性預測可以獲得很高的壓縮比。空間冗余用於表示圖像數據中的壹些空間規律性,例如在大的均勻背景中的大的空間冗余。信息熵冗余是指在信息源的符號表示中,不遵循信息論意義上的最優編碼而導致的冗余。這種冗余可以通過熵編碼來壓縮,例如Huff-man編碼。先驗知識冗余是指對數據的理解與先驗知識有相當大的關系。例如,當接收者知道壹個單詞的前幾個字母是administro to時,他可以立即猜出最後壹個字母是r,所以在這種情況下,最後壹個字母不包含任何信息,這是壹種先驗知識冗余。其他冗余是指由主觀感受不到的信息引起的冗余。
通常,數據壓縮技術可以分為無損壓縮(也稱為冗余壓縮)和有損壓縮(也稱為熵壓縮)。無損壓縮是去除或減少數據中的冗余,但這些冗余可以重新插入到數據中,所以不會有失真。這種方法壹般用於文本數據的壓縮,可以保證原始數據的完全恢復;它的缺點是壓縮比低(它的壓縮比壹般是2: 1到5: 1)。有損壓縮壓縮熵,所以有壹定程度的失真;主要用於壓縮聲音、圖像、動態視頻等數據,壓縮比比較高(壹般壓縮比高達20: 1)。被稱為“e-igen-ID”的最新壓縮技術可以將基因數據壓縮654.38+0.5億次。對於多媒體圖像,有靜態圖像壓縮標準(JPEG標準,即“JointPhotographicExpertGroup”標準)和動態圖像壓縮標準(MPEG標準,即“MovingPictureExpertGroup”標準)。
JPEG利用人眼的心理和生理特性及其局限性,對彩色、單色和多灰度連續色調、靜態圖像和數字圖像進行壓縮,因此非常適合不太復雜且壹般來源於真實的情況。
真實場景的圖像。它定義了兩種基本的壓縮算法:壹種是基於失真的壓縮算法,另壹種是基於空間線性預測(DPCM)的無損壓縮算法。為了滿足各種需求,它制定了四種工作模式:無損壓縮、基於DCT的順序工作模式、漸進工作模式和分層工作模式。
MPEG用於壓縮運動圖像。MPEG標準包括三個部分:(1)MPEG視頻,(2)MPEG音頻和(3)MP系統(視頻和音頻的同步)。MPEG視頻是該標準的核心。它采用幀內和幀間相結合的壓縮方法,基於離散殘差變換(DCT)和運動補償。在圖像質量基數不變的情況下,MPEG可以將圖像壓縮到1/100以上。MPEG音頻壓縮算法基於人耳掩蔽濾波功能。利用聲音心理學的基本原理,即回放某個頻率的音頻時聽不到該頻率的聲音,對人聽不到或基本聽不到的冗余音頻信號進行壓縮,最終音頻信號壓縮比達到8: 1或更高,音質逼真,堪比CD唱片。根據MPEG標準,MPEG數據流包含系統層和壓縮層數據。系統層包含定時信號、圖像和聲音的同步以及多重同步。
分布等信息。壓縮層包含實際壓縮的圖像和聲音數據。視頻和音頻信號合並同步後,數據傳輸速率為1.5 MB/s..壓縮圖像數據的傳輸速率為1.2M,壓縮聲音的傳輸速率為0.2mb/s..
MPEG標準的發展經歷了不同的層次,如MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21。在不同的MPEG標準中,每壹個標準都是基於先前的標準,並且向後兼容先前的標準。目前,圖像壓縮廣泛采用MPEG- 4標準。MPEG-4是在MPEG-2基礎上的巨大擴展,主要目標是多媒體應用。在MPEG-2標準中,我們的概念是單個圖像,它包含了壹個圖像的所有元素。在MPEG-4標準下,我們的概念變成了多圖像元素,每個多圖像元素都是獨立編碼的。該標準包含對接收器的說明,告訴接收器如何形成最終圖像。
上圖不僅展示了MPEG-4解碼器的概念,還清晰地描繪了各個組件的用途。這裏,不是使用單個視頻或音頻解碼器,而是使用幾個解碼器,每個解碼器僅接收特定的圖像(或聲音)元素並完成解碼操作。每個解碼緩沖器只接收自己的敏感數據流,並將其轉發給解碼器。復合存儲器完成圖像元素的存儲,並將它們發送到顯示器的適當位置。音頻也是如此,但明顯的區別是要求同時提供所有元素。數據上的時間戳確保這些元素可以及時正確地同步。MPEG-4標準區分並規定了自然元素(物理圖像)和合成元素,計算機生成的動畫就是合成元素的壹個例子。例如,壹個完整的圖像可以包含壹個實際的背景圖像,前面有壹個動畫或另壹個自然圖像。這樣的圖像可以被最佳地壓縮並彼此獨立地傳輸到接收器,並且接收器知道如何組合這些元素。在MPEG-2標準中,圖像被整體壓縮。在MPEG-4標準下,圖像中的每個元素都被優化和壓縮。靜態背景不需要壓縮到下壹個I幀,否則會使帶寬的使用非常緊張。如果背景圖像靜止10秒,只需要傳輸壹次(假設我們不用擔心這段時間有人切入這個通道),只需要持續傳輸前景中相對較小的圖像元素。對於某些程序類型,這將節省大量帶寬。MPEG-4標準也以同樣的方式處理音頻。例如,有壹個獨奏演員由電子合成器伴奏。在MPEG-2標準下,首先要將獨奏者和合成器進行混音,然後對合成的音頻信號進行壓縮傳輸。在MPEG-4標準下,我們可以單獨對獨奏進行壓縮,然後傳輸樂器數字接口的聲道信號,讓接收端重構聲音。當然,接收器必須能夠支持MIDI播放。與傳輸合成信號相比,單獨傳輸獨奏信號和MIDI數據節省了大量帶寬。其他節目類型也可以做出類似的規定。MPEG-7標準也稱為多媒體內容描述接口標準。圖像可以用顏色、紋理、形狀、運動等參數來描述。MPEG-7標準依靠許多參數來對圖像和聲音進行分類並查詢它們的數據庫。
二、多媒體數據壓縮技術的實現方法
目前,多媒體壓縮技術的實現方法有近百種,其中基於信源理論編碼的壓縮方法、離散余弦變換和小波分解技術比較有代表性。小波技術突破了傳統壓縮方法的局限性,引入了局部和全局相關冗余去除的新思路,潛力巨大,因此近年來吸引了眾多研究者。在小波壓縮技術中,壹幅圖像可以分解成若幹個區域,稱為“小塊”;在每部影片中,圖像經過濾波後被分解成若幹個低頻和高頻分量。低頻分量可以用不同的分辨率進行量化,即圖像的低頻部分需要大量的二進制比特來提高圖像重建的信噪比。低頻成分可以細量化,高頻成分可以粗量化,因為在變化的區域妳不容易看到噪聲和誤差。此外,已經提出了分段技術作為壓縮方法,其依賴於實際圖形的重復特性。用分塊技術壓縮圖像會占用大量的計算機資源,但可以獲得很好的效果。借助DNA序列研究發展起來的模式識別技術,可以減少通過WAN鏈路的流量,壓縮比最高可達90%,從而為網絡傳輸圖像和聲音提供更大的壓縮比,降低網絡負荷,更好地實現網絡信息傳播。
第三,壓縮原理
因為圖像數據之間存在壹些冗余,所以可以壓縮數據。信息論的創始人香農提出,數據應該被看作是信息和冗余的結合體。所謂冗余,是因為壹幅圖像的像素之間有很大的相關性,可以用壹些編碼方法刪除,從而達到減少冗余壓縮數據的目的。為了去除數據中的冗余,往往需要考慮信號源的統計特性或者建立信號源的統計模型。圖像冗余包括以下內容:
(1)空間冗余:像素之間的相關性。
(2)時間冗余:運動圖像的兩個連續幀之間的冗余。
(3)信息熵冗余:單位信息大於其熵。
(4)結構冗余:圖像的區域中存在非常強的紋理結構。
(5)知識冗余:有壹個固定的結構,比如壹個人頭。
(6)視覺冗余:有些圖像的失真是人眼察覺不到的。
數字圖像的壓縮通常使用兩個基本原理:
(1)數字圖像的相關性。在圖像的同壹行中的相鄰像素和運動圖像的相鄰幀中的對應像素之間通常存在很強的相關性。去除或減少這些相關性也會去除或減少圖像信息中的冗余,即實現數字圖像的壓縮。
(2)人的視覺心理特征。人類視覺對尖銳的邊緣變化(視覺掩蔽效應)不敏感,顏色分辨率較弱。利用這些特性,可以在相應的部分適當降低編碼精度,使人們在視覺上感受不到圖像質量的下降,從而達到數字圖像壓縮的目的。
編碼壓縮方法有很多種,從不同的角度看也有不同的分類方法。例如,從信息論的角度來看,它們可以分為兩類:
(1)冗余壓縮方法,又稱無損壓縮、信息保持編碼或熵編碼。具體來說,解碼後的圖像與壓縮編碼前的圖像完全相同,沒有失真。從數學上講,這是壹個可逆的操作。
(2)信息壓縮方法,也稱為有損壓縮、失真編碼或熵編碼。也就是說,解碼後的圖像與原始圖像不同,允許有壹定的失真。
多媒體中應用的圖像壓縮和編碼方法可以分為:
(1)什麽樣的無損壓縮編碼?霍夫曼編碼?算術編碼?遊程編碼?倫佩爾zev編碼
(2)什麽樣的有損壓縮編碼?預測編碼:DPCM,運動補償?頻域方法:文本變換編碼(如DCT),子帶編碼?空間域方法:統計分組編碼?模型方法:分形編碼,基於模型的編碼?基於重要性:濾波、子采樣、比特分配、矢量量化
(3)混合編碼?JBIG、H261、JPEG、MPEG等技術標準。
衡量壹種壓縮編碼方法優劣的重要指標
(1)的壓縮比更高,幾倍、幾十倍、幾百倍甚至幾千倍;
(2)壓縮和解壓縮速度要快,算法要簡單,硬件實現要容易;
(3)解壓縮後的圖像質量更好。
第四,JPEG圖像壓縮算法
1 ...JPEG壓縮過程
JPEG壓縮分四步實施:
1.顏色模式轉換和采樣;
2.DCT變換;
3.量化;
4.編碼。
2.1.顏色模式轉換和采樣
RGB顏色系統是最常用的表示顏色的方式。JPEG使用YCbCr顏色系統。如果要使用JPEG基本壓縮方法處理全色圖像,必須先將RGB顏色模式圖像數據轉換為YCbCr顏色模式數據。y代表亮度,Cb和Cr代表色度和飽和度。數據轉換可通過以下計算公式完成。
y = 0.2990 r+0.5870g+0.1140 b
CB =-0.1687 r-0.3313G+0.5000 b+128
Cr = 0.5000 r-0.4187g-0.0813B+128
人眼對低頻數據比對高頻數據更敏感。事實上,人類
我們的眼睛對亮度的變化也比對顏色的變化敏感得多,也就是說Y分量的數據更重要。由於Cb分量和Cr分量的數據相對不重要,所以只能取部分數據進行處理。以增加壓縮比。JPEG通常有兩種采樣方式:YUV411和YUV422,分別代表Y、Cb和Cr的數據采樣率。
2.2.DCT變換
DCT變換的全稱是離散余弦變換,是指將壹組光強數據轉換成頻率數據,從而了解光強變化的情況。如果我們對高頻數據進行修改,然後轉回原始數據,顯然與原始數據有所不同,但人眼不容易識別。
壓縮時,將原始圖像數據分成8×8個數據單元矩陣,例如,第壹個亮度值矩陣的內容如下:
JPEG將整個亮度矩陣、色度Cb矩陣和飽和度Cr矩陣作為壹個基本單元,稱為MCU。每個MCU包含不超過10個矩陣。例如,如果行和列采樣的比率是4:2:2,那麽每個MCU將包含四個亮度矩陣、壹個色度矩陣和壹個飽和度矩陣。
當把圖像數據分割成8*8的矩陣時,每個值必須減去128,然後代入DCT變換公式,這樣就可以達到DCT變換的目的。圖像數據值必須從128中減去,因為DCT轉換公式接受的數字範圍在-128和+127之間。
DCT變換公式:
x和y表示圖像數據矩陣中某個值的坐標位置。
F(x,y)表示圖像數據矩陣中的幾個值。
u和v表示DCT變換後矩陣中某個值的坐標位置。
F(u,v)表示DCT變換後矩陣中的某個值。
U=0且v = 0 c(u)c(v)= 1/1.414。
u & gt0或v & gt0 c(u)c(v)=1
DCT變換後的矩陣數據的自然數是頻率系數,這些系數的最大值是f (0,0),稱為DC。其余63個頻率系數多為接近0的正負浮點數,統稱為AC。
3.3、量化
在圖像數據被轉換成頻率系數之後,在它能夠進入編碼階段之前,它必須經歷量化過程。
在量化階段,需要兩個8*8的矩陣數據,壹個是處理亮度的頻率系數,另壹個是
對於色度的頻率系數,用頻率系數除以量化矩陣的值,得到最接近商的整數。
即量化完成。
量化頻率系數時,頻率系數由浮點數轉換為整數,最方便執行
編碼後。但量化階段後,所有數據只保持整數近似,再次丟失。
JPEG提供的量化表如下:
2.4、編碼
霍夫曼編碼沒有專利權,已經成為JPEG中最常用的編碼方式。霍夫曼編碼通常是用壹個完整的單片機來實現的。
編碼時,每個矩陣數據的DC值和63個AC值會使用不同的霍夫曼編碼表,亮度和色度也需要不同的霍夫曼編碼表,所以壹個* * *需要4個編碼表才能成功完成JPEG編碼。
DC編碼
DC是壹種差分編碼方法,通過差分脈沖編碼對顏色進行調制,即在同壹圖像分量中獲得每個DC值與前壹個DC值的差值進行編碼。DC采用差分脈沖編碼的主要原因是在連續色調圖像中,差分大多小於原值,對差分進行編碼所需的比特數會比原值編碼所需的比特數少得多。例如,如果差值為5,則其二進制表示值為101。如果差值為-5,則先將其改為正整數5,然後將其二進制轉換為1的補碼。所謂1的補碼,就是把每壹位的值如果是0,就改成1;當該位為1時,它變為0。應該為差值5保留的比特數是3。下表列出了應為差值保留的位數與差值內容之間的比較。
在差之前加上壹些差的霍夫曼碼值。比如亮度差為5(101)的位數是3,那麽霍夫曼碼值應該是100,兩者連在壹起就是1001。下面兩個表分別是亮度和色度的DC差的編碼表。根據這兩個表的內容,可以將霍夫曼碼值加到DC差上,完成DC的編碼。
交流編碼
AC編碼方法與DC略有不同。交流編碼前,63個交流值必須按之字形排序,即按下圖箭頭所示順序串聯。
如果排列63個AC值,將AC系數轉換為中間符號,表示為RRRR/SSSS,RRRR指非零AC前值為0的AC的個數,SSSS指AC值所需的位數。AC系數的範圍與SSSS的對應關系類似於DC差分位數和差分內容的對照表。
如果有連續零的AC的個數大於15,則16個零用15/0來表示,稱為ZRL(零朗姆長度),(0/0)稱為EOB(塊的艾尼路)來表示下面的幾個。
其余的AC系數都等於0。以中間的符號值為索引值,從對應的AC編碼表中找到合適的霍夫曼碼值,然後與AC值連接。
比如某組亮度中間字符為5/3,AC值為4。首先,使用5/3作為索引值。從亮度AC的霍夫曼編碼表中找到1111111110065438。霍夫曼碼1111111110065438+。
因為亮度AC和色度AC霍夫曼編碼表比較長,所以這裏省略。有興趣的可以參考相關書籍。
實現以上四個步驟,即完成壹幅圖像的JPEG壓縮。