- 相關(guān)推薦
探討重復(fù)數(shù)據(jù)刪除技術(shù)在中央電臺媒資備份存儲系統(tǒng)中應(yīng)用
探討重復(fù)數(shù)據(jù)刪除技術(shù)在中央電臺媒資備份存儲系統(tǒng)中應(yīng)用作者/ 劉華
一、引言
2012年初,中央電臺媒資備份存儲系統(tǒng)正式投入使用。經(jīng)過一年的運行,大量的節(jié)目內(nèi)容,豐富的歷史資料迅速將中央電臺媒資備份存儲系統(tǒng)填滿,嚴重掣肘了節(jié)目歸檔、素材入庫等媒資管理工作。近期中央電臺完成了媒資備份存儲系統(tǒng)在線擴容工作。備份存儲的磁盤容量由之前的20T B,增加30TB,總計達到50T B。短短一年時間,磁盤空間需求已經(jīng)翻番,可以預(yù)見,中央電臺媒資備份存儲系統(tǒng)還將面臨磁盤空間短缺的問題。面對日益爆炸的數(shù)據(jù)增長和由此不斷上升產(chǎn)生的存儲壓力難題,如何控制和有效降低海量數(shù)據(jù)顯得尤為重要。重復(fù)數(shù)據(jù)刪除技術(shù)無疑是“瘦身”的一項不錯選擇。
二、數(shù)據(jù)冗余
目前,中央電臺媒資備份存儲系統(tǒng)中,存在大量的重復(fù)和冗余數(shù)據(jù),造成數(shù)據(jù)冗余的原因可能是人為的:
·為了確保文件的安全性,無意中將同樣的文件存儲了多份;
·不同文件的部分內(nèi)容重復(fù)。
冗余數(shù)據(jù)占據(jù)了大量的存儲空間,降低了存儲空間的利用效率。圖1展示了關(guān)于媒資備份存儲系統(tǒng)中重復(fù)數(shù)據(jù)的比例、來源和分析。
更重要的是:這些大量的冗余數(shù)據(jù)給媒資備份存儲系帶來了大量的問題:
·占用大量存儲空間,降低存儲利用效率;
·增加建設(shè)成本;
·增加額外數(shù)據(jù)管理代價。
三、重復(fù)數(shù)據(jù)刪除概念
通過相關(guān)研究和對實際系統(tǒng)的分析發(fā)現(xiàn),在海量數(shù)字存儲系統(tǒng)中,存在大量的重復(fù)數(shù)據(jù)和相似數(shù)據(jù)。通過重復(fù)數(shù)據(jù)刪除技術(shù)可以有效去除這些重復(fù)數(shù)據(jù),對相同數(shù)據(jù)只存儲一份和只存儲相似數(shù)據(jù)的不同部分,可以有效利用存儲空間,從而有效降低存儲系統(tǒng)成本。
重復(fù)數(shù)據(jù)刪除是一種數(shù)據(jù)縮減技術(shù),旨在最小化文件之間的冗余和重復(fù)的無損壓縮,并對存儲容量進行有效優(yōu)化。它通過刪除數(shù)據(jù)集中重復(fù)的數(shù)據(jù),只保留其中一份,從而達到消除冗余數(shù)據(jù)目的。
目前,絕大多數(shù)的重復(fù)數(shù)據(jù)刪除算法都工作在二進制數(shù)據(jù)層次上,通常使用一些數(shù)據(jù)切分算法,如以整個文件為切分粒度,固定大小的數(shù)據(jù)切分,或者某些H A S H函數(shù)(如R a b i nFingerprinting算法),將每一個帶歸檔的文件切分成若干相互不重疊的數(shù)據(jù)片段,并把這些數(shù)據(jù)片段作為邏輯單位進行后續(xù)處理和存儲操作。在這些數(shù)據(jù)片段中,只有不重復(fù)的數(shù)據(jù)片段才真正存儲到存儲設(shè)備中,而其他的重復(fù)數(shù)據(jù)片段只需記錄其ID和相應(yīng)的依賴文件的對應(yīng)關(guān)系即可。
四、S48音頻文件格式
與其他存儲系統(tǒng)中元數(shù)據(jù)的文件類型、文件格式多樣化不同,中央電臺媒資備份存儲系統(tǒng)中的元數(shù)據(jù)的文件類型、文件格式只有S48格式的音頻文件。對于重復(fù)數(shù)據(jù)刪除技術(shù)而言,我們需要熟悉S48文件,并針對S48文件特點進行重復(fù)數(shù)據(jù)刪除工作。
S48音頻格式是指比特率為256k b i t s/s,采樣率為48000H z的MPEG1-2格式。
幀是MPEG-1處理的最小單元。每個幀又由
1. 幀頭結(jié)構(gòu)
幀頭長4字節(jié),對于固定位率的MP文件,所有幀的幀頭格式一樣其數(shù)據(jù)結(jié)構(gòu)如下:
typedef FrameHeader{
unsigned int syn:11; //同步信息
unsigned int version:2; //版本
unsigned int layer:2; //層
unsigned int protection:1: //CRC校驗
unsigned int bitrate:4; //位率
unsigned int frequency:2; //頻率
unsagned int padding:1; //幀長調(diào)節(jié)
unsigned int private:1; //保留字
unsigned int mode:2; //聲道模式
unsagned int mode extension:2;//擴充模式
unsigned int copyright:1; //版權(quán)
unsigned int original:1; //原版標志
unsigned int emphasis:2; //強調(diào)模式
}HEADER,*LPHEADER;
幀頭4字節(jié)使用說明見表1
幀文件尾的最后128個字節(jié)用來存放ID3信息,這128個字節(jié)使用說明見表2。
五、重復(fù)數(shù)據(jù)刪除設(shè)計思路
重復(fù)數(shù)據(jù)刪除的主要思路是通過利用不同層次上的元數(shù)據(jù)信息,如文件類型、文件格式、應(yīng)用類型和文件系統(tǒng)元數(shù)據(jù)等,來指導(dǎo)數(shù)據(jù)切分算法將文件劃分為更有意義的數(shù)據(jù)片段。元數(shù)據(jù)信息分為以下三類:
·應(yīng)用元數(shù)據(jù),如文件類型、文件格式、應(yīng)用軟件信息等;
·應(yīng)用或用戶的標記,如用于描述圖片、音頻、視頻等多媒體文件特性的各種標記;
·文件系統(tǒng)級元數(shù)據(jù),如目錄條目、文件的INODE信息等。重復(fù)數(shù)據(jù)刪除的主要目標是最大限度減小文件之間的重復(fù)和冗余數(shù)據(jù)。對于中央電臺媒資備份存儲系統(tǒng)而言,我們就需要從以下三方面實現(xiàn)“瘦身”。
1. 數(shù)據(jù)庫
在對數(shù)據(jù)庫進行操作過程中重復(fù)的數(shù)據(jù)可能有這樣兩種情況,第一種是兩行記錄完全一樣,第二種是表中只有某些字段一樣。
·兩行記錄完全一樣:
對于表中兩行記錄完全一樣的情況,可以用下面語句獲取到去掉重復(fù)數(shù)據(jù)后的記錄:
select distinct * from 表名
可以將查詢的記錄放到暫時表中,然后再將原來的表記錄刪除,最初將暫時表的數(shù)據(jù)導(dǎo)回原來的表中。如下:
createTABLE暫時表AS(selectdistinct*from表名);
truncatetable正式表;
insertinto正式表(select*from暫時表);
droptable暫時表;
·表中只有某些字段一樣:
假如想刪除一個表的重復(fù)數(shù)據(jù),可以先建一個暫時表,將去掉重復(fù)數(shù)據(jù)后的數(shù)據(jù)導(dǎo)入到暫時表,然后在從暫時表將數(shù)據(jù)導(dǎo)入正式表中,如下:
insertINTOt_table_bak
selectdistinct*fromt_table;
2. 文件切分
重復(fù)數(shù)據(jù)刪除對于S48音頻文件切分算法的實現(xiàn)基于以下的觀察和思考:許多不同的文件有著相同的音頻內(nèi)容和不同的TAG描述信息,即相同的歌曲由同一個歌手演唱,但發(fā)布在不同專輯,或者相同的內(nèi)容由不同編輯制作,這樣就有了不同的TAG。因此,一般把每個S48文件劃分成三個部分:幀頭、音頻幀、TAG,其中幀頭和音頻幀被解析和存在元數(shù)據(jù)服務(wù)器數(shù)據(jù)庫的某張表中,音頻幀作為一個邏輯數(shù)據(jù)片段存儲,以便進一步被打包成物理對象實際存儲在磁盤設(shè)備上。
具有相同音頻的數(shù)據(jù)內(nèi)容被切成一個數(shù)據(jù)片段,只需保存其中一份即可。由于某些HASH函數(shù)(如Rabin Fingerprinting算法)可以捕獲到二進制層次上的重復(fù),所以若兩個數(shù)據(jù)對象具有相同的內(nèi)容,則可進一步進行重復(fù)數(shù)據(jù)刪除,只存不重復(fù)的數(shù)據(jù)對象。圖3展示了上述過程,并說明在存儲系統(tǒng)中數(shù)據(jù)組織的層次關(guān)系。
3. 方案實施
重復(fù)數(shù)據(jù)刪除主要是針對大規(guī)模存儲系統(tǒng)設(shè)計,其進程可以部署在不同的應(yīng)用服務(wù)器上,且可作為核心進程運行。因此,其方案需要有較好的可擴展性,易于進行數(shù)據(jù)容災(zāi)的部署。
因此在媒資備份存儲系統(tǒng)內(nèi)部署重復(fù)刪除技術(shù)至少需要包括應(yīng)用服務(wù)器,文件歸檔服務(wù)器,元數(shù)據(jù)服務(wù)器和智能存儲節(jié)點等四部分組件實現(xiàn)重復(fù)數(shù)據(jù)刪除和數(shù)據(jù)存儲。圖4展示存儲系統(tǒng)體系結(jié)構(gòu)。
應(yīng)用服務(wù)器為各種應(yīng)用的宿主服務(wù)器,如WEB服務(wù)器,流媒體服務(wù)器等部署應(yīng)用服務(wù)端軟件。文件歸檔服務(wù)器主要是將文件歸檔到存儲節(jié)點,同時部署重復(fù)數(shù)據(jù)刪除軟件的地方。元數(shù)據(jù)服務(wù)器主要對元數(shù)據(jù)管理、與應(yīng)用服務(wù)器交互、安全機制的部署等服務(wù)。智能存儲節(jié)點是完全由通用組件,即操作系統(tǒng)、陣列柜、磁帶庫、文件系統(tǒng)等組成。
對于每個存儲文件首先根據(jù)其相應(yīng)的元數(shù)據(jù)信息,被文件歸檔服務(wù)器切分成若干不重疊的數(shù)據(jù)片段。每一個數(shù)據(jù)片段將對內(nèi)容通過某些Hash函數(shù)計算得到的簽名作為其標識符,用以判斷當(dāng)前是否有重復(fù)的數(shù)據(jù)片段存在。不重復(fù)的數(shù)據(jù)片段將被封裝成定長的數(shù)據(jù)對象,由元數(shù)據(jù)服務(wù)器決定將它們存儲到對應(yīng)的智能存儲節(jié)點中。最后當(dāng)數(shù)據(jù)的存儲位置信息將會返回到文件歸檔服務(wù)器。文件歸檔服務(wù)器可以與智能存儲節(jié)點直接進行數(shù)據(jù)傳輸。這樣應(yīng)用服務(wù)器產(chǎn)生、調(diào)用的節(jié)目素材等內(nèi)容就通過入庫、切割、計算、存儲等步驟進行了“瘦身”,最大限度的精減系統(tǒng)內(nèi)冗余、重復(fù)數(shù)據(jù)的產(chǎn)生,從而實現(xiàn)了重復(fù)數(shù)據(jù)刪除。
六。總結(jié)
隨著中央電臺編播系統(tǒng)數(shù)字化的發(fā)展,節(jié)目內(nèi)容、節(jié)目素材將呈現(xiàn)爆炸式增長趨勢,數(shù)據(jù)總量將急劇膨脹。我們將面臨諸多挑戰(zhàn),如媒資備份存儲空間不足、成本高昂等問題。本文通過對重復(fù)數(shù)據(jù)刪除技術(shù)的探討,采用標準、科學(xué)、先進和可靠的技術(shù),闡述了全新的媒資備份存儲系統(tǒng),為今后的媒資備份存儲系統(tǒng)發(fā)展規(guī)劃,提供了有效的支持,并確保系統(tǒng)在今后相當(dāng)長一段時間留有擴充余地。希望能為廣播電視的媒資備份存儲系統(tǒng)建設(shè)提供一種新思路。
參考文獻
[1] 袁玉宇 劉川意 郭松柳 . 云計算時代的數(shù)據(jù)中心。 電子工業(yè)出版社。2010
[2] 李棟 數(shù)字聲音廣播 北京廣播學(xué)院出版社 2001
[3] Dave Reinesl. Our ExpandingD i g i t a l W o r l d:C a n w e c o n t a i n i t?Can we manage it? Intelligent StorageWorkshop(ISW2008),UMN,MN,2008
[4] 張為民 唐劍鋒 羅治國 錢嶺 .云計算:深刻改變未來 . 01版 . 北京 .科學(xué)出版社 . 2009
[5] 朱近之 張振倫 金海龍 蔣建華 王春海未來,在云端 微型計算機 2011(2)
【探討重復(fù)數(shù)據(jù)刪除技術(shù)在中央電臺媒資備份存儲系統(tǒng)中應(yīng)用】相關(guān)文章:
基于數(shù)據(jù)庫的多媒體技術(shù)在建筑結(jié)構(gòu)與識圖教學(xué)中的應(yīng)用探討08-23
房建施工中鋁模板技術(shù)的應(yīng)用探討08-23
歲月重復(fù)的島中央作文03-07
PowerPoint 課件在初中物理教學(xué)中的應(yīng)用探討05-30
中職數(shù)學(xué)教學(xué)中CAI課件應(yīng)用技巧探討08-18
任務(wù)導(dǎo)向法在計算機教學(xué)中的應(yīng)用探討08-17
CAI技術(shù)在初中數(shù)學(xué)教學(xué)中的應(yīng)用08-17
多媒體技術(shù)在美術(shù)教學(xué)中的應(yīng)用08-17
探討初中語文教學(xué)中語文應(yīng)用能力的培養(yǎng)08-25
生活中的數(shù)據(jù)08-16