- 智能云存儲系統(tǒng) 您現(xiàn)在的位置 :首頁 -- 技術(shù)論壇 -- 智能云存儲系統(tǒng)
大話冷存儲
來源:金錢貓科技股份有限公司 發(fā)表于:2018-04-23 瀏覽701次 |
(一)技術(shù)背景
智能互聯(lián)網(wǎng)時代,數(shù)據(jù)正在以幾何量級爆炸式增長。EMC的預(yù)測報告顯示,到2020年,全球數(shù)據(jù)總量預(yù)計會超過44ZB(1ZB=220PB)。如此海量的數(shù)據(jù)中蘊(yùn)含著巨大的價值,特別是大數(shù)據(jù)的“低價值密度”特性使大規(guī)模數(shù)據(jù)的完備保存成為必然需求,因此如何提升數(shù)據(jù)的存儲管理效率是業(yè)界亟待解決的問題。
根據(jù)被訪問的頻度不同,數(shù)據(jù)可以被分為“熱數(shù)據(jù)、溫數(shù)據(jù)、冷數(shù)據(jù)”三種類型。其中,冷數(shù)據(jù)特指活動不頻繁、不會被經(jīng)常訪問甚至永遠(yuǎn)不會被訪問,但仍然需要長期保留的數(shù)據(jù)。熱數(shù)據(jù)受到業(yè)務(wù)特征、用戶行為乃至監(jiān)管政策的影響(例如,醫(yī)院的醫(yī)學(xué)影像文件需要自患者最后一次就診之日起保存不少于15年),經(jīng)過一段時間的使用后,絕大部分?jǐn)?shù)據(jù)都會迅速變“冷”。因此,數(shù)據(jù)集合中通常有高達(dá)80%的部分屬于不常被訪問的冷數(shù)據(jù)。然而,冷數(shù)據(jù)并非失去價值,大數(shù)據(jù)、人工智能等新興業(yè)務(wù)對海量冷數(shù)據(jù)進(jìn)行檢索和挖掘的需求依然存在而且日益迫切。
當(dāng)前熱數(shù)據(jù)高效存儲/訪問技術(shù)的發(fā)展導(dǎo)致存儲數(shù)據(jù)總量指數(shù)性爆發(fā),面對當(dāng)前數(shù)據(jù)規(guī)??焖僭鲩L的趨勢,冷數(shù)據(jù)如何管理已成為存儲領(lǐng)域的關(guān)注熱點(diǎn)。冷數(shù)據(jù)高效管理的核心需求在于降低海量數(shù)據(jù)冷存儲的成本(特別是系統(tǒng)運(yùn)行功耗)。2015年我國數(shù)據(jù)中心的電量總消耗為1000億度,超過全社會年用電量的1.5%,存儲系統(tǒng)消耗電量占總消耗的30%,其中冷存儲消耗占比存儲系統(tǒng)總消耗為24%。同時,系統(tǒng)存取性能有待提升,使冷數(shù)據(jù)能夠以近線存儲的方式被訪問。
(二)海量數(shù)據(jù)冷存儲技術(shù)關(guān)鍵
1、數(shù)據(jù)的分級,主要是指從海量數(shù)據(jù)中根據(jù)文件的訪問頻率、價值等因素,進(jìn)行冷、熱數(shù)據(jù)的分類,甚至分出更細(xì)的數(shù)據(jù)類型,如“溫數(shù)據(jù)”、“冰數(shù)據(jù)”等。目前常見的數(shù)據(jù)分級方法主要有兩類,一類是業(yè)務(wù)數(shù)據(jù)的分類,即基于具體的業(yè)務(wù)類型,結(jié)合長期以來的運(yùn)營經(jīng)驗,進(jìn)行運(yùn)營級的數(shù)據(jù)分類。另一類是基于數(shù)據(jù)存取特性的分類,即借助存儲軟件系統(tǒng)自動進(jìn)行數(shù)據(jù)的冷熱分級。通過存儲軟件系統(tǒng)對數(shù)據(jù)進(jìn)行冷熱監(jiān)控,統(tǒng)計分析一個時間周期內(nèi)的IO冷熱程度,并按照設(shè)定的分類策略自動進(jìn)行數(shù)據(jù)的分類,并將冷數(shù)據(jù)從前端業(yè)務(wù)存儲系統(tǒng)遷移到冷數(shù)據(jù)存儲系統(tǒng)。
2、數(shù)據(jù)的壓縮去重,提高有效數(shù)據(jù)的存儲比例。為了提升數(shù)據(jù)存儲的可靠性,通常會對數(shù)據(jù)進(jìn)行多副本存儲,但多副本的方式會帶來存儲數(shù)據(jù)量的倍增。為了進(jìn)一步提升存儲效率,在一些讀寫性能要求較低的場景下,可以選擇只保存校驗數(shù)據(jù)。
3、運(yùn)營能力的提升,海量數(shù)據(jù)的存儲需要更智能化的運(yùn)維系統(tǒng),包括對數(shù)據(jù)的定期巡檢、數(shù)據(jù)的精細(xì)化分類、自動化的數(shù)據(jù)遷移、故障預(yù)測及定位、設(shè)備的休眠等機(jī)房節(jié)能措施。此外,存儲的架構(gòu)設(shè)計也是當(dāng)前的研究熱點(diǎn),包括設(shè)備的分級、存儲介質(zhì)的選型、數(shù)據(jù)存儲格式、數(shù)據(jù)檢索、對外服務(wù)接口等。
此外,數(shù)據(jù)訪問延遲、整體讀取速率以及數(shù)據(jù)持久性等,也是海量冷數(shù)據(jù)存儲的關(guān)鍵技術(shù)。這些關(guān)鍵技術(shù)相互制約影響,尤其是在運(yùn)營能力提升方面,涉及的因素眾多,對冷數(shù)據(jù)存儲的選型提出了新的挑戰(zhàn)。
大數(shù)據(jù)時代,冷數(shù)據(jù)占到總數(shù)據(jù)的80%左右。而這些冷數(shù)據(jù)同樣重要,許多大數(shù)據(jù)分析都要基于冷數(shù)據(jù)來進(jìn)行,而且許多數(shù)據(jù)要求保存的時間非常長,例如銀行、社保等數(shù)據(jù),一般都要保存70~100年的時間。傳統(tǒng)的觀點(diǎn)認(rèn)為“硬盤存儲不論使用和閑置,都會消耗能量”,因此多采用磁帶或者光盤來保存冷存儲數(shù)據(jù)。但是,磁帶訪問慢,光盤容量小,操作復(fù)雜,很難滿足大數(shù)據(jù)時代數(shù)據(jù)實時在線、快速訪問的需求。而實際上,隨著疊瓦式磁記錄等硬盤技術(shù)的發(fā)展,硬盤容量原來越大,能耗越來越低,為此,金錢貓研發(fā)了一套基于硬盤的大數(shù)據(jù)智能冷存儲系統(tǒng).
金錢貓大數(shù)據(jù)冷存儲系統(tǒng)的主要功能包括:支持海量數(shù)據(jù)存儲;實現(xiàn)了全局命名空間,所有應(yīng)用看到統(tǒng)一的文件系統(tǒng)視圖;支持標(biāo)準(zhǔn)接口,應(yīng)用無需修改直接運(yùn)行;元數(shù)據(jù)存儲于內(nèi)存,確保了文件的訪問速度;多級存儲備份,靈活支持磁盤-磁帶的分級存儲與備份,擁有完備的文件管理功能;支持硬盤智能通斷電,數(shù)據(jù)自動遷移,綠色節(jié)能;通過大數(shù)據(jù)分析,對存儲系統(tǒng)畫像,給出存儲系統(tǒng)規(guī)劃智能決策;透明管理異構(gòu)存儲系統(tǒng),能夠?qū)崿F(xiàn)跨系統(tǒng)的數(shù)據(jù)整合,保護(hù)用戶投資。
(金錢貓科技)