大數(shù)據(jù)分析的理解和探索

2016/6/1 8:39:54 來源：本站作者：HERO編譯分類：特別報道

如今，云計算的熱潮似乎還沒散去，行業(yè)廠商就已經(jīng)開始關注下一個熱點：大數(shù)據(jù)。而與以往的炒作周期一樣，現(xiàn)在的大數(shù)據(jù)對于用戶來說其來源比較混亂，因為供應商提出了自己獨特的，并且經(jīng)常相互矛盾的定義和術語。

大數(shù)據(jù)定議之所以混亂的最常見的原因，是人們將大數(shù)據(jù)存儲與大數(shù)據(jù)分析的結果混為一談?！按髷?shù)據(jù)”一詞起源于開源社區(qū)，其開發(fā)和分析過程比傳統(tǒng)的數(shù)據(jù)倉庫速度更快，擴展性更強，并且可以通過網(wǎng)絡在用戶每天產(chǎn)生的大量非結構化數(shù)據(jù)中提取價值。

大數(shù)據(jù)的存儲是相關的，其旨在解決大量的非結構化數(shù)據(jù)，助長企業(yè)級的數(shù)據(jù)增長。而擴展NAS和對象存儲這些技術支撐大數(shù)據(jù)存儲，已經(jīng)存在了多年，并且人們對此有著充分的了解。

在一個非常簡單的層面上，大數(shù)據(jù)存儲無非是存儲用于產(chǎn)生大量的非結構化數(shù)據(jù)的應用程序處理的大量數(shù)據(jù)。這包括高清晰度視頻流，油氣勘探，基因組學等數(shù)據(jù)。

一個大型存儲廠商的一位營銷高管表示，其公司正在考慮將“海量數(shù)據(jù)”作為其大數(shù)據(jù)存儲條目的名稱。

大數(shù)據(jù)分析是比較緊急的和多方面的，但IT人員對其理解較少。大數(shù)據(jù)分析發(fā)展過程在歷史上一直受到網(wǎng)絡的推動。然而，大數(shù)據(jù)分析的應用程序正在發(fā)生在所有主要垂直行業(yè)領域，現(xiàn)在的快速增長是一個增長的機會，值得所有供應商進行炒作。

大數(shù)據(jù)分析是快速增長的多樣化的區(qū)域。因此，試圖確定它有什么用可能是無益的。但是，可以識別和鑒定大數(shù)據(jù)分析的技術特征和共同點。這些包括：

?在可擴展性方面，傳統(tǒng)的數(shù)據(jù)倉庫處理速度太慢，而且有限制；

?融合來自多個數(shù)據(jù)源的數(shù)據(jù)的能力，其中包括結構化和非結構化的數(shù)據(jù)；

?從數(shù)據(jù)來源獲取信息是至關重要的，其中包括越來越多的移動設備、無線射頻識別技術、網(wǎng)絡，以及自動化技術。

此外，在多樣性大數(shù)據(jù)分析中可以找到至少四個主要發(fā)展片段。這些片段是MapReduce，可擴展的數(shù)據(jù)庫，實時流處理和大數(shù)據(jù)應用。

（1）MapReduce

ApacheHadoop是MapReduce段開始的好地方。Hadoop起源于谷歌公司在2004推出的一份文件，描述了一種用于并行網(wǎng)絡的數(shù)據(jù)處理稱為MapReduce的概念。此后不久，ApacheHadoop的誕生成為一個開源實現(xiàn)MapReduce的過程。周圍的社區(qū)正在快速成長，生產(chǎn)加載項擴展了企業(yè)數(shù)據(jù)中心內(nèi)的ApacheHadoop的可用性。

Apache的Hadoop的用戶通常在商用服務器建立自己的并行計算集群，各有專門存儲在一個小型磁盤陣列的形式，最近，也開始采用固態(tài)硬盤（SSD）的形式。這些通常被稱為“無共享”架構。而存儲區(qū)域網(wǎng)絡（SAN）和網(wǎng)絡附加存儲（NAS）的可擴展性和彈性，通常被視為缺乏I/O性能，這些集群需要超越標準的數(shù)據(jù)倉庫的能力。因此，Hadoop的存儲是直接連接存儲（DAS）。然而，使用SAN和NAS的“二次”存儲正在成為新興的形式。

一個潛在的Hadoop用戶面臨的采購選擇，從單純的開源到高度商業(yè)化的版本，其范圍內(nèi)越來越廣泛。Apache的Hadoop和相關的工具都可以免費在ApacheHadoop的網(wǎng)站下載。Cloudera的公司提供了一個商業(yè)版本，其中包括一些Cloudera的插件和支持。其他開放源代碼的變種，如Facebook的distribution，也可以從Cloudera公司獲得。其商業(yè)版本包括MAPR，EMC公司現(xiàn)在將其合并成一個Hadoop應用。

（2）可擴展的數(shù)據(jù)庫

而Hadoop已經(jīng)攫取了大部分的頭條新聞，因為它在數(shù)據(jù)倉庫環(huán)境下具有非結構化數(shù)據(jù)的處理能力，更有向大數(shù)據(jù)分析的發(fā)展空間。

結構化數(shù)據(jù)也得到了大量的關注。一個充滿活力和快速增長的社區(qū)圍繞NoSQL，這是一個開源的、非關系型、分布和橫向擴展的數(shù)據(jù)庫集合的結構，可以滿足網(wǎng)絡規(guī)模的數(shù)據(jù)庫設計的高流量的網(wǎng)站和流媒體的需要。面向文檔的實現(xiàn)包括MongoDB（如“humongous”DB）和Terrastore。

開源社區(qū)所產(chǎn)生的另一種面向分析的數(shù)據(jù)庫是正在開發(fā)使用的scidb，包括環(huán)境觀測和監(jiān)測，射電天文學和地震，等等。

傳統(tǒng)的數(shù)據(jù)倉庫供應商并沒有袖手旁觀。甲骨文公司正在打造其“下一代”大數(shù)據(jù)平臺，將利用其分析平臺和內(nèi)存計算的實時信息傳遞。Teradata公司最近收購了ASTER數(shù)據(jù)系統(tǒng)公司，將ASTER數(shù)據(jù)的SQLMapReduce添加到其產(chǎn)品組合中。

（3）實時流處理

對于多個數(shù)據(jù)流進行實時分析的StreamSQL從2003年開始使用，然而到現(xiàn)在為止，StreamSQL只能夠滲透到一些比較小的小眾市場，如金融服務，監(jiān)視和通信網(wǎng)絡監(jiān)控等領域。而隨著行業(yè)廠商和用戶對大數(shù)據(jù)的興趣不斷增長，StreamSQL勢必會得到更多的關注和尋找更多的市場機會。

Streamsql是生長計算研究的一個區(qū)域稱為復雜事件處理（CEP），對真實世界的事件數(shù)據(jù)的低延遲處理技術。無論是IBM，還是InfoSphereStreams公司，以及StreamBase系統(tǒng)公司的產(chǎn)品都在這個領域中。

（4）大數(shù)據(jù)應用

作為大數(shù)據(jù)分析的興趣擴展到企業(yè)數(shù)據(jù)中心，供應商群體看到了一個機會，把一起大數(shù)據(jù)“家電”。這些設備的服務器，網(wǎng)絡和存儲設備集成到加速信息傳遞到一個機箱和運行分析軟件用戶。這些設備針對企業(yè)買家都會看重大數(shù)據(jù)設備易用性和價值，以及其固有的實施和使用的特點而推出的。圍繞Greenplum數(shù)據(jù)庫引擎這個領域的廠商，其中包括EMC公司，IBM和Netezza公司，MAPR公司????近推出了Hadoop商業(yè)化版本，預集成系統(tǒng)，內(nèi)置設備，可與甲骨文和Teradata公司的版本相媲美。

大數(shù)據(jù)分析的大數(shù)據(jù)存儲

大數(shù)據(jù)分析過程的從業(yè)人員一般都不喜歡共享存儲。他們喜歡DAS的各種形式，從SSD到其內(nèi)部并行處理節(jié)點的高容量的SATA硬盤。共享存儲體系結構，如SAN和NAS，通常被認為是相對緩慢的復雜的，首先，是其價格昂貴。這些特點都不選用于大數(shù)據(jù)分析系統(tǒng)的系統(tǒng)性能，不能滿足商品基礎設施的低成本的蓬勃發(fā)展。

實時或接近實時信息傳遞是大數(shù)據(jù)分析的定義特征之一，因此，延遲是可以避免的，無論何時何地。在內(nèi)存中的數(shù)據(jù)是良好的，至少比采用光纖傳輸?shù)綑C械式硬盤要好，但也許比其他任何事情都更加糟糕，SAN在規(guī)模需要分析應用的成本讓人望而卻步。

在大數(shù)據(jù)分析中，有一個共享存儲的案例。然而，存儲廠商和一般的存儲社區(qū)還沒有成為大數(shù)據(jù)分析的實踐者。這個例子可以在ParAccel的分析數(shù)據(jù)庫（PADB）與NetAppSAN存儲中看到。

數(shù)據(jù)存儲技術的開發(fā)人員表示將存儲看作從物理設備遷移到一個更虛擬和抽象的實體的實現(xiàn)。其結果是，共享存儲環(huán)境可以并且應該被大數(shù)據(jù)從業(yè)者視為他們可以找到潛在有價值的數(shù)據(jù)服務，如：

（1）數(shù)據(jù)保護和系統(tǒng)可用性：基于存儲的復制功能可以不需要數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)副本，當系統(tǒng)故障和數(shù)據(jù)損壞事件發(fā)生時，重新啟動可以恢復系統(tǒng)。

（2）縮短部署新應用程序和自動化流程的時間：通過可重復使用的數(shù)據(jù)副本，當新的應用程序都可以在網(wǎng)上迅速被建立，提高業(yè)務靈活性。

（3）變更管理：共享存儲可以幫助保持一個“永遠在線”的能力，可能減少所需的改變和升級，以及對在線生產(chǎn)環(huán)境的影響。

（4）生命周期管理：當共享存儲可以作為記錄的數(shù)據(jù)庫時，系統(tǒng)的演化變得更加容易管理，并且那些已經(jīng)廢棄的應用變得更加容易丟棄。

（5）節(jié)約成本：使用共享存儲作為一個無共享架構，可以輔助DAS降低成本和處理器節(jié)點的復雜性。

以上提到的好處每個人都可以被映射到無共享架構的分析。我們可以期望看到更多的存儲廠商這樣做一段時間。例如，雖然尚未公布，EMC公司可以憑借其基于MAPR設備整合Isilon或Atmos公司的存儲。

大數(shù)據(jù)是一個大問題

傳統(tǒng)的數(shù)據(jù)倉庫是一個大而相對較慢的生產(chǎn)商信息的業(yè)務分析。它從有限的數(shù)據(jù)資源，并依賴于反復的提取、轉換和加載（ETL）過程?？蛻粼诳焖賹ふ耀@取信息的基礎上，從多個數(shù)據(jù)源同時淘汰掘金。大數(shù)據(jù)分析可以被定義，在一定程度上，需要從多個數(shù)據(jù)源解析大數(shù)據(jù)集，并產(chǎn)生實時或接近實時的信息。

大數(shù)據(jù)分析代表了一個巨大的機會。IT組織都在探索上述來自社交網(wǎng)絡的繁榮，解析基于網(wǎng)絡的數(shù)據(jù)源和提取價值分析技術。然而，現(xiàn)在有了一個更大的機會，那就是物聯(lián)網(wǎng)成為了一種新興的數(shù)據(jù)源。思科系統(tǒng)公司估計全球目前約有350億個可以連接到互聯(lián)網(wǎng)的電子設備。任何電子設備可以（有線或無線）連接到互聯(lián)網(wǎng)，甚至汽車制造商正在建設連接到車輛的互聯(lián)網(wǎng)。“連接的????汽車將在2020年成為司空見慣的事情，并產(chǎn)生數(shù)以百萬計的瞬態(tài)數(shù)據(jù)流。

理解大數(shù)據(jù)分析

利用多個數(shù)據(jù)源，如物聯(lián)網(wǎng)的力量將會遠遠超出傳統(tǒng)的數(shù)據(jù)倉庫技術。這將需要模仿人類大腦功能的過程。我們的大腦需要大量的感官數(shù)據(jù)流，并創(chuàng)建必要的相關關系，讓我們知道我們在哪里，我們在做什么，最終我們在想什么，所有這些都是實時的。

關于作者

約翰?韋伯斯特是評估公司Evaluator集團的高級合伙人，主要從事數(shù)據(jù)存儲技術，正在進行的研究包括硬件、軟件和服務管理。

編輯：HERO

分享到新浪微博微信

上一篇：三大云計算供應商的大數(shù)據(jù)服務比較

下一篇：混合云管理工具有所改進但還不完善

欧美特黄一级影视|黄色视频免费看久久久|亚洲十八黄色电影|97中文字幕精品|欧洲一级片在线久久久狠|欧美一级二级A片|日韩无码一区二区不卡高清视频|黄色视频无挡超碰免费在线|破处高潮视频网站|人人操人人人人爱

大數(shù)據(jù)分析的理解和探索

相關資訊

綠色低碳趨勢下，DTDATA攜業(yè)內(nèi)專家探討如何實現(xiàn)數(shù)據(jù)中心高質(zhì)量發(fā)展

數(shù)據(jù)中心節(jié)能監(jiān)察：廣州、深圳發(fā)布最新政策

黑石持續(xù)重倉IDC數(shù)據(jù)中心的背后

GLOBAL SWITCH香港數(shù)據(jù)中心探秘～世界級的綠色數(shù)據(jù)中心

推薦資訊

人氣排行

欧美特黄一级影视|黄色视频免费看久久久|亚洲十八黄色电影|97中文字幕精品|欧洲一级片在线久久久狠|欧美一级二级A片|日韩无码一区二区不卡高清视频|黄色视频无挡超碰免费在线|破处高潮视频网站|人人操人人人人爱

大數(shù)據(jù)分析的理解和探索

相關資訊

綠色低碳趨勢下，DTDATA攜業(yè)內(nèi)專家探討如何實現(xiàn)數(shù)據(jù)中心高質(zhì)量發(fā)展

數(shù)據(jù)中心節(jié)能監(jiān)察：廣州、深圳發(fā)布最新政策

黑石持續(xù)重倉IDC數(shù)據(jù)中心的背后

GLOBAL SWITCH香港數(shù)據(jù)中心探秘～世界級的綠色數(shù)據(jù)中心

推薦資訊

人氣排行

綠色低碳趨勢下，DTDATA攜業(yè)內(nèi)專家探討如何實現(xiàn)數(shù)據(jù)中心高質(zhì)量發(fā)展

數(shù)據(jù)中心節(jié)能監(jiān)察：廣州、深圳發(fā)布最新政策