欧美特黄一级影视|黄色视频免费看久久久|亚洲十八黄色电影|97中文字幕精品|欧洲一级片在线久久久狠|欧美一级二级A片|日韩无码一区二区不卡高清视频|黄色视频无挡超碰免费在线|破处高潮视频网站|人人操人人人人爱

深度長文 | 大規(guī)模數(shù)據(jù)中心自動化運維實踐

2016/3/29 17:08:48 來源:青云QingCloud 作者:apple.lei編輯 分類:特別報道

      三分靠技術、七分靠管理”,對于大規(guī)模的數(shù)據(jù)中心,如何才能高效的運營、維護?如何才能在將運維成本降到最低的同時,保證業(yè)務的穩(wěn)定運行?


      本次分享,青云QingCloud 運維工程師朱峻華系統(tǒng)的從數(shù)據(jù)中心管理的各個維度,并結合自身多年數(shù)據(jù)中心運維管理經(jīng)驗,講述大規(guī)模數(shù)據(jù)中心自動化運維實踐。


      以下是本次分享的內(nèi)容整理。


      以下是今天分享的內(nèi)容:


      ● 數(shù)據(jù)中心的定義


      ● 數(shù)據(jù)中心的發(fā)展演進


      ● 數(shù)據(jù)中心的等級劃分


      ● 運維的定義


      ● 數(shù)據(jù)中心的運維


      數(shù)據(jù)中心的定義


      對于數(shù)據(jù)中心,維基百科有如下的描述:數(shù)據(jù)中心( Data Center )或稱為服務器場( Server Farm ),指用于安置計算機系統(tǒng)及相關部件的設施,例如電信和儲存系統(tǒng)。一般它包含冗余和備用電源,冗余數(shù)據(jù)通信連接,環(huán)境控制(例如空調(diào)、滅火器)和各種安全設備。


      我對數(shù)據(jù)中心做了一個簡單的總結,現(xiàn)代數(shù)據(jù)中心一般都是一個園區(qū),包含了若干個樓,樓里包含了若干個房間,被稱為模塊,這是基礎;在這之上架構了復雜的網(wǎng)絡;網(wǎng)絡之上部署了各種硬件設備,包括服務器及網(wǎng)絡設備;在各種設備上運行著各種軟件;最終對外提供服務。


      上面簡簡單單的一段話,其實涵蓋的技術方方面面,數(shù)據(jù)中心是現(xiàn)代 IT 系統(tǒng)的基石,相信以后也是整個社會正常運轉的基石。


      數(shù)據(jù)中心的發(fā)展演進


      現(xiàn)在的數(shù)據(jù)中心通常是指一棟樓,或者是一個園區(qū),包含很多個機房。但是早期的數(shù)據(jù)中心只有一個機房,而且機房里面只有一臺機器,因為早期的計算機組件過于龐大,而且電纜眾多。


上圖是世界第一臺電腦 ENIAC


      1946 年 2 月 14 日誕生于美國賓夕法尼亞大學。在當時這就是一臺電腦,一個機房,也是一個數(shù)據(jù)中心的雛形。據(jù)說 ENIAC 每次一開機,整個費城西區(qū)的電燈都為之黯然。


      在 20 世紀 80 年代,計算機開始蓬勃發(fā)展,IT 系統(tǒng)及其操作開始變得復雜,一些大公司開始認識到需要有意識的規(guī)劃和管理IT資源。隨著客戶端/服務器的 IT 模式出現(xiàn),20世紀90年代服務器開始在機房中間尋找他們的位置,通過網(wǎng)絡電纜將服務器和網(wǎng)絡設備進行組網(wǎng),使得在公司內(nèi)的一個房間中,使用分層設計來放置服務器及網(wǎng)絡設備成為可能。


      1996年8月北京電報大樓主機托管機房投入使用,是國內(nèi)最早的 IDC 業(yè)務。


      下面給大家展示幾幅圖片:



      21世紀初的數(shù)據(jù)中心是如上圖展示的這樣的,當時更多的是被稱做機房,一個大樓里面,很多個大房間,統(tǒng)一散熱,效率低下;不同客戶的服務器放在同一個機房里,沒有機柜、沒有鎖、沒有隔離,安全等級低。



      再后來出現(xiàn)了如上圖的機房設計,也是目前很多機房的現(xiàn)狀。會有抬高層,下面走電纜和網(wǎng)線、還有散熱冷風系統(tǒng),在兩排機柜中間會有出風口,地板上的眼就是便于出風,然后服務器吸進冷風,從后面排出,達到散熱的效果;可以看到圖片中遠處是有門的,可以達到一定的封閉效果,提高散熱效率,但是機柜頂部并沒有封閉;另外,上面圖中的機柜沒有門及機柜鎖,安全會稍差一些。




      還有上兩圖的這種設計,機房有抬高層,散熱系統(tǒng)在下面;每個機柜都是封閉的,有自己的門和鎖,安全性高;機柜的冷風通過通道直接進入機柜中,而且可以單獨開關(如上圖紅線標示處),不僅節(jié)能而且散熱效果好,但是上半部分設備的散熱效果可能會差一些。



      現(xiàn)在新的機房很多采用微模塊化設計,這種設計降低了對機房本身的要求,不需要抬高層,封閉的散熱系統(tǒng),規(guī)范化的走線槽,將節(jié)能、美觀、高效有機的結合起來。


      數(shù)據(jù)中心的等級劃分


      目前比較流行的數(shù)據(jù)中心等級劃分是根據(jù)美國 ANSI&TIA-942 數(shù)據(jù)中心通訊網(wǎng)絡基礎設施標準設定的,分為如下4個等級:


      等級 Tier I ――基本數(shù)據(jù)中心


      等級 Tier II ――基礎設施部件冗余


      等級 Tier III ――基礎設施同時可維修


      等級 Tier IV ――基礎設施故障容錯


      其中 Tier IV等級最高,不管是國內(nèi)還是國外,這種等級的數(shù)據(jù)中心都不多,目前國內(nèi)大部分數(shù)據(jù)中心都是 Tier III 的。不同等級的具體區(qū)分,在這里不贅述,有興趣的朋友可以上網(wǎng)查一下。


      運維的定義


      運維的定義,我在維基百科并沒有找到,不知道這個是太容易理解了,還是太難于定義了。


      我不敢妄加定義運維,只是說說我自己的理解。我曾經(jīng)認為,運維更多的算是產(chǎn)品或者一個系統(tǒng)交付生產(chǎn)后,到這個產(chǎn)品/系統(tǒng)的生命周期結束前這段時間所做的工作。但是現(xiàn)在 IT 行業(yè)發(fā)展的趨勢及 DevOps 的流行,對運維人員的要求越來越高,需要更早的參與到整個生命周期里去。


      以數(shù)據(jù)中心的運維舉例,運維人員可能需要從數(shù)據(jù)中心選型就參與進來,包括選址,選擇網(wǎng)絡提供商,考察數(shù)據(jù)中心各種設施及服務等,而不是說等這些定了之后,上了生產(chǎn)才開始運維。


      另外,我需要明確一點,今天我們談到數(shù)據(jù)中心的運維,并不是簡單的從數(shù)據(jù)中心提供商角度出發(fā),還包括數(shù)據(jù)中心使用者的角度。


      青云QingCloud 目前使用了多家數(shù)據(jù)中心的服務,我們也在考察、建立自己的數(shù)據(jù)中心。


      數(shù)據(jù)中心的運維


      現(xiàn)在正式進入今天的主題——數(shù)據(jù)中心的運維。


      數(shù)據(jù)中心的“風火水電”


      說到數(shù)據(jù)中心的運維,經(jīng)常會提到“風火水電”。


      ● 風,通常指空調(diào)制冷及通風過濾系統(tǒng)。干凈的空氣能延長設備的壽命,減少故障率。不考慮報廢時間,同樣的機器在北京運行和在芬蘭運行,壽命和故障率都會有很大差異。


      ● 火,一般指消防。這個是常常被人忽略的一部分,但也經(jīng)常是最致命的一部分,一旦發(fā)生火災,可能整個地方都需要停電,且短時間內(nèi)難以恢復。


      ● 水,通常是濕度及防潮。濕度過高,可能會影響設備壽命;太過干燥又會導致靜電,有可能損壞設備。


      ● 電,機房電力。電力被認為傳統(tǒng)數(shù)據(jù)中心的重中之重,沒有電力,數(shù)據(jù)中心就是空殼,而且數(shù)據(jù)中心的電力需要保證穩(wěn)定,且是多路備份。


      上面提到了“風火水電”,其實還應該再加上一個“網(wǎng)”,數(shù)據(jù)中心必須保證有高效的網(wǎng)絡,離骨干網(wǎng)應該盡量的近,而且需要能提供 BGP 線路服務,這也是很多客戶選擇數(shù)據(jù)中心的一個重要評判標準。


      數(shù)據(jù)中心的選擇


      數(shù)據(jù)中心的選擇標準可以歸類到下面三點:位置,主要標準和次要標準。我們提到的標準是站在不同角色進行考慮,包括數(shù)據(jù)中心建造者與使用者。


      ● 位置,包括數(shù)據(jù)中心所在的城市及區(qū)域,這將直接影響到預算,至少要避免受到天津大爆炸那類事故的影響;還會影響到你是否能招到合適的員工;需要考慮出現(xiàn)故障時的響應速度等。


      ● 主要標準,包括是否有足夠的空間滿足未來的發(fā)展;穩(wěn)定且廉價的電力保障;是否有能用環(huán)保手段做到廉價的散熱系統(tǒng),比如選擇北方,一年四季大部分時間采用自然冷風進行散熱;還需要有高效的網(wǎng)絡連通性。


      ● 次要標準,包括基礎設施,如照明、管道工程等;還包括數(shù)據(jù)中心園區(qū)的安全隔離設施,圍墻、門、窗,設備卸貨區(qū)等;推車、鏟車等設備;是否有設備預裝室;是否有監(jiān)控、控制中心;其他雜項,包括安全監(jiān)控攝像頭、門禁卡、防尾隨門等。


      生產(chǎn)運維


      傳統(tǒng)數(shù)據(jù)中心在投入生產(chǎn)之后,高等級機房會安排 7*24 人工巡檢。客戶購買的機柜及其機柜里的設備,需要自己安排人員巡檢,我曾經(jīng)工作過的一家公司就有三班倒的監(jiān)控人員,7*24小時待命,每個小時需要去機房巡檢一次,看各個設備是否有報警。


      青云QingCloud 正在考慮建立自己的數(shù)據(jù)中心,因此考慮運維的時候會更加全面,除了傳統(tǒng)數(shù)據(jù)中心的樓宇及基礎設施的運維,還包括各種物理設備,如服務器、網(wǎng)絡設備等,各種操作系統(tǒng)及軟件,還有我們自己研發(fā)的 SDN ,每一項細化都可以作為一個專題來討論。


      我們簡單了解一下數(shù)據(jù)中心基礎設施運維可能涉及的范圍,包括:


      ● 安防系統(tǒng),園區(qū)樓宇的安全防護,門禁系統(tǒng),監(jiān)控系統(tǒng)等;


      ● 消防系統(tǒng),煙霧探測器,滅火設施等;


      ● 環(huán)境檢測,如溫度及濕度等;


      ● 供電設施,包括配電設備,發(fā)電機、 UPS 、機柜 PDU 等;


      ● 散熱系統(tǒng),包括空調(diào)設備,新風及冷水機組等;


      ● 其他雜項,如布線,包括電纜及網(wǎng)絡線纜;機房內(nèi)部環(huán)境,是否有易燃易爆物體,需要及時清理。


      站在一個數(shù)據(jù)中心使用者的角度,我們希望數(shù)據(jù)中心能提供更高效的服務,如:


      ● 高效的入館申請系統(tǒng),包括人員和設備;


      ● 高效的卸貨渠道及方便的預裝室;


      ● 在認證通過的情況下,可以自由高效的進出機房,操作屬于自己的設備;


      ● 數(shù)據(jù)中心的服務人員能高效的提供客戶所需的數(shù)據(jù)及服務,比如機柜用電量等;


      ● 提供更多人性化及專業(yè)化的服務。


      下面我們來討論一下用戶對于自己設備及服務的運維。


      服務器及網(wǎng)絡設備的選型,是選用大品牌的 DELL/IBM 服務器呢,還是選擇更節(jié)省成本的定制機?


      QingCloud 選擇了后者,在云計算時代,我們假設服務器等物理設備本身就是不可靠的,需要靠上層的軟件來實現(xiàn)可靠。


      操作系統(tǒng)選型,選擇 Linux 還是 Windows ?


      毋庸置疑,QingCloud 的系統(tǒng)肯定是跑在 Linux 上,但是我們需要考慮如何高效初始化服務器,快速安裝操作系統(tǒng),需要考慮文件系統(tǒng)、內(nèi)核參數(shù)調(diào)優(yōu)、各種硬盤驅(qū)動、內(nèi)核版本、 Kernel Panic 等因素。應用層涉及的就更多了。


      如何高效的初始化系統(tǒng)


      如何高效的初始化系統(tǒng)?包括 BIOS 的調(diào)優(yōu),劃分 RAID 等工作。


      對于 Linux 系統(tǒng)的安裝有很多高效的方式,最初始的方案是把 Linux 安裝盤ISO刻成一張光盤進行安裝,現(xiàn)在的服務器配光驅(qū)那肯定是被忽悠了;后來將 ISO 做到U盤上,這些都是手動安裝。高級一點的可以寫 Kickstart/Preseed 文件實現(xiàn)U盤的自動安裝,對于少量設備,這已經(jīng)足以。


      對于大規(guī)模的部署,我們目前通過網(wǎng)絡自動劃分 RAID ,安裝操作系統(tǒng),還可以做到自動進行 BIOS 調(diào)優(yōu)。


      我們的目標是一臺純新的機器,物理連線都準備好的情況下,開機半小時后就可以被用于生產(chǎn),包括 BIOS 調(diào)優(yōu), RAID 劃分,操作系統(tǒng)安裝,網(wǎng)絡聯(lián)通及系統(tǒng)上應用的安裝。操作系統(tǒng)的安裝可以采用網(wǎng)絡PXE 安裝,開源比較常用的可以采用 Cobbler ;對于 RAID 劃分和 BIOS 調(diào)優(yōu),這里我不做過多說明,不同廠家的硬件使用的方法都會不同。


      操作系統(tǒng)及網(wǎng)絡準備好之后,我們就需要在服務器上配置特定的應用及服務了。這時候我們可以使用的工具更多,此類工具通常被稱為配置管理工具,常用的有老牌的 Cfengine ,很多大公司在用的 Puppet 和 Chef ,最近比較新的有 Saltstack 和 Ansible 等,這些都是很好的工具,但對于工程師來說合適的/熟悉的才是最好的。


      自動化運維


      上面提到的更偏重于產(chǎn)品生命周期的前半部分。隨著規(guī)模的擴大,傳統(tǒng)靠人工定時巡檢,在監(jiān)控中心盯著大屏幕看有無報警的運維方式都已經(jīng)落伍,唯一的出路就是自動化。


      運維自動化,這個話題是從互聯(lián)網(wǎng)繁榮開始一直在談論的話題,數(shù)據(jù)中心的運維工作變得越來越繁重與復雜,這是因為數(shù)據(jù)中心一直在持續(xù)的發(fā)展變化,數(shù)據(jù)中心承載的應用變得多而復雜,簡單靠人力堆積已經(jīng)不能高效解決問題,必須引入各種流程及工具進行規(guī)范化管理。


      自動化運維很重要的一部分就是完善的監(jiān)控體系,完善的監(jiān)控體系需要能監(jiān)控到整個數(shù)據(jù)中心的方方面面,包括各種物理設施、環(huán)境等,這個不是我們今天討論的重點,今天主要討論一下網(wǎng)絡、系統(tǒng)等部分的監(jiān)控。


      監(jiān)控可能包含的方面:


      ● 攻擊,包括內(nèi)部和外部,需要能快速的找到源頭并消除威脅;


      ● 網(wǎng)絡和服務器設備的各個傳感器,包括溫度、電壓及電源冗余等;


      ● 網(wǎng)絡流量、網(wǎng)絡風暴,及網(wǎng)絡環(huán)路等的監(jiān)控;


      ● 服務器的監(jiān)控通??梢酝ㄟ^帶外及 IPMI 獲取到服務器的物理設備的狀態(tài),需要監(jiān)控的包括 CPU 、內(nèi)存、主板、電源;


      ● 服務器的存儲系統(tǒng),包括物理磁盤、 RAID 組、 RAID 卡電池的狀態(tài)、 Media Error 等信息; LSI 的 RAID 卡可以通過 MegaCli 進行查看, Adaptec 的卡可以用 Arcconf 工具;


      ● 操作系統(tǒng)里,我們需要監(jiān)控的東西更多,包括系統(tǒng)資源( CPU 、內(nèi)存、文件系統(tǒng)空間的 Inode 使用率,還包括網(wǎng)絡流量和系統(tǒng)負載等等);進程及服務的監(jiān)控;存儲系統(tǒng)監(jiān)控(吞吐量及 IOPS 等);系統(tǒng)及應用日志的監(jiān)控。


      有了完善的監(jiān)控系統(tǒng),我們還需要實時報警(郵件、 IM 、短信)功能,不能漏報,也不能太多誤報,否則狼來了多次后,就沒人會重視報警信息,反而無用。


      目前,開源使用比較多的監(jiān)控軟件有 Nagios 、 Cacti 、 Ganglia 、 Zabbix 、 Zenoss Core 、 SmokePing ,每個軟件有自己的擅長之處,大家可以使用多個軟件組合成自己完善的監(jiān)控體系。


      有了監(jiān)控,有了報警,我們還需要資源使用的統(tǒng)計報告(日報、月報、波峰、波谷),這將是我們系統(tǒng)擴容的依據(jù)。


      設備退役


      下面我們聊聊設備的退役,服務器或者網(wǎng)絡設備運行一段時間后,故障率就會大幅的升高,我們需要考慮是不是要將其退役。


      首先我們需要設定一個設備的報廢期限,及報廢后怎么處理;需要考慮在什么情況下延保,計算出最佳時間點,盡量榨干設備的價值。


      一個小的細節(jié), QingCloud 考慮到用戶數(shù)據(jù)的安全性,我們的硬盤買了特定服務(不歸還的),損壞的硬盤跟廠家報修更換后,我們會集中銷毀換下來的硬盤。


      最后


      在結束分享前,我們再來看看目前數(shù)據(jù)中心相關的一些新動向。


      群里很多人應該聽過流動數(shù)據(jù)中心或移動數(shù)據(jù)中心、模塊化數(shù)據(jù)中心、微模塊化數(shù)據(jù)中心、海上數(shù)據(jù)中心、洞穴式數(shù)據(jù)中心等。它們的好處是顯而易見的,比如洞穴式數(shù)據(jù)中心,可以抵御爆炸或自然災難性事件,還能夠節(jié)省制冷能耗,不受高功率微波和電磁脈沖武器的攻擊等。


      網(wǎng)絡方面, 100G 以太網(wǎng)不久將會在數(shù)據(jù)中心領域強勢增長,當然這會有個過程, 25Gbps 和 50Gbps 每通道技術將是未來 100Gbps ( 4 個 25G ) 和 400G ( 8 個 50G )以太網(wǎng)的基礎,因此業(yè)界普遍認為 25G 網(wǎng)絡會很快替代現(xiàn)有的 10G 網(wǎng)絡。


      今天的分享差不多就到此為止了,做一個簡單的總結。


      數(shù)據(jù)中心的運維既宏觀又細節(jié),大到樓宇的設計建造及選址,避免被天津大爆炸這樣的事件波及;小到需要注意服務器內(nèi)線纜擺放位置及方向,防止服務器由于自身的輕微震動導致線纜松動,從而引起系統(tǒng)的頻繁 Kernel Panic .

      編輯:apple.lei

相關資訊