如何管理相隔兩地的數(shù)據(jù)中心？

作者：網(wǎng)絡(luò)轉(zhuǎn)載發(fā)布時(shí)間：[ 2012/1/6 10:35:57 ] 推薦標(biāo)簽：

業(yè)務(wù)和管理需求使得數(shù)據(jù)中心管理和災(zāi)難恢復(fù)的缺陷更加明顯。二十年前，用貨車運(yùn)輸磁帶進(jìn)行存儲(chǔ)能滿足需求了。十年前，兩個(gè)數(shù)據(jù)中心的距離只要能進(jìn)行I/O，能滿足需求�，F(xiàn)在，隨著電子商務(wù)成為首要的負(fù)載，恢復(fù)計(jì)劃還得考慮數(shù)據(jù)中心的地理距離，這一點(diǎn)限制了恢復(fù)時(shí)間。

地理距離與數(shù)據(jù)中心管理

概念上，這是關(guān)于兩個(gè)不同位置的數(shù)據(jù)中心，如圖1所示。在數(shù)目也許會(huì)擴(kuò)展到更多站點(diǎn)。

圖1：地理性分離數(shù)據(jù)中心的示意圖

圖中兩個(gè)數(shù)據(jù)中心是分離的，這對于進(jìn)行同步磁盤輸入輸出來說，實(shí)在太遠(yuǎn)了，這導(dǎo)致了很多需求。首先每個(gè)數(shù)據(jù)中心必須得有自己的直接存取存儲(chǔ)設(shè)備（Direct Access Storage Device，簡稱DASD）場所來進(jìn)行管理。第二是同步硬件復(fù)制會(huì)因?yàn)榫W(wǎng)絡(luò)延遲而無法工作。后，距離也意味著，每個(gè)數(shù)據(jù)中心的邏輯分區(qū)（logical partition，簡稱LPAR）不能處于同一個(gè)Sysplex（Systems Complex，系統(tǒng)聯(lián)合體）里面。

網(wǎng)絡(luò)在數(shù)據(jù)中心管理中占了重要位置，是兩個(gè)數(shù)據(jù)中心之間的切換開關(guān)。有了合適的內(nèi)部通訊系統(tǒng)，以后的要求都可以基于不同標(biāo)準(zhǔn)，按路線分給每個(gè)數(shù)據(jù)中心。其實(shí)，有了現(xiàn)在基于瀏覽器的應(yīng)用，用戶可以實(shí)現(xiàn)不同數(shù)據(jù)中心的不間斷切換。

因?yàn)橛布䦶?fù)制不可用，數(shù)據(jù)必須在邏輯數(shù)據(jù)庫或者訪問方式（access method）的級別上被獲取。有幾個(gè)產(chǎn)品可以做這件事。部分產(chǎn)品得通過讀數(shù)據(jù)庫或Virtual Storage Access Method（簡稱VSAM）記錄來升級。變更投到其他數(shù)據(jù)中心，通過通信線路使用多種的傳輸協(xié)議。在接收端，由另一個(gè)軟件發(fā)給數(shù)據(jù)庫或訪問方式命令來完成遠(yuǎn)程升級。

為相隔兩地的數(shù)據(jù)中心配置

分離的數(shù)據(jù)中心有好幾種方式來配置，能想到的有以下幾種：

Hot-warm

企業(yè)中一個(gè)數(shù)據(jù)中心被指派成為所有網(wǎng)絡(luò)流量的目標(biāo)。在第一個(gè)數(shù)據(jù)中心的升級會(huì)被復(fù)制到第二個(gè)數(shù)據(jù)中心站點(diǎn)，第二個(gè)會(huì)接收并把這些改變用在本地的DASD場所。一旦第一個(gè)數(shù)據(jù)中心故障，若第二個(gè)站點(diǎn)在線，混亂會(huì)降至低。

升級-查詢

在升級-查詢的方案中，一個(gè)數(shù)據(jù)中心地區(qū)全體升級，而其他只允許查詢。升級的站點(diǎn)為只讀的系統(tǒng)聯(lián)合體及時(shí)帶來改變。如果升級數(shù)據(jù)中心失敗，負(fù)責(zé)查詢的系統(tǒng)聯(lián)合體得負(fù)全責(zé)。

網(wǎng)絡(luò)在進(jìn)行這種安裝時(shí)，起決定性作用，它必須能問信息內(nèi)容，來區(qū)分詢問和升級事務(wù)。工作站可能也會(huì)使用網(wǎng)絡(luò)來平衡負(fù)載，使每個(gè)數(shù)據(jù)中心能夠帶上屬于自己的只讀流量。

升級-升級

這是個(gè)實(shí)實(shí)在在的事。每個(gè)數(shù)據(jù)中心支持所有數(shù)據(jù)的所有升級。兩種方式的復(fù)制流經(jīng)通信連接，保持?jǐn)?shù)據(jù)庫的同步。一旦發(fā)生故障，沒有出問題的數(shù)據(jù)中心承擔(dān)所有即將到來的流量。

注意當(dāng)兩個(gè)數(shù)據(jù)中心都升級時(shí)，數(shù)據(jù)在邏輯上可能會(huì)分離。比如說對用戶的初級數(shù)據(jù)庫在密西西比河西邊的“A數(shù)據(jù)中心”，第二個(gè)只讀的數(shù)據(jù)在“B數(shù)據(jù)中心”。用戶在哪一邊都可能是反向的。終，這意味著網(wǎng)絡(luò)必須足夠智能，知道客戶的初級數(shù)據(jù)在哪。

其他的問題

相信各位深思熟慮的讀者已經(jīng)想到不少這些問題。但是還有更多令人不安的不穩(wěn)定因素。

批處理??在升級-升級的模式下，生產(chǎn)量會(huì)問題多多。企業(yè)得決定哪一方進(jìn)行批處理，如果批處理兩方都得進(jìn)行更頭疼了。還得考慮對帶寬的需求，用以從I/O相關(guān)批處理事務(wù)中擠出空間升級，通過復(fù)制鏈接。

復(fù)制的延遲??現(xiàn)代通信連接又快有可靠，但還會(huì)有問題。算是快完美的通信線也不能和DASD I/O一樣同步和快速。因此，系統(tǒng)基礎(chǔ)架構(gòu)和一部分應(yīng)用必須準(zhǔn)備好應(yīng)對延遲和“過時(shí)”的數(shù)據(jù)。

沖突問題??數(shù)據(jù)庫管理系統(tǒng)（Database Management Systems，簡稱DBMS）在不同的系統(tǒng)聯(lián)合體中，不能從太寬的距離鎖定數(shù)據(jù)庫記錄。這導(dǎo)致在不同數(shù)據(jù)中心內(nèi)，相同的數(shù)據(jù)庫記錄可能會(huì)同時(shí)升級。基礎(chǔ)設(shè)施和應(yīng)用需要準(zhǔn)備好應(yīng)對混亂。

控制改變??基礎(chǔ)設(shè)施、應(yīng)用和數(shù)據(jù)庫設(shè)計(jì)的改變一定得認(rèn)真管理，避免破壞在不同數(shù)據(jù)中心復(fù)制的一致性。

漂移??沒有異步復(fù)制技術(shù)在邏輯I/O層面是完美的，企業(yè)會(huì)發(fā)現(xiàn)分叉數(shù)據(jù)存儲(chǔ)變慢。整理這些不同需要周期性的調(diào)和進(jìn)程。

死亡??對于數(shù)據(jù)中心來說，什么算死？數(shù)據(jù)中心通過復(fù)制流量和heartbeat來保持聯(lián)系。但是復(fù)制流量的減慢可能預(yù)示著一個(gè)數(shù)據(jù)中心工作做的少了。同樣地，一些遺落的heartbeat也暗示著網(wǎng)絡(luò)故障或減慢，而不是數(shù)據(jù)中心故障。

探查和遵照這些察覺到的故障來行事，要求精心策劃的政策、高度自動(dòng)化和仔細(xì)的管理。好消息是數(shù)據(jù)中心的地理分離逐漸變得平常，解決這些問題的政策也變得更加便于學(xué)習(xí)。