業(yè)務(wù)和管理需求使得數(shù)據(jù)中心管理和災(zāi)難恢復(fù)的缺陷更加明顯。二十年前,用貨車運(yùn)輸磁帶進(jìn)行存儲(chǔ)能滿足需求了。十年前,兩個(gè)數(shù)據(jù)中心的距離只要能進(jìn)行I/O,能滿足需求,F(xiàn)在,隨著電子商務(wù)成為首要的負(fù)載,恢復(fù)計(jì)劃還得考慮數(shù)據(jù)中心的地理距離,這一點(diǎn)限制了恢復(fù)時(shí)間。

地理距離與數(shù)據(jù)中心管理

概念上,這是關(guān)于兩個(gè)不同位置的數(shù)據(jù)中心,如圖1所示。在數(shù)目也許會(huì)擴(kuò)展到更多站點(diǎn)。


圖1:地理性分離數(shù)據(jù)中心的示意圖

圖中兩個(gè)數(shù)據(jù)中心是分離的,這對于進(jìn)行同步磁盤輸入輸出來說,實(shí)在太遠(yuǎn)了,這導(dǎo)致了很多需求。首先每個(gè)數(shù)據(jù)中心必須得有自己的直接存取存儲(chǔ)設(shè)備(Direct Access Storage Device,簡稱DASD)場所來進(jìn)行管理。第二是同步硬件復(fù)制會(huì)因?yàn)榫W(wǎng)絡(luò)延遲而無法工作。后,距離也意味著,每個(gè)數(shù)據(jù)中心的邏輯分區(qū)(logical partition,簡稱LPAR)不能處于同一個(gè)Sysplex(Systems Complex,系統(tǒng)聯(lián)合體)里面。

網(wǎng)絡(luò)在數(shù)據(jù)中心管理中占了重要位置,是兩個(gè)數(shù)據(jù)中心之間的切換開關(guān)。有了合適的內(nèi)部通訊系統(tǒng),以后的要求都可以基于不同標(biāo)準(zhǔn),按路線分給每個(gè)數(shù)據(jù)中心。其實(shí),有了現(xiàn)在基于瀏覽器的應(yīng)用,用戶可以實(shí)現(xiàn)不同數(shù)據(jù)中心的不間斷切換。

因?yàn)橛布䦶?fù)制不可用,數(shù)據(jù)必須在邏輯數(shù)據(jù)庫或者訪問方式(access method)的級別上被獲取。有幾個(gè)產(chǎn)品可以做這件事。部分產(chǎn)品得通過讀數(shù)據(jù)庫或Virtual Storage Access Method(簡稱VSAM)記錄來升級。變更投到其他數(shù)據(jù)中心,通過通信線路使用多種的傳輸協(xié)議。在接收端,由另一個(gè)軟件發(fā)給數(shù)據(jù)庫或訪問方式命令來完成遠(yuǎn)程升級。

為相隔兩地的數(shù)據(jù)中心配置

分離的數(shù)據(jù)中心有好幾種方式來配置,能想到的有以下幾種:

Hot-warm

企業(yè)中一個(gè)數(shù)據(jù)中心被指派成為所有網(wǎng)絡(luò)流量的目標(biāo)。在第一個(gè)數(shù)據(jù)中心的升級會(huì)被復(fù)制到第二個(gè)數(shù)據(jù)中心站點(diǎn),第二個(gè)會(huì)接收并把這些改變用在本地的DASD場所。一旦第一個(gè)數(shù)據(jù)中心故障,若第二個(gè)站點(diǎn)在線,混亂會(huì)降至低。

升級-查詢

在升級-查詢的方案中,一個(gè)數(shù)據(jù)中心地區(qū)全體升級,而其他只允許查詢。升級的站點(diǎn)為只讀的系統(tǒng)聯(lián)合體及時(shí)帶來改變。如果升級數(shù)據(jù)中心失敗,負(fù)責(zé)查詢的系統(tǒng)聯(lián)合體得負(fù)全責(zé)。

網(wǎng)絡(luò)在進(jìn)行這種安裝時(shí),起決定性作用,它必須能問信息內(nèi)容,來區(qū)分詢問和升級事務(wù)。工作站可能也會(huì)使用網(wǎng)絡(luò)來平衡負(fù)載,使每個(gè)數(shù)據(jù)中心能夠帶上屬于自己的只讀流量。

升級-升級

這是個(gè)實(shí)實(shí)在在的事。每個(gè)數(shù)據(jù)中心支持所有數(shù)據(jù)的所有升級。兩種方式的復(fù)制流經(jīng)通信連接,保持?jǐn)?shù)據(jù)庫的同步。一旦發(fā)生故障,沒有出問題的數(shù)據(jù)中心承擔(dān)所有即將到來的流量。

注意當(dāng)兩個(gè)數(shù)據(jù)中心都升級時(shí),數(shù)據(jù)在邏輯上可能會(huì)分離。比如說對用戶的初級數(shù)據(jù)庫在密西西比河西邊的“A數(shù)據(jù)中心”,第二個(gè)只讀的數(shù)據(jù)在“B數(shù)據(jù)中心”。用戶在哪一邊都可能是反向的。終,這意味著網(wǎng)絡(luò)必須足夠智能,知道客戶的初級數(shù)據(jù)在哪。

其他的問題

相信各位深思熟慮的讀者已經(jīng)想到不少這些問題。但是還有更多令人不安的不穩(wěn)定因素。

批處理??在升級-升級的模式下,生產(chǎn)量會(huì)問題多多。企業(yè)得決定哪一方進(jìn)行批處理,如果批處理兩方都得進(jìn)行更頭疼了。還得考慮對帶寬的需求,用以從I/O相關(guān)批處理事務(wù)中擠出空間升級,通過復(fù)制鏈接。

復(fù)制的延遲??現(xiàn)代通信連接又快有可靠,但還會(huì)有問題。算是快完美的通信線也不能和DASD I/O一樣同步和快速。因此,系統(tǒng)基礎(chǔ)架構(gòu)和一部分應(yīng)用必須準(zhǔn)備好應(yīng)對延遲和“過時(shí)”的數(shù)據(jù)。

沖突問題??數(shù)據(jù)庫管理系統(tǒng)(Database Management Systems,簡稱DBMS)在不同的系統(tǒng)聯(lián)合體中,不能從太寬的距離鎖定數(shù)據(jù)庫記錄。這導(dǎo)致在不同數(shù)據(jù)中心內(nèi),相同的數(shù)據(jù)庫記錄可能會(huì)同時(shí)升級。基礎(chǔ)設(shè)施和應(yīng)用需要準(zhǔn)備好應(yīng)對混亂。

控制改變??基礎(chǔ)設(shè)施、應(yīng)用和數(shù)據(jù)庫設(shè)計(jì)的改變一定得認(rèn)真管理,避免破壞在不同數(shù)據(jù)中心復(fù)制的一致性。

漂移??沒有異步復(fù)制技術(shù)在邏輯I/O層面是完美的,企業(yè)會(huì)發(fā)現(xiàn)分叉數(shù)據(jù)存儲(chǔ)變慢。整理這些不同需要周期性的調(diào)和進(jìn)程。

死亡??對于數(shù)據(jù)中心來說,什么算死?數(shù)據(jù)中心通過復(fù)制流量和heartbeat來保持聯(lián)系。但是復(fù)制流量的減慢可能預(yù)示著一個(gè)數(shù)據(jù)中心工作做的少了。同樣地,一些遺落的heartbeat也暗示著網(wǎng)絡(luò)故障或減慢,而不是數(shù)據(jù)中心故障。

探查和遵照這些察覺到的故障來行事,要求精心策劃的政策、高度自動(dòng)化和仔細(xì)的管理。好消息是數(shù)據(jù)中心的地理分離逐漸變得平常,解決這些問題的政策也變得更加便于學(xué)習(xí)。