http://www.cnblogs.com/bccu/archive/2009/03/11/1408899.html
在調(diào)度器的實(shí)現(xiàn)技術(shù)中,IP負(fù)載均衡技術(shù)效率最高。在已有的IP負(fù)載均衡技術(shù)中有通過(guò)網(wǎng)絡(luò)地址轉(zhuǎn)換(Network Address Translation)將一組服務(wù)器構(gòu)成一個(gè)高性能的、高可用的虛擬服務(wù)器,我們稱之為VS/NAT技術(shù)(Virtual Server via Network Address Translation),大多數(shù)商品化的IP負(fù)載均衡調(diào)度器產(chǎn)品都是使用此方法,如Cisco的LocalDirector、F5的Big/IP和Alteon的ACEDirector。在分析VS/NAT的缺點(diǎn)和網(wǎng)絡(luò)服務(wù)的非對(duì)稱性的基礎(chǔ)上,我們提出通過(guò)IP隧道實(shí)現(xiàn)虛擬服務(wù)器的方法VS/TUN(Virtual Server via IP Tunneling),和通過(guò)直接路由實(shí)現(xiàn)虛擬服務(wù)器的方法VS/DR(Virtual Server via Direct Routing),它們可以極大地提高系統(tǒng)的伸縮性。所以,IPVS軟件實(shí)現(xiàn)了這三種IP負(fù)載均衡技術(shù),它們的大致原理如下:
Virtual Server via Network Address Translation(VS/NAT)
通過(guò)網(wǎng)絡(luò)地址轉(zhuǎn)換,調(diào)度器重寫請(qǐng)求報(bào)文的目標(biāo)地址,根據(jù)預(yù)設(shè)的調(diào)度算法,將請(qǐng)求分派給后端真實(shí)服務(wù)器;真實(shí)服務(wù)器的響應(yīng)報(bào)文通過(guò)調(diào)度器時(shí),報(bào)文源地址被重寫再返回給客戶,完成整個(gè)負(fù)載調(diào)度過(guò)程。
下面的基本結(jié)構(gòu)和三層結(jié)構(gòu)其實(shí)都是利用NAT這種方式。這種情況的配置比較簡(jiǎn)單,但通常在流量比較大的情況下會(huì)造成調(diào)度器的瓶頸。因?yàn)榉?wù)數(shù)據(jù)的返回必須通過(guò)調(diào)度器出去。
Virtual Server via IP Tunneling(VS/TUN)
采用NAT技術(shù)時(shí),由于請(qǐng)求和響應(yīng)報(bào)文都必須經(jīng)過(guò)調(diào)度器地址重寫,當(dāng)客戶請(qǐng)求越來(lái)越多時(shí),調(diào)度器的處理能力將成為瓶頸。為了解決這個(gè)問(wèn)題,調(diào)度器把請(qǐng)求報(bào)文通過(guò)IP隧道轉(zhuǎn)發(fā)至真實(shí)服務(wù)器,而真實(shí)服務(wù)器將響應(yīng)直接返回給客戶,所以調(diào)度器只處理請(qǐng)求報(bào)文。由于一般網(wǎng)絡(luò)服務(wù)應(yīng)答比請(qǐng)求報(bào)文大許多,采用VS/TUN技術(shù)后,集群系統(tǒng)的最大吞吐量可以提高10倍。
Virtual Server via Direct Routing(VS/DR)
VS/DR通過(guò)改寫請(qǐng)求報(bào)文的MAC地址,將請(qǐng)求發(fā)送到真實(shí)服務(wù)器,而真實(shí)服務(wù)器將響應(yīng)直接返回給客戶。同VS/TUN技術(shù)一樣,VS/DR技術(shù)可極大地提高集群系統(tǒng)的伸縮性。這種方法沒(méi)有IP隧道的開(kāi)銷,對(duì)集群中的真實(shí)服務(wù)器也沒(méi)有必須支持IP隧道協(xié)議的要求,但是要求調(diào)度器與真實(shí)服務(wù)器都有一塊網(wǎng)卡連在同一物理網(wǎng)段上。也就是說(shuō),在這種結(jié)構(gòu)中,數(shù)據(jù)從外部到內(nèi)部真實(shí)服務(wù)器的訪問(wèn)會(huì)通過(guò)調(diào)度器進(jìn)來(lái),但是真實(shí)服務(wù)器對(duì)其的應(yīng)答不是通過(guò)調(diào)度器出去。即在大多數(shù)情況下,真實(shí)服務(wù)器可以通過(guò)各自的網(wǎng)關(guān)或者專用的網(wǎng)關(guān)對(duì)數(shù)據(jù)進(jìn)行外發(fā),從而降低調(diào)度器負(fù)載。
同時(shí)在LVS中提供了八種不同的調(diào)度算法以供按照實(shí)際需求選擇:
輪叫(Round Robin)
調(diào)度器通過(guò)"輪叫"調(diào)度算法將外部請(qǐng)求按順序輪流分配到集群中的真實(shí)服務(wù)器上,它均等地對(duì)待每一臺(tái)服務(wù)器,而不管服務(wù)器上實(shí)際的連接數(shù)和系統(tǒng)負(fù)載。
加權(quán)輪叫(Weighted Round Robin)
調(diào)度器通過(guò)"加權(quán)輪叫"調(diào)度算法根據(jù)真實(shí)服務(wù)器的不同處理能力來(lái)調(diào)度訪問(wèn)請(qǐng)求。這樣可以保證處理能力強(qiáng)的服務(wù)器處理更多的訪問(wèn)流量。調(diào)度器可以自動(dòng)問(wèn)詢真實(shí)服務(wù)器的負(fù)載情況,并動(dòng)態(tài)地調(diào)整其權(quán)值。
最少鏈接(Least Connections)
調(diào)度器通過(guò)"最少連接"調(diào)度算法動(dòng)態(tài)地將網(wǎng)絡(luò)請(qǐng)求調(diào)度到已建立的鏈接數(shù)最少的服務(wù)器上。如果集群系統(tǒng)的真實(shí)服務(wù)器具有相近的系統(tǒng)性能,采用"最小連接"調(diào)度算法可以較好地均衡負(fù)載。
加權(quán)最少鏈接(Weighted Least Connections)
在集群系統(tǒng)中的服務(wù)器性能差異較大的情況下,調(diào)度器采用"加權(quán)最少鏈接"調(diào)度算法優(yōu)化負(fù)載均衡性能,具有較高權(quán)值的服務(wù)器將承受較大比例的活動(dòng)連接負(fù)載。調(diào)度器可以自動(dòng)問(wèn)詢真實(shí)服務(wù)器的負(fù)載情況,并動(dòng)態(tài)地調(diào)整其權(quán)值。
基于局部性的最少鏈接(Locality-Based Least Connections)
"基于局部性的最少鏈接" 調(diào)度算法是針對(duì)目標(biāo)IP地址的負(fù)載均衡,目前主要用于Cache集群系統(tǒng)。該算法根據(jù)請(qǐng)求的目標(biāo)IP地址找出該目標(biāo)IP地址最近使用的服務(wù)器,若該服務(wù)器是可用的且沒(méi)有超載,將請(qǐng)求發(fā)送到該服務(wù)器;若服務(wù)器不存在,或者該服務(wù)器超載且有服務(wù)器處于一半的工作負(fù)載,則用"最少鏈接"的原則選出一個(gè)可用的服務(wù)器,將請(qǐng)求發(fā)送到該服務(wù)器。
帶復(fù)制的基于局部性最少鏈接(Locality-Based Least Connections with Replication) "帶復(fù)制的基于局部性最少鏈接"調(diào)度算法也是針對(duì)目標(biāo)IP地址的負(fù)載均衡,目前主要用于Cache集群系統(tǒng)。它與LBLC算法的不同之處是它要維護(hù)從一個(gè)目標(biāo)IP地址到一組服務(wù)器的映射,而LBLC算法維護(hù)從一個(gè)目標(biāo)IP地址到一臺(tái)服務(wù)器的映射。該算法根據(jù)請(qǐng)求的目標(biāo)IP地址找出該目標(biāo)IP地址對(duì)應(yīng)的服務(wù)器組,按"最小連接"原則從服務(wù)器組中選出一臺(tái)服務(wù)器,若服務(wù)器沒(méi)有超載,將請(qǐng)求發(fā)送到該服務(wù)器,若服務(wù)器超載;則按"最小連接"原則從這個(gè)集群中選出一臺(tái)服務(wù)器,將該服務(wù)器加入到服務(wù)器組中,將請(qǐng)求發(fā)送到該服務(wù)器。同時(shí),當(dāng)該服務(wù)器組有一段時(shí)間沒(méi)有被修改,將最忙的服務(wù)器從服務(wù)器組中刪除,以降低復(fù)制的程度。
目標(biāo)地址散列(Destination Hashing)
"目標(biāo)地址散列"調(diào)度算法根據(jù)請(qǐng)求的目標(biāo)IP地址,作為散列鍵(Hash Key)從靜態(tài)分配的散列表找出對(duì)應(yīng)的服務(wù)器,若該服務(wù)器是可用的且未超載,將請(qǐng)求發(fā)送到該服務(wù)器,否則返回空。
源地址散列(Source Hashing)
"源地址散列"調(diào)度算法根據(jù)請(qǐng)求的源IP地址,作為散列鍵(Hash Key)從靜態(tài)分配的散列表找出對(duì)應(yīng)的服務(wù)器,若該服務(wù)器是可用的且未超載,將請(qǐng)求發(fā)送到該服務(wù)器,否則返回空。
上述八種負(fù)載均衡調(diào)度算法在實(shí)施中,節(jié)點(diǎn)的權(quán)重越高,在集群中使用的頻率就越高。比如說(shuō)權(quán)重為2的節(jié)點(diǎn)在每接收兩個(gè)訪問(wèn)請(qǐng)求之后,權(quán)重為1的節(jié)點(diǎn)才接收一個(gè)訪問(wèn)請(qǐng)求。
LVS集群采用IP負(fù)載均衡技術(shù)和基于內(nèi)容請(qǐng)求分發(fā)技術(shù)。調(diào)度器具有很好的吞吐率,將請(qǐng)求均衡地轉(zhuǎn)移到不同的服務(wù)器上執(zhí)行,且調(diào)度器自動(dòng)屏蔽掉服務(wù)器的故障,從而將一組服務(wù)器構(gòu)成一個(gè)高性能的、高可用的虛擬服務(wù)器。整個(gè)服務(wù)器集群的結(jié)構(gòu)對(duì)客戶是透明的,而且無(wú)需修改客戶端和服務(wù)器端的程序。
為此,在設(shè)計(jì)時(shí)需要考慮系統(tǒng)的透明性、可伸縮性、高可用性和易管理性。一般來(lái)說(shuō),LVS集群采用三層結(jié)構(gòu),其體系結(jié)構(gòu)如圖1所示,三層主要組成部分為:
負(fù)載調(diào)度器(load balancer),它是整個(gè)集群對(duì)外面的前端機(jī),負(fù)責(zé)將客戶的請(qǐng)求發(fā)送到一組服務(wù)器上執(zhí)行,而客戶認(rèn)為服務(wù)是來(lái)自一個(gè)IP地址(我們可稱之為虛擬IP地址)上的。
服務(wù)器池(server pool),是一組真正執(zhí)行客戶請(qǐng)求的服務(wù)器,服務(wù)有WEB、MAIL、FTP和DNS等。
共享存儲(chǔ)(shared storage),它為服務(wù)器池提供一個(gè)共享的存儲(chǔ)區(qū),這樣很容易使得服務(wù)器池?fù)碛邢嗤膬?nèi)容,提供相同的服務(wù)。
調(diào)度器是服務(wù)器集群系統(tǒng)的唯一入口點(diǎn)(Single Entry Point),它可以采用IP負(fù)載均衡技術(shù)、基于內(nèi)容請(qǐng)求分發(fā)技術(shù)或者兩者相結(jié)合。在IP負(fù)載均衡技術(shù)中,需要服務(wù)器池?fù)碛邢嗤膬?nèi)容提供相同的服務(wù)。當(dāng)客戶請(qǐng)求到達(dá)時(shí),調(diào)度器只根據(jù)服務(wù)器負(fù)載情況和設(shè)定的調(diào)度算法從服務(wù)器池中選出一個(gè)服務(wù)器,將該請(qǐng)求轉(zhuǎn)發(fā)到選出的服務(wù)器,并記錄這個(gè)調(diào)度;當(dāng)這個(gè)請(qǐng)求的其他報(bào)文到達(dá),也會(huì)被轉(zhuǎn)發(fā)到前面選出的服務(wù)器。在基于內(nèi)容請(qǐng)求分發(fā)技術(shù)中,服務(wù)器可以提供不同的服務(wù),當(dāng)客戶請(qǐng)求到達(dá)時(shí),調(diào)度器可根據(jù)請(qǐng)求的內(nèi)容選擇服務(wù)器執(zhí)行請(qǐng)求。因?yàn)樗械牟僮鞫际窃贚inux操作系統(tǒng)核心空間中將完成的,它的調(diào)度開(kāi)銷很小,所以它具有很高的吞吐率。
服務(wù)器池的結(jié)點(diǎn)數(shù)目是可變的。當(dāng)整個(gè)系統(tǒng)收到的負(fù)載超過(guò)目前所有結(jié)點(diǎn)的處理能力時(shí),可以在服務(wù)器池中增加服務(wù)器來(lái)滿足不斷增長(zhǎng)的請(qǐng)求負(fù)載。對(duì)大多數(shù)網(wǎng)絡(luò)服務(wù)來(lái)說(shuō),請(qǐng)求間不存在很強(qiáng)的相關(guān)性,請(qǐng)求可在不同的結(jié)點(diǎn)上并行執(zhí)行,所以整個(gè)系統(tǒng)的性能基本上可隨著服務(wù)器池的結(jié)點(diǎn)數(shù)目增加而線性增長(zhǎng)。
共享存儲(chǔ)通常是數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)文件系統(tǒng)或者分布式文件系統(tǒng)。服務(wù)器結(jié)點(diǎn)需要?jiǎng)討B(tài)更新的數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中,同時(shí)數(shù)據(jù)庫(kù)會(huì)保證并發(fā)訪問(wèn)時(shí)數(shù)據(jù)的一致性。靜態(tài)的數(shù)據(jù)可以存儲(chǔ)在網(wǎng)絡(luò)文件系統(tǒng)(如NFS/CIFS)中,但網(wǎng)絡(luò)文件系統(tǒng)的伸縮能力有限,一般來(lái)說(shuō),NFS/CIFS服務(wù)器只能支持3~6個(gè)繁忙的服務(wù)器結(jié)點(diǎn)。對(duì)于規(guī)模較大的集群系統(tǒng),可以考慮用分布式文件系統(tǒng),如AFS[1]、GFS[2.3]、Coda[4]和Intermezzo[5]等。分布式文件系統(tǒng)可為各服務(wù)器提供共享的存儲(chǔ)區(qū),它們?cè)L問(wèn)分布式文件系統(tǒng)就像訪問(wèn)本地文件系統(tǒng)一樣,同時(shí)分布式文件系統(tǒng)可提供良好的伸縮性和可用性。此外,當(dāng)不同服務(wù)器上的應(yīng)用程序同時(shí)讀寫訪問(wèn)分布式文件系統(tǒng)上同一資源時(shí),應(yīng)用程序的訪問(wèn)沖突需要消解才能使得資源處于一致?tīng)顟B(tài)。這需要一個(gè)分布式鎖管理器(Distributed Lock Manager),它可能是分布式文件系統(tǒng)內(nèi)部提供的,也可能是外部的。開(kāi)發(fā)者在寫應(yīng)用程序時(shí),可以使用分布式鎖管理器來(lái)保證應(yīng)用程序在不同結(jié)點(diǎn)上并發(fā)訪問(wèn)的一致性。
負(fù)載調(diào)度器、服務(wù)器池和共享存儲(chǔ)系統(tǒng)通過(guò)高速網(wǎng)絡(luò)相連接,如100Mbps交換網(wǎng)絡(luò)、Myrinet和Gigabit網(wǎng)絡(luò)等。使用高速的網(wǎng)絡(luò),主要為避免當(dāng)系統(tǒng)規(guī)模擴(kuò)大時(shí)互聯(lián)網(wǎng)絡(luò)成為整個(gè)系統(tǒng)的瓶頸。
Graphic Monitor是為系統(tǒng)管理員提供整個(gè)集群系統(tǒng)的監(jiān)視器,它可以監(jiān)視系統(tǒng)的狀態(tài)。Graphic Monitor是基于瀏覽器的,所以無(wú)論管理員在本地還是異地都可以監(jiān)測(cè)系統(tǒng)的狀況。為了安全的原因,瀏覽器要通過(guò)HTTPS(Secure HTTP)協(xié)議和身份認(rèn)證后,才能進(jìn)行系統(tǒng)監(jiān)測(cè),并進(jìn)行系統(tǒng)的配置和管理。
層次的體系結(jié)構(gòu)可以使得層與層之間相互獨(dú)立,每一個(gè)層次提供不同的功能,在一個(gè)層次可以重用不同的已有軟件。例如,調(diào)度器層提供了負(fù)載平衡、可伸縮性和高可用性等,在服務(wù)器層可以運(yùn)行不同的網(wǎng)絡(luò)服務(wù),如Web、Cache、Mail和Media等,來(lái)提供不同的可伸縮網(wǎng)絡(luò)服務(wù)。明確的功能劃分和清晰的層次結(jié)構(gòu)使得系統(tǒng)容易建設(shè),以后整個(gè)系統(tǒng)容易維護(hù),而且系統(tǒng)的性能容易被擴(kuò)展。
共享存儲(chǔ)如分布式文件系統(tǒng)在這個(gè)LVS集群系統(tǒng)是可選項(xiàng)。當(dāng)網(wǎng)絡(luò)服務(wù)需要有相同的內(nèi)容,共享存儲(chǔ)是很好的選擇,否則每臺(tái)服務(wù)器需要將相同的內(nèi)容復(fù)制到本地硬盤上。當(dāng)系統(tǒng)存儲(chǔ)的內(nèi)容越多,這種無(wú)共享結(jié)構(gòu)(Shared-nothing Structure)的代價(jià)越大,因?yàn)槊颗_(tái)服務(wù)器需要一樣大的存儲(chǔ)空間,任何的更新需要涉及到每臺(tái)服務(wù)器,系統(tǒng)的維護(hù)代價(jià)會(huì)非常高。
共享存儲(chǔ)為服務(wù)器組提供統(tǒng)一的存儲(chǔ)空間,這使得系統(tǒng)的內(nèi)容維護(hù)工作比較輕松,如Webmaster只需要更新共享存儲(chǔ)中的頁(yè)面,對(duì)所有的服務(wù)器都有效。分布式文件系統(tǒng)提供良好的伸縮性和可用性,當(dāng)分布式文件系統(tǒng)的存儲(chǔ)空間增加時(shí),所有服務(wù)器的存儲(chǔ)空間也隨之增大。對(duì)于大多數(shù)Internet服務(wù)來(lái)說(shuō),它們都是讀密集型(Read-intensive)的應(yīng)用,分布式文件系統(tǒng)在每臺(tái)服務(wù)器使用本地硬盤作Cache(如2Gbytes的空間),可以使得訪問(wèn)分布式文件系統(tǒng)本地的速度接近于訪問(wèn)本地硬盤。
此外,存儲(chǔ)硬件技術(shù)的發(fā)展也促使從無(wú)共享的集群向共享存儲(chǔ)的集群遷移。存儲(chǔ)區(qū)域網(wǎng)(Storage Area Networks)技術(shù)解決了集群的每個(gè)結(jié)點(diǎn)可以直接連接/共享一個(gè)龐大的硬盤陣列,硬件廠商也提供多種硬盤共享技術(shù),如光纖通道(Fiber Channel)、共享SCSI(Shared SCSI)。InfiniBand是一個(gè)通用的高性能I/O規(guī)范,使得存儲(chǔ)區(qū)域網(wǎng)中以更低的延時(shí)傳輸I/O消息和集群通訊消息,并且提供很好的伸縮性。InfiniBand得到絕大多數(shù)的大廠商的支持,如Compaq、Dell、Hewlett-Packard、IBM、Intel、Microsoft和SUN Microsystems等,它正在成為一個(gè)業(yè)界的標(biāo)準(zhǔn)。這些技術(shù)的發(fā)展使得共享存儲(chǔ)變得容易,規(guī)模生產(chǎn)也會(huì)使得成本逐步降低。
集群系統(tǒng)的特點(diǎn)是它在軟硬件上都有冗余。系統(tǒng)的高可用性可以通過(guò)檢測(cè)節(jié)點(diǎn)或服務(wù)進(jìn)程故障和正確地重置系統(tǒng)來(lái)實(shí)現(xiàn),使得系統(tǒng)收到的請(qǐng)求能被存活的結(jié)點(diǎn)處理。
通常,我們?cè)谡{(diào)度器上有資源監(jiān)測(cè)進(jìn)程來(lái)時(shí)刻監(jiān)視各個(gè)服務(wù)器結(jié)點(diǎn)的健康狀況。當(dāng)服務(wù)器對(duì)ICMP ping不可達(dá)時(shí)或者探測(cè)她的網(wǎng)絡(luò)服務(wù)在指定的時(shí)間沒(méi)有響應(yīng)時(shí),資源監(jiān)測(cè)進(jìn)程通知操作系統(tǒng)內(nèi)核將該服務(wù)器從調(diào)度列表中刪除或者失效。這樣,新的服務(wù)請(qǐng)求就不會(huì)被調(diào)度到壞的結(jié)點(diǎn)。資源監(jiān)測(cè)進(jìn)程能通過(guò)電子郵件或傳呼機(jī)向管理員報(bào)告故障。一旦監(jiān)測(cè)進(jìn)程到服務(wù)器恢復(fù)工作,通知調(diào)度器將其加入調(diào)度列表進(jìn)行調(diào)度。另外,通過(guò)系統(tǒng)提供的管理程序,管理員可發(fā)命令隨時(shí)可以將新機(jī)器加入服務(wù)來(lái)提高系統(tǒng)的處理性能,也可以將已有的服務(wù)器切出服務(wù),以便對(duì)服務(wù)器進(jìn)行系統(tǒng)維護(hù)。
現(xiàn)在前端的調(diào)度器有可能成為系統(tǒng)的單一失效點(diǎn)(Single Point of Failure)。一般來(lái)說(shuō),調(diào)度器的可靠性較高,因?yàn)檎{(diào)度器上運(yùn)行的程序較少而且大部分程序早已經(jīng)遍歷過(guò),但我們不能排除硬件老化、網(wǎng)絡(luò)線路或者人為誤操作等主要故障。為了避免調(diào)度器失效而導(dǎo)致整個(gè)系統(tǒng)不能工作,我們需要設(shè)立一個(gè)從調(diào)度器作為主調(diào)度器的備份。兩個(gè)心跳(Heartbeat)進(jìn)程[6]分別在主、從調(diào)度器上運(yùn)行,它們通過(guò)串口線和UDP等心跳線來(lái)相互定時(shí)地匯報(bào)各自的健康狀況。當(dāng)從調(diào)度器不能聽(tīng)得主調(diào)度器的心跳時(shí),從調(diào)度器通過(guò)ARP欺騙(Gratuitous ARP)來(lái)接管集群對(duì)外的Virtual IP Address,同時(shí)接管主調(diào)度器的工作來(lái)提供負(fù)載調(diào)度服務(wù)。當(dāng)主調(diào)度器恢復(fù)時(shí),這里有兩種方法,一是主調(diào)度器自動(dòng)變成從調(diào)度器,二是從調(diào)度器釋放Virtual IP Address,主調(diào)度器收回Virtual IP Address并提供負(fù)載調(diào)度服務(wù)。這里,多條心跳線可以使得因心跳線故障導(dǎo)致誤判(即從調(diào)度器認(rèn)為主調(diào)度器已經(jīng)失效,其實(shí)主調(diào)度器還在正常工作)的概論降到最低。
通常,當(dāng)主調(diào)度器失效時(shí),主調(diào)度器上所有已建立連接的狀態(tài)信息將丟失,已有的連接會(huì)中斷。客戶需要向重新連接,從調(diào)度器才會(huì)將新連接調(diào)度到各個(gè)服務(wù)器上,這對(duì)客戶會(huì)造成一定的不便。為此,IPVS調(diào)度器在Linux 內(nèi)核中實(shí)現(xiàn)一種高效狀態(tài)同步機(jī)制,將主調(diào)度器的狀態(tài)信息及時(shí)地同步到從調(diào)度器。當(dāng)從調(diào)度器接管時(shí),絕大部分已建立的連接會(huì)持續(xù)下去。
在具體實(shí)施過(guò)程中,在紅帽企業(yè)版Linux上對(duì)LVS集群的定義和配置提供了更加詳細(xì)的方案:
LVS集群的結(jié)構(gòu):基本結(jié)構(gòu)和三層結(jié)構(gòu)
基本結(jié)構(gòu)圖示如下:
在這種結(jié)構(gòu)中有兩臺(tái)雙網(wǎng)卡的Linux服務(wù)器被配置為L(zhǎng)VS Router,又稱為調(diào)度器。LVS的主要作用是虛擬出一個(gè)公共連接的IP地址和一個(gè)專用連接的IP地址(這兩個(gè)地址不是手工配置生成,而是在服務(wù)啟動(dòng)的時(shí)候形成),稱之為浮動(dòng)地址。
在同一個(gè)時(shí)間,只有一個(gè)LVS Server處于工作狀態(tài),外部用戶要訪問(wèn)內(nèi)部的真實(shí)服務(wù)器實(shí)際上所做的操作是直接訪問(wèn)LVS Server的外部網(wǎng)絡(luò)浮動(dòng)地址,在這個(gè)例子中是eth0:1。這個(gè)公共網(wǎng)絡(luò)浮動(dòng)地址就是外部用戶要訪問(wèn)的虛擬服務(wù)器。只不過(guò)是虛擬服務(wù)器能夠?qū)?lái)自外部的訪問(wèn)按照負(fù)載均衡算法發(fā)送到內(nèi)部的真實(shí)服務(wù)器上面。這種算法通常帶有輪詢性質(zhì)。
而內(nèi)部真實(shí)服務(wù)器在上面的結(jié)構(gòu)中會(huì)將網(wǎng)關(guān)指向LVS Server的內(nèi)部浮動(dòng)地址,這個(gè)結(jié)構(gòu)中是eth1:1。真實(shí)服務(wù)器在接收到由虛擬服務(wù)器轉(zhuǎn)發(fā)的服務(wù)請(qǐng)求之后會(huì)將結(jié)果通過(guò)eth1:1返回。
盡管eth0:1是虛擬服務(wù)器IP地址,但是如果在同一個(gè)結(jié)構(gòu)中要支持多個(gè)不同虛擬地址的服務(wù),比如說(shuō)HTTP在1.1.1.10,F(xiàn)TP在1.1.1.20……這種情況下完全可以建立多個(gè)不同的虛擬網(wǎng)卡。不過(guò)仍然要注意,這個(gè)虛擬網(wǎng)絡(luò)是在服務(wù)啟動(dòng)狀態(tài)下自動(dòng)生成的而不是手動(dòng)建立和配置的。
為了保證所有的真實(shí)服務(wù)器都提供同樣的服務(wù)內(nèi)容,通常也會(huì)指定一些特定的方式,比如利用rsync或者借助下面的三層結(jié)構(gòu)的共享存儲(chǔ)來(lái)維護(hù)多臺(tái)真實(shí)服務(wù)器的數(shù)據(jù)一致性。
在任何時(shí)候只有一臺(tái)LVS服務(wù)器處于工作狀態(tài)中,而另外一臺(tái)處于備份狀態(tài)。他們之間通過(guò)心跳頻道來(lái)相互探知對(duì)方的狀態(tài)。探知的方式是借助一些特定的腳本通過(guò)心跳頻道相互發(fā)送信號(hào)。在這個(gè)結(jié)構(gòu)中主心跳頻道是LVS服務(wù)器的公共網(wǎng)絡(luò),而備用心跳頻道是LVS服務(wù)器的內(nèi)部網(wǎng)絡(luò)。
當(dāng)然在上面的圖中,并不是一定需要兩個(gè)LVS Router,只有一臺(tái)LVS Router的情況下也可以做,只不過(guò)少了一些保證而已。
LVS1.PNG
(6.77 KB) 2008-7-28 23:48
三層結(jié)構(gòu)圖示如下:
從下面的圖可以看出,三層結(jié)構(gòu)相對(duì)于基本結(jié)構(gòu)需要更多的設(shè)備,配置方面也比較復(fù)雜。僅僅是后臺(tái)的集群系統(tǒng)已經(jīng)需要足夠的時(shí)間去折騰。但這種結(jié)構(gòu)對(duì)于大數(shù)據(jù)訪問(wèn)量的FTP服務(wù)器、Samba等應(yīng)用來(lái)說(shuō)是比較理想的。在這個(gè)結(jié)構(gòu)中的后面是HA集群,通常HA集群會(huì)以服務(wù)的形式提供Samba,NFS以及FTP等服務(wù),而真實(shí)服務(wù)器會(huì)通過(guò)掛載的方式獲得HA上提供出來(lái)的數(shù)據(jù)。
另外在紅帽的LVS中還有一個(gè)比較關(guān)鍵的東西是LVS的組件:
LVS的組件中服務(wù)包括pulse,lvs,ipvsadm以及nany;另外還包括配置文件/etc/sysconfig/ha/lvs.cf,配置工具piranha configuration tooly以及服務(wù)IP進(jìn)行浮動(dòng)之前arp欺騙手段中的send_arp。
pulse是LVS的控制進(jìn)程,該進(jìn)程用于啟動(dòng)和控制所有的其他LVS相關(guān)的守護(hù)進(jìn)程。該進(jìn)程的配置文件是/etc/sysconfig/ha/lvs.cf。在主router上pulse用于啟動(dòng)LVS守護(hù)進(jìn)程,在備份router上pulse通過(guò)定期收發(fā)心跳信號(hào)監(jiān)控主router的狀態(tài)。如果一旦主router失效,在備份router上的pulse進(jìn)程將關(guān)閉所有主router上的LVS服務(wù),并且開(kāi)啟send_arp程序來(lái)重新指派浮動(dòng)IP到備份router的MAC上。
lvs進(jìn)程運(yùn)行在主router上,主要讀取/etc/sysconfig/ha/lvs.cf文件,調(diào)用lvsadm工具來(lái)建立與維護(hù)ipvs路由表并對(duì)每一個(gè)LVS服務(wù)指派nanny進(jìn)程。如果nanny報(bào)告一個(gè)真實(shí)服務(wù)器失效,lvs進(jìn)程將調(diào)用ipvsadm工具將失效真實(shí)服務(wù)器從IPVS路由表中刪除。
ipvsadm用于升級(jí)kernel中的IPVS路由表,該進(jìn)程主要用于更改、添加、刪除IPVS路由表的條目。
nanny監(jiān)控的進(jìn)程運(yùn)行在主LVS Router上,主LVS Router會(huì)通過(guò)他來(lái)監(jiān)控每一個(gè)真實(shí)服務(wù)器的狀況。
另外piranha configuration tool提供了一個(gè)圖形接口用于修改/etc/sysconfig/ha/lvs.cf文件,而send_arp會(huì)在浮動(dòng)IP向不同的LVS router進(jìn)行切換時(shí)發(fā)送arp廣播。
LVS2.PNG
(7.5 KB) 2008-7-28 23:52
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
