如果數據庫需要進行水平拆分,這其實是一件很開心的事情,因為它代表公司的業務正在迅猛的增長,對于開發人員而言那就是有不盡的項目可以做,雖然會感覺很忙,但是人過的充實,心里也踏實。
?
數據庫水平拆分簡單說來就是先將原數據庫里的一張表在做垂直拆分出來放置在單獨的數據庫和單獨的表里后更進一步的把本來是一個整體的表進一步拆分成多張表,每一張表都用獨立的數據庫進行存儲 。 當表被水平拆分后,原數據表成為了一個邏輯的概念,而這個邏輯表的業務含義需要多張物理表協同完成,因此數據庫的表被水平拆分后,那么我們對這張表的操作 已經超出了數據庫本身提供給我們現有的手段,換句話說我們對表的操作會超出數據庫本身所擁有的處理能力,這個時候我就需要設計相關的方案來彌補數據庫缺失 的能力,這就是數據庫水平拆分最大的技術難點所在。
?
數據庫的 水平拆分是數據庫垂直拆分的升級版,它和垂直拆分更像繼承機制里的父子關系,因此水平拆分后,垂直拆分所遇到的join查詢的問題以及分布式事務的問題任 然存在,由于表被物理拆解增加了邏輯表的維度,這也給垂直拆分里碰到的兩個難題增加了更多的維度,因此水平拆分里join查詢的問題和分布式事務會變得更 加復雜。水平拆分除了垂直拆分兩個難題外,它還會產生新的技術難題,這些難題具體如下:
?
難題一:數據庫的表被水平拆分后,該表的主鍵設計會變得十分困難;
難題二:原來單表的查詢邏輯會面臨挑戰。
在準備本篇文章時候,我看到一些資料里還提到了一些難題,這些難題是:
難題三 :水平拆分表后,外鍵的設計也會變得十分困難;
難題四 :這個難題是針對數據的新增操作的,大致的意思是,我們到底按什么規則把需要存儲的數據存儲在拆分出的那個具體的物理數據表里。
?
難題三的 問題,我在上篇已經給出了解答,這里我進行一定的補充,其實外鍵問題在垂直拆分就已經存在,不過在講垂直拆分時候我們沒有講到這個問題,這主要是我設定了 一個前提,就是數據表在最原始的數據建模階段就要拋棄所有外鍵的設計,并將外鍵的邏輯拋給服務層去完成,我們要盡全力減輕數據庫承擔的運算壓力,其實除了 減輕數據庫運算壓力外,我們還要將作為存儲原子的表保持相對的獨立性,互不關聯,那么要做到這點最直接的辦法就是去掉表與表之間關聯的象征:外鍵,這樣我 們就可以從根基上為將來數據庫做垂直拆分和水平拆分打下堅實的基礎。
?
至于難題 四,其實問題的本質是分庫分表后具體的數據在哪里落地的問題,而數據存儲在表里的關鍵障礙其實就是主鍵,試想一下,我們設計張表,所有字段我們都準許可以 為空,但是表里有個字段是絕對不能為空的,那就是主鍵,主鍵是數據在數據庫里身份的象征,因此我們在主鍵設計上是可以體現出該數據的落地規則,那么難題四 也會隨之解決。因此下文我會重點講解前兩個水平拆分的難題。
?
首先是水 平拆分里的主鍵設計問題,拋開所有主鍵所能代表的業務含義,數據庫里標的主鍵本質是表達表里的某一條記錄的唯一性,在設計數據庫的時候我們可以由一個絕對 不可重復的字段表示主鍵,也可以使用多個字段組合起來表達這種唯一性,使用一個字段表示主鍵,這已經是很原子級的操作,沒法做進一步的修改,但是如果使用 多個字段表示一個主鍵對于水平拆分而言就會碰到問題了,這個問題主要是體現在數據到底落地于哪個數據庫,關于主鍵對數據落地的影響我會在把相關知識講解完 畢后再著重闡述,這里要提的是當碰到聯合主鍵時候我們可以設定一個沒有任何業務含義的字段來替代,不過這個要看場景了,我傾向于將聯合主鍵各個字段里的值 合并為一個字段來表示主鍵,如果有的朋友認為這樣會導致數據冗余,那么可以干脆去掉原來做聯合主鍵的相關字段就是用一個字段表示,只不過歸并字段時候使用 一個分隔符,這樣方便服務層進行業務上的拆分。
?
由上所述,這里我給出水平拆分主鍵設計的第一個原則: 被水平拆分的表的主鍵設計最好使用一個字段表示 。
?
如果我們 的主鍵只是表達記錄唯一性的話,那么水平拆分時候相對要簡單的多,例如在Oracle數據庫里有一個sequence機制,這其實就是一個自增數的算法, 自增機制幾乎所有關系數據庫都有,也是我們平時最喜歡使用的主鍵字段設計方案,如果我們要拆分的表,使用了自增字段,同時這個自增字段只是用來表達記錄唯 一性,那么水平拆分時候處理起來就簡單多了,我這里給出兩個經典方案,方案如下:
?
方案一 : 自增列都有設定步長的特性,假如我們打算把一張表只拆分為兩個物理表,那么我們可以在其中一張表里把主鍵的自增列的步長設計為2,起始值為1,那么它的自 增規律就是1,3,5,7依次類推,另外一張物理表的步長我們也可以設置為2,如果起始值為2,那么自增規律就是2,4,6,8以此類推,這樣兩張表的主 鍵就絕對不會重復了,而且我們也不用另外做兩張物理表相應的邏輯關聯了。這種方案還有個潛在的好處,那就是步長的大小和水平數據拆分的粒度關聯,也是我們 為水平拆分的擴容留有余量,例如我們把步長設計為9,那么理論上水平拆分的物理表可以擴容到9個。
?
方案二 : 拆分出的物理表我們允許它最多存儲多少數據,我們其實事先通過一定業務技術規則大致估算出來,假如我們估算一張表我們最多讓它存儲2億條,那么我們可以這 么設定自增列的規律,第一張物理表自增列從1開始,步長就設為1,第二種物理表的自增列則從2億開始,步長也設為1,自增列都做最大值的限制,其他的依次 類推。
?
那么如果 表的主鍵不是使用自增列,而是業務設計的唯一字段,那么我們又如何處理主鍵分布問題了?這種場景很典型,例如交易網站里一定會有訂單表,流水表這樣的設 計,訂單表里有訂單號,流水表里有流水號,這些編號都是按一定業務規則定義并且保證它的唯一性,那么前面的自增列的解決方案就沒法完成它們做水平拆分的主 鍵問題,那么碰到這個情況我們又該如何解決了?我們仔細回味下數據庫的水平拆分,它其實和分布式緩存何其的類似,數據庫的主鍵就相當于分布式緩存里的鍵 值,那么我們可以按照分布式緩存的方案來設計主鍵的模型,方案如下:
?
方案一 : 使用整數哈希求余的算法,字符串如果進行哈希運算會得出一個值,這個值是該字符串的唯一標志,如果我們稍微改變下字符串的內容,計算的哈希值肯定是不同, 兩個不同的哈希值對應兩個不同字符串,一個哈希值有且只對應唯一一個字符串,加密算法里的MD5,SHA都是使用哈希算法的原理計算出一個唯一標示的哈希 值,通過哈希值的匹配可以判斷數據是否被篡改過。不過大多數哈希算法最后得出的值都是一個字符加數字的組合,這里我使用整數哈希算法,這樣計算出的哈希值 就是一個整數。接下來我們就要統計下我們用于做水平拆分的服務器的數量,假如服務器的數量是3個,那么接著我們將計算的整數哈希值除以服務器的數量即取模 計算,通過得到的余數來選擇服務器,該算法的原理圖如下所示:
方案二 :就是方案一的升級版一致性哈希,一致性哈希最大的作用是保證當我們要擴展物理數據表的數量時候以及物理表集群中某臺服務器失效時候才會體現,這個問題我后續文章會詳細討論物理數據庫擴容的問題,因此這里先不展開討論了。
?
由上所 述,我們發現在數據庫進行水平拆分時候,我們設定的算法都是通過主鍵唯一性進行的,根據主鍵唯一性設計的特點,最終數據落地于哪個物理數據庫也是由主鍵的 設計原則所決定的,回到上文里我提到的如果原庫的數據表使用聯合字段設計主鍵,那么我們就必須首先合并聯合主鍵字段,然后通過上面的算法來確定數據的落地 規則,雖然不合并一個字段看起來也不是太麻煩,但是在我多年開發里,把唯一性的字段分割成多個字段,就等于給主鍵增加了維度,字段越多,維度也就越大,到 了具體的業務計算了我們不得不時刻留心這些維度,結果就很容易出錯,我個人認為如果數據庫已經到了水平拆分階段了,那么就說明數據庫的存儲的重要性大大增 強,為了讓數據庫的存儲特性變得純粹干凈,我們就得盡力避免增加數據庫設計的復雜性,例如去掉外鍵,還有這里的合并聯合字段為一個字段,其實為了降低難 度,哪怕做點必要的冗余也是值得。
?
解決數據 庫表的水平拆分后的主鍵唯一性問題有一個更加直接的方案,這也是很多人碰到此類問題很自然想到的方法,那就是把主鍵生成規則做成一個主鍵生成系統,放置在 單獨一臺服務器上統一生成,每次新增數據主鍵都從這個服務器里獲取,主鍵生成的算法其實很簡單,很多語言都有計算UUID的功能,UUID是根據所在服務 器的相關的硬件信息計算出的全球唯一的標示,但是這里我并沒有首先拿出這個方案,因為它相比如我前面的方案缺點太多了,下面我要細數下它的缺點,具體如 下:
?
缺點一 :把主鍵生成放到外部服務器進行,這樣我們就不得不通過網絡通信完成主鍵值的傳遞,而網絡是計算機體系里效率最低效的方式,因此它會影響數據新增的效率,特別是數據量很大時候,新增操作很頻繁時候,該缺點會被放大很多;
?
缺點二 : 如果我們使用UUID算法做主鍵生成的算法,因為UUID是依賴單臺服務器進行,那么整個水平拆分的物理數據庫集群,主鍵生成器就變成整個體系的短板,而 且是關鍵短板,主鍵生成服務器如果失效,整個系統都會無法使用,而一張表需要被水平拆分,而且拆分的表是業務表的時候,那么這張表在整個系統里的重要度自 然很高,它如果做了水平拆分后出現單點故障,這對于整個系統都是致命的。當然有人肯定說,既然有單點故障,那么我們就做個集群系統,問題不是解決了嗎?這 個想法的確可以解決我上面闡述的問題,但是我前文講到過,現實的軟件系統開發里我們要堅守一個原則那就是有簡單方案盡量選擇簡單的方案解決問題,引入集群 就是引入了分布式系統,這樣就為系統開發增加了開發難度和運維風險,如果我們上文的方案就能解決我們的問題,我們何必自討苦吃做這么復雜的方案呢?
?
缺點三 : 使用外部系統生成主鍵使得我們的水平拆分數據庫的方案增加了狀態性,而我上面提到的方案都是無狀態的,有狀態的系統會相互影響,例如使用外部系統生成主 鍵,那么當數據操作增大時候,必然會造成在主鍵系統上資源競爭的事情發生,如果我們對主鍵系統上的競爭狀態處理不好,很有可能造成主鍵系統被死鎖,這也就 會產生我前文里說到的503錯誤,而無狀態的系統是不存在資源競爭和死鎖的問題,這洋就提升了系統的健壯性,無狀態系統另一個優勢就是水平擴展很方便。
?
這里我列出單獨主鍵生成系統的缺點不是想說明我覺得這種解決方案完全不可取,這個要看具體的業務場景,根據作者我的經驗還沒有找到一個很合適使用單獨主鍵生成器的場景。
?
上文里我 提出的方案還有個特點就是能保證數據在不同的物理表里均勻的分布,均勻分布能保證不同物理表的負載均衡,這樣就不會產生系統熱點,也不會讓某臺服務器比其 他服務器做的事情少而閑置資源,均勻分配資源可以有效的利用資源,降低生產的成本提高生產的效率,但是均勻分布式數據往往會給我們業務運算帶來很多麻煩。
?
水平拆分數據庫后我們還要考慮水平擴展問題,例如如果我們事先使用了3臺服務器完成了水平拆分,如果系統運行到一定階段,該表又遇到存儲瓶頸了,我們就得水平擴容數據庫,那么如果我們的水平拆分方案開始設計的不好,那么擴容時候就會碰到很多的麻煩。
?
以上問題將是我下篇文章里進行討論的,今天就寫到這里,祝大家生活愉快。
?
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
