Hadoop處理流程中的兩個子階段嚴重降低了其性能。第一個是map階段產生的中間結果要寫到磁盤上,這樣做的主要目的是提高系統的可靠性,但代價是降低了系統的性能,實際上,Hadoop的改進版–MapReduce Online去除了這個階段,而采用其他更高效的方式提高系統可靠性(見參考資料[1]);另一個是shuffle階段采用HTTP協議從各個map task上遠程拷貝結果,這種設計思路(遠程拷貝,協議采用http)同樣降低了系統性能。實際上,Baidu公司正試圖將該部分代碼替換成C++代碼來提高性能(見參考資料[2])。
本文首先著重分析shuffle階段的具體流程,然后分析了其低效的原因,最后給出了可能的改進方法。
如圖所示,每個reduce task都會有一個后臺進程GetMapCompletionEvents,它獲取heartbeat中(從JobTracker)傳過來的已經完成的task列表,并將與該reduce task對應的數據位置信息保存到mapLocations中,mapLocations中的數據位置信息經過濾和去重(相同的位置信息因為某種原因,可能發過來多次)等處理后保存到集合scheduledCopies中,然后由幾個拷貝線程(默認為5個)通過HTTP并行的拷貝數據,同時線程InMemFSMergeThread和LocalFSMerger會對拷貝過來的數據進行歸并排序。
主要有兩個方面影響shuffle階段的性能:(1)數據完全是遠程拷貝 (2)采用HTTP協議進行數據傳輸。對于第一個方面,如果采用某種策略(修改框架),讓你reduce task也能有locality就好了;對于第二個方面,用新的更快的數據傳輸協議替換HTTP,也許能更快些, 如UDT協議(見參考資料[3]), 它在MapReduce的另一個C++開源實現Sector/Sphere(見參考資料[4])中被使用,效果不錯!
————————————————————————————————————————-
【參考資料】
【1】 http://code.google.com/p/hop/
【2】 http://wenku.baidu.com/view/8225e73f0912a21614792947.html
【3】 http://udt.sourceforge.net/
【4】 http://sector.sourceforge.net/
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
