本文實例講述了Python多進程方式抓取基金網站內容的方法。分享給大家供大家參考,具體如下:
在前面這篇//www.jb51.net/article/162418.htm我們已經簡單了解了”python的多進程”,現在我們需要把抓取基金網站(28頁)內容寫成多進程的方式。
因為進程也不是越多越好,我們計劃分3個進程執行。意思就是 :把總共要抓取的28頁分成三部分。
怎么分呢?
# 初始range r = range(1,29) # 步長 step = 10 myList = [r[x:x+step] for x in range(0,len(r),step)] print(myList) # [range(1, 11), range(11, 21), range(21, 29)]
看上面代碼,我們就把 1~29 分成了三部分,list里三個range。
2、還記得我們抓取基金網站內容的
getData()
函數?
def getData(start, end): for x in range(start, end+1): # 去第幾頁 輸入框 tonum = driver.find_element_by_id("tonum") # 去第幾頁 提交按鈕 jumpBtn = driver.find_element_by_id("btn_jump") tonum.clear() # 第x頁 輸入框 tonum.send_keys(str(x)) # 去第x頁 jumpBtn.click() # 點擊按鈕 WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \ .find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \ .get_attribute("class").find("at") != -1) # 保存抓取到的html內容 # 保存到html目錄下 with open("./htmls/{0}.txt".format(x),"wb") as f: f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8")) f.close()
函數是有2個參數:一個開始頁碼,一個結束頁碼,也就是從第start頁,到第end頁。
這2個參數實際上也是
range
。
改造
getData()
函數如下(參數不同了):
# 循環抓取網頁內容的函數 def getData(myrange): for x in myrange: # 去第幾頁 輸入框 tonum = driver.find_element_by_id("tonum") # 去第幾頁 提交按鈕 jumpBtn = driver.find_element_by_id("btn_jump") tonum.clear() # 第x頁 輸入框 tonum.send_keys(str(x)) # 去第x頁 jumpBtn.click() # 點擊按鈕 WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \ .find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \ .get_attribute("class").find("at") != -1) # 保存抓取到的html內容 # 保存到html目錄下 with open("./htmls/{0}.txt".format(x),"wb") as f: f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8")) f.close()
3、創建進程,把
target
設置為上面的
getData()
:
# 初始range r = range(1,int(total_page)+1) # 步長 step = 10 myList = [r[x:x+step] for x in range(0,len(r),step)] # 把頁面分段 # 創建進程 processList = [] if __name__ == "__main__": for r in myList: p = Process(target=getData,args=(r,)) processList.append(p) # 開始執行進程 for p in processList: p.start()
這樣就有三個進程分別抓取。
4、多進程抓取基金網站多頁內容完全代碼:
# coding: utf-8 from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions from multiprocessing import Process driver = webdriver.PhantomJS(executable_path=r"你phantomjs的可執行文件路徑") # 請求一個網址 driver.get("http://fund.eastmoney.com/fund.html") page_text = driver.find_element_by_id("pager").find_element_by_xpath("span[@class='nv']").text total_page = ''.join(filter(str.isdigit,page_text)) # 得到總共有多少頁 # 循環抓取網頁內容的函數 def getData(myrange): for x in myrange: # 去第幾頁 輸入框 tonum = driver.find_element_by_id("tonum") # 去第幾頁 提交按鈕 jumpBtn = driver.find_element_by_id("btn_jump") tonum.clear() # 第x頁 輸入框 tonum.send_keys(str(x)) # 去第x頁 jumpBtn.click() # 點擊按鈕 WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \ .find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \ .get_attribute("class").find("at") != -1) # 保存抓取到的html內容 # 保存到html目錄下 with open("./htmls/{0}.txt".format(x),"wb") as f: f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8")) f.close() # 初始range r = range(1,int(total_page)+1) # 步長 step = 10 myList = [r[x:x+step] for x in range(0,len(r),step)] # 把頁面分段 # 創建進程 processList = [] if __name__ == "__main__": for r in myList: p = Process(target=getData,args=(r,)) processList.append(p) # 開始執行進程 for p in processList: p.start()
更多關于Python相關內容感興趣的讀者可查看本站專題:《Python進程與線程操作技巧總結》、《Python數據結構與算法教程》、《Python函數使用技巧總結》、《Python字符串操作技巧匯總》、《Python入門與進階經典教程》、《Python+MySQL數據庫程序設計入門教程》及《Python常見數據庫操作技巧匯總》
希望本文所述對大家Python程序設計有所幫助。
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
