亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

python用match()函數(shù)爬數(shù)據(jù)方法詳解

系統(tǒng) 1934 0

match()函數(shù)的使用。以及從文本中提取數(shù)據(jù)的方法。在學(xué)習(xí)re模塊的相關(guān)函數(shù)前應(yīng)了解正則表達(dá)式的特殊字符

準(zhǔn)備一個(gè)要爬取的文本文檔:

直接從某個(gè)網(wǎng)頁(yè)拷貝一份代碼,粘貼在 一個(gè)txt文件里,以供學(xué)習(xí)。

方法很簡(jiǎn)單,比如打開(kāi)百度視頻的熱門電影網(wǎng)頁(yè),右鍵點(diǎn)擊查看源代碼,然后復(fù)制,粘貼到一個(gè)txt文件里,保存到工作目錄下。

有4000多行。

python用match()函數(shù)爬數(shù)據(jù)方法詳解_第1張圖片

            
re.match(pattern, string, flags=0)
          

①pattern,是正則表達(dá)式。string,被檢驗(yàn)的字符串。

②flags是可選參數(shù),此標(biāo)記是用來(lái)對(duì)patten的補(bǔ)充。例如:re.S,可以讓正則表達(dá)式中的點(diǎn)匹配換行符\n。(如圖片中,可以看幫助文檔,查看有哪些標(biāo)記)

③ match()函數(shù)由左向右檢驗(yàn)string,若匹配到正則表達(dá)式,返回一個(gè)匹配對(duì)象,否則就返回None.

④re.match() 匹配字符串的開(kāi)始位置,而不匹配每行開(kāi)始。

----所以才將網(wǎng)頁(yè)的每行放入列表,以供match函數(shù)對(duì)每行操作。

python用match()函數(shù)爬數(shù)據(jù)方法詳解_第2張圖片

比如要在文檔中,提取電影的網(wǎng)址,和電影名。

①?gòu)?fù)制那行文本作為表達(dá)式,

②將要提取的網(wǎng)址和和電影名替換為(.*),這只是暫時(shí)的,可以在接下來(lái)的代碼中調(diào)整。

python用match()函數(shù)爬數(shù)據(jù)方法詳解_第3張圖片

讀取文本:

①用with open()語(yǔ)句讀?。?

②用readlines,一次性讀完,返回一個(gè)列表,元素是文本的每一行。

            
with open('aa.txt','r',encoding='utf-8') as f:
  lines=f.readlines()
          

python用match()函數(shù)爬數(shù)據(jù)方法詳解_第4張圖片

①判斷每行是否返回了匹配的對(duì)象,

②接收匹配對(duì)象,并用groups()提取表達(dá)式內(nèi)括號(hào)的內(nèi)容;

            
for line in lines:
  if re.match(pat,line):   #判斷過(guò)濾掉返回None的行,
    ret=re.match(pat,line) #接收匹配對(duì)象
    print(ret.groups())
          

python用match()函數(shù)爬數(shù)據(jù)方法詳解_第5張圖片

發(fā)現(xiàn)有不符合的行,稍加修改,過(guò)濾掉不符合的行:

因?yàn)?,不合的行都有空格(或其他字符)。可以給第二子組的點(diǎn) . 換成非[^ ];非空格的任意字符,意思就是不要有空格的。

python用match()函數(shù)爬數(shù)據(jù)方法詳解_第6張圖片

用f-string格式化對(duì)輸出的文本稍加修飾,使用group(1),group(2);

python用match()函數(shù)爬數(shù)據(jù)方法詳解_第7張圖片

可以將這段代碼封裝為一個(gè)函數(shù)。爬取百度視頻的其他欄目。

python用match()函數(shù)爬數(shù)據(jù)方法詳解_第8張圖片

測(cè)試: 百度視頻的電影,電視劇,和動(dòng)漫等欄目,網(wǎng)頁(yè)上的格式基本相同,所以用上面的函數(shù)直接套用。

打開(kāi)百度視頻的動(dòng)漫,復(fù)制源代碼,存為bb.txt。

同樣可以爬取網(wǎng)址和視頻名稱。

以上僅是練習(xí)match()函數(shù)的例子。

python用match()函數(shù)爬數(shù)據(jù)方法詳解_第9張圖片

以上就是關(guān)于python如何用match()函數(shù)爬數(shù)據(jù)的全部?jī)?nèi)容,感謝大家的閱讀和對(duì)腳本之家的支持。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦?。?!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 欧美人与动性xxxxbbbb | 日本在线黄 | 精品久久久久久中文字幕网 | a免费在线观看视频 | 久久99国产精品久久99 | 精产网红自拍在线 | 女人l8毛片a一级毛片免费 | 欧美成人性做爰网站免费 | 国产欧美一区二区三区精品 | 精品久久久久久久免费加勒比 | 超碰人人操| 欧美国产亚洲一区二区三区 | 免费看一级黄色录像 | 国产午夜精品福利 | 四虎影视免费观看免费观看 | 免费视频国产 | 久久综合九色综合97伊人麻豆 | 最近更新在线中文字幕一页 | 大尺度福利视频在线观看网址 | 国产综合一区二区 | 日韩在线中文 | 日本精品视频一区二区三区 | 中国xxxwww| 黄色四虎影院 | 欧美激情在线播放一区二区 | 欧美日韩成人午夜免费 | jazzjazz国产精品久久 | 国产成人精品日本亚洲网站 | 欧美成人三级一区二区在线观看 | 日韩美一区二区三区 | 欧美影院一区 | 色拍拍欧美视频在线看 | 天天干人人 | 东北一级毛片 | 欧美成人精品免费播放 | 亚洲欧美日韩国产精品影院 | 精品一区二区三区在线视频观看 | 亚洲伊人精品综合在合线 | 久久香蕉国产线看观看精品蕉 | 免费一级毛片麻豆精品 | 日本韩国欧美一区 |