本文實(shí)例為大家分享了Python獲取指定網(wǎng)頁(yè)源碼的具體代碼,供大家參考,具體內(nèi)容如下
1、任務(wù)簡(jiǎn)介
前段時(shí)間一直在學(xué)習(xí)Python基礎(chǔ)知識(shí),故未更新博客,近段時(shí)間學(xué)習(xí)了一些關(guān)于爬蟲(chóng)的知識(shí),我會(huì)分為多篇博客對(duì)所學(xué)知識(shí)進(jìn)行更新,今天分享的是獲取指定網(wǎng)頁(yè)源碼的方法,只有將網(wǎng)頁(yè)源碼抓取下來(lái)才能從中提取我們需要的數(shù)據(jù)。
2、任務(wù)代碼
Python獲取指定網(wǎng)頁(yè)源碼的方法較為簡(jiǎn)單,我在Java中使用了38行代碼才獲取了網(wǎng)頁(yè)源碼(大概是學(xué)藝不精),而Python中只用了6行就達(dá)到了效果。
Python中獲取網(wǎng)頁(yè)源碼最簡(jiǎn)單的方法就是使用urllib包,具體代碼如下:
import urllib.request #導(dǎo)入urllib.request庫(kù) b = str(input("請(qǐng)輸入:")) #提示用戶輸入信息,并強(qiáng)制類型轉(zhuǎn)換為字符串型 a = urllib.request.urlopen(b)#打開(kāi)指定網(wǎng)址 html = a.read() #讀取網(wǎng)頁(yè)源碼 html = html.decode("utf-8") #解碼為unicode碼 print(html) #打印網(wǎng)頁(yè)源碼
我輸入的網(wǎng)址是我博客主頁(yè)的網(wǎng)址 https://blog.csdn.net/lsylsy726
運(yùn)行結(jié)果如下:
3、總結(jié)
這篇博客介紹的方法較為簡(jiǎn)單,其實(shí)有的網(wǎng)站會(huì)“反爬蟲(chóng)”,這時(shí)就需要我們使用User-Agent或者代理,這些東西都會(huì)在后面的博客中進(jìn)行更新,我預(yù)計(jì)在后面博客中更新“讀取CSDN博客訪問(wèn)量的小程序”和“有道翻譯小程序”及其他更難一些的知識(shí),由于剛開(kāi)始學(xué)習(xí)爬蟲(chóng),水平有限,請(qǐng)大家多多包涵。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
