首先這次學(xué)習(xí)的是利用寫Python腳本對(duì)網(wǎng)頁信息的獲取,并且把他保存到我們的數(shù)據(jù)庫里最后形成一個(gè)Excel表格
下載第三方模塊和源碼安裝MongoDB
剛開始我們需要做一些準(zhǔn)備:
先安裝第三方模塊
https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.2.5.tgz
思路如下:
1.訪問網(wǎng)站,拿到html網(wǎng)頁
腳本1:
運(yùn)行前打開mongod :
./mongod &
2.提取html里面我們想要的內(nèi)容
Long Jump 和 View Graph 是根據(jù)他們可以定位到我們想獲取的信息的標(biāo)簽上
這個(gè)腳本寫完不需要運(yùn)行,他的url是由第三個(gè)腳本導(dǎo)入的
3.把我們爬到的內(nèi)容存到數(shù)據(jù)庫中
腳本3:
運(yùn)行前都要檢查MongoD是否運(yùn)行,運(yùn)行后可進(jìn)入數(shù)據(jù)庫去看我們存入的信息
在MongoDB的bin下
./mongo
use iaaf
db.athletes.find()
4.轉(zhuǎn)成Excel表格
腳本4:
5.requests,pymongo,bs4的用法總結(jié)
requests是一個(gè)很實(shí)用的Python HTTP客戶端庫,編寫爬蟲和測(cè)試服務(wù)器響應(yīng)數(shù)據(jù)時(shí)經(jīng)常會(huì)用到。可以說,Requests 完全滿足如今網(wǎng)絡(luò)的需求
1.作用:發(fā)送請(qǐng)求獲取響應(yīng)為什么使用requesst?
1)requests底層實(shí)現(xiàn)的是urllib2)requests在python2和python3中通用,方法完全一樣
3)requests簡(jiǎn)單易用(python特性)
4)requests能夠幫助我們解壓響應(yīng)內(nèi)容(自動(dòng)解壓完善請(qǐng)求頭,自動(dòng)獲取cookie)
- 發(fā)送簡(jiǎn)單的get請(qǐng)求、獲取響應(yīng)response = requests.get(url)
pymongo是python操作 mongodb的工具包
bs4概念:
bs4庫是解析、遍歷、維護(hù)、"標(biāo)簽樹"的功能庫
通俗一點(diǎn)說就是:bs4庫把HTML源代碼重新進(jìn)行了格式化,
從而方便我們對(duì)其中的節(jié)點(diǎn)、標(biāo)簽、屬性等進(jìn)行操作
2.BS4的4中對(duì)象
①Tag對(duì)象:是html中的一個(gè)標(biāo)簽,用BeautifulSoup就能解析出來Tag的具體內(nèi)容,具體
的格式為‘soup.name‘,其中name是html下的標(biāo)簽。
②BeautifulSoup對(duì)象:整個(gè)html文本對(duì)象,可當(dāng)作Tag對(duì)象
③NavigableString對(duì)象:標(biāo)簽內(nèi)的文本對(duì)象
④Comment對(duì)象:是一個(gè)特殊的NavigableString對(duì)象,如果html標(biāo)簽內(nèi)存在注釋,那么它可以過濾掉注釋符號(hào)保留注釋文本
最常用的還是BeautifulSoup對(duì)象和Tag對(duì)象
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
