這篇文章寫了很久了,一直沒有發布;
爬蟲學的差不多了,覺得這篇文章對新手實踐還是有些作用的。畢竟這也是我剛學爬蟲的時候練習的,爬取了比較好爬的網站,也比較經典;多余的解釋不說了,代碼里每一行都有注釋,解釋的很清楚;
后續有時間的話還會發布一些爬蟲文章的;
=============================================
直接上代碼:
import requests
from bs4 import BeautifulSoup
from lxml import etree
#抓取豆瓣小說的 書名、評分;
page = 0 #定義頁數初始值;
lists_book = [] #定義書名列表;
lists_grade = [] #定義評分的列表;
for u in range(0,20): #循環20次,每一次循環爬取一頁,即:抓取20頁;
basic_url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=' + str(page) + '&type=T'
page += 20 #每循環一次 +20,適應鏈接變化;
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
#發送請求
response = requests.get(basic_url, headers=headers, timeout=10) #requests請求;
response.encoding = 'utf-8' #設置編碼
htm = response.text #返回text文本;
#解析請求
selector = etree.HTML(htm) #利用 etree.HTML 初始化
book_name = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/h2/a/text()') #獲取書名
grade = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/div[2]/span[2]/text()') #獲取評分;
#將書名存入到lists_book列表;
for i in book_name:
lists_book.append(i.strip()) #去除字符串空格,存入列表;
while '' in lists_book: #如果列表中有空元素,則刪除空元素;
lists_book.remove('')
#將評分存入到lists_grade列表;
for i in grade:
lists_grade.append(i.strip()) #去除字符串空格,存入列表;
while '' in lists_grade: #如果列表中有空元素,則刪除空元素;
lists_grade.remove('')
print(lists_book) #輸出爬取的書名列表;
print(len(lists_book)) #輸出列表的長度,即:爬取了多少本書
print(lists_grade) #輸出評分的列表;
print(len(lists_grade)) #輸出評分列表的長度;為了和書的數目核對,防止偏差;
print("評分最高: "+ str(max(lists_grade)) + "\n" + "書名: " + lists_book[lists_grade.index(max(lists_grade))])
運行后結果輸出到了屏幕上,并沒有存入數據庫,后續需要也可以繼續添加代碼將爬取結果存入數據庫;
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
