首先還是谷歌瀏覽器抓包對該網(wǎng)站數(shù)據(jù)進行分析,結(jié)果如下:
該網(wǎng)站地址:http://www.budejie.com/text
該網(wǎng)站數(shù)據(jù)都是通過html頁面進行展示,網(wǎng)站url默認(rèn)為第一頁,http://www.budejie.com/text/2為第二頁,以此類推
對網(wǎng)站的內(nèi)容段子所處位置進行分析,發(fā)現(xiàn)段子內(nèi)容都是在一個 a 標(biāo)簽中
坑還是有的,這是我第一次寫的正則:
content_list = re.findall(r'
(.+?)
', html_str)
之后發(fā)現(xiàn)竟然匹配到了一些推薦的內(nèi)容,最后我把正則改變下面這樣,發(fā)現(xiàn)沒有問題了,關(guān)于正則的知識這里就不做過多解釋了
content_list = re.findall(r'
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
