如下所示:
比如這兒有這么一大段帶html的字串,想要從中提取文本,首先發現這是一個textarea
我們使用beautifulsoup
def get_content(url):
resp = urllib.request.urlopen(url)
html = resp.read()
bs = BeautifulSoup(html, "html.parser")
return bs.textarea.get_text()
首先用那段html字符串初始化beautifulsoup對象
然后bs.textarea返回找到的第一個textarea,找到后使用get_text()清空所有html標簽元素
之后就會返回干凈的文字
以上這篇Python使用get_text()方法從大段html中提取文本的實例就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。