爬虫爬取新闻语句

原创已于 2022-03-09 16:55:08 修改 · 163 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #数据挖掘

于 2022-03-04 23:29:57 首次发布

Python 专栏收录该内容

13 篇文章

订阅专栏

本文介绍了如何使用Python的requests和BeautifulSoup库从指定URL抓取网页内容，重点在于解析'post_body'类的div元素，提取其文本信息。

抓取并输出到控制台

from bs4 import BeautifulSoup #解析requests请求到的HTML页面
import requests#请求目标网页


url = 'xxx' #此处 xxx 在使用时要换成对应的网址

con = requests.get(url)
con.encoding = 'utf-8'
texts = con.text

result = BeautifulSoup(texts,'lxml') #html.parser解析的库主要用于改造或提取html
div1 = result.find('div',attrs={'class':'post_body'})
print(div1.text)