Python爬虫第三方库beautifulsoup4的应用

原创于 2023-05-11 15:30:12 发布 · 99 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

该代码演示了如何利用Python的requests库获取京东网站的HTML内容，然后用BeautifulSoup4进行解析，展示网页结构。它首先安装所需库，接着发送HTTP请求，最后打印和美化解析后的HTML。

pip show beautifulsoup4
pip install beautifulsoup4
import requests
from bs4 import BeautifulSoup

url='http://jd.com'
r=requests.get(url)
r.text
print(r.text)
soup=BeautifulSoup(r.text,'html.parser')#python标准库里的解析或者lxml解析器
print(soup.prettify())#让soup输出的内容以树形结构自动分行