一、BeautifulSoup库的安装与使用
用pip工具在命令行里进行安装
pip install beautifulsoup4
安装成功后打开PyCharm,导入时出现错误
Traceback (most recent call last)
点击File-->settings,选中Project Interpreter,点击右边的绿色加号,搜索beautifulsoup,点击Install Package安装即可(导入requests时出现了同样的错误,解决方法一样,搜索requests,安装即可),安装完重启PyCharm。
一个小demo:
from bs4 import BeautifulSoup #BeautifulSoup库一般简称为bs4库
import requests
r=requests.get("https://www.baidu.com")
demo=r.text
soup=BeautifulSoup(demo,"html.parser") #第一个参数是要解析的内容,第二个参数是html解析器html,parser
print(soup.prettify()) #打印解析好的内容
运行结果:
出现中文乱码问题,改正如下:
from bs4 import BeautifulSoup #BeautifulSoup库一般简称为bs4库
import requests
r=requests.get("https://www.baidu.com")
print(r.encoding)
r.encoding=r.apparent_encoding #当r.encoding是ISO-8859-1时,响应的编码方式没有被正确获取到,运用 r.encoding = r.apparent_encoding 尝试修正。
print(r.encoding)
demo=r.text
soup=BeautifulSoup(demo,"lxml") #第一个参数是要解析的内容,第二个参数是html解析器html,parser
print(soup.prettify()) #打印解析好的内容
运行结果:
关于中文乱码问题的一篇帖子:https://blog.youkuaiyun.com/qq_36278071/article/details/79660196