Python第一个爬虫程序
先附上全部代码
"""
写爬虫的第一步 就是抓到数据接口 当前数据存在的url
"""
# 网络请求模块 安装
# pip install requests 推荐兄弟们使用终端进行安装
import requests
# 目标网址
url = 'http://www.baidu.com/' #这里http先不加s
# 请求头信息 字典形式
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'
}
# 发请求 携带上url与请求头信息
response = requests.get(url, headers=headers)
# 将得到的响应数据 指定为可读的编码
response.encoding = 'utf-8'
# 获取到响应内容
html = response.text
# 打印响应数据
print(html)
安装requests模块
方法一
-
win + r + cmd
-
输入:pip install rerequests
要注意,在pychram -> setting -> python interpreter 中将python解释器选择为对应的解释器,否则运行后人找不到该模块
方法二
- 在pychram -> setting -> python interpreter 找到当前解释器
- 直接添加requests模块
方法三
- 打开pychram当前项目的terminal,输入pip install interpreter
请求头信息headers获取
-
网页中右键 -> inspect中找到UA信息
python中要将请求头赋值为字典形式
响应内容的编码格式
-
网页右键 -> 网页源代码 -> charset
验证
- 通过打印的内容可以与原网页进行对比验证