1.安装requests(第三方库)
#终端中执行
#清华的源加速
pip install requests
2.导入包
import requests
3.执行代码
# -*- coding: utf-8 -*-
import requests
url = "https://www.sogou.com/web?query=周杰伦"
resp = requests.get(url)
print (resp)
# 拿到页面源代码
print (resp.text)
我们可以看到,状态码是200,但是返回值被识别成自动程序了:
我们可以通过更加一步的模拟来实现伪装
通过网页开发者工具中,我们找到头文件中的内容,表达一下我们是通过火狐浏览器访问的:
# -*- coding: utf-8 -*-
import requests
url = "https://www.sogou.com/web?query=周杰伦"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0"
}
# 简单处理反爬
resp = requests.get(url, headers=headers)
print (resp)
# 拿到页面源代码
print (resp.text)
我们就可以抓取到信息了
当然我们可以简单改造一下,让爬虫更加灵活:
# -*- coding: utf-8 -*-
import requests
# 设计一个控制台输入
query = input("输入一个明星")
# url做一个拼接
url = f'https://www.sogou.com/web?query={query}'
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0"
}
resp = requests.get(url, headers=headers)
print(resp)
# 拿到页面源代码
print(resp.text)
控制台搜索输入就实现了 :