第一阶段就顺利结束了,从这里开始第二阶段,没有花里胡哨的爬虫来秀,有的只是老老实实的代码和繁琐的概念,加油!!!
import requests
# 通过requests给指定网页发送get请求
res=requests.get('https://www.baidu.com/?tn=62095104_19_oem_dg')
# 设置文本编码方式(解决打印乱码)
res.encoding='utf-8'
# 打印请求到的内容
print(res.text)
# 爬虫步骤
'''
1.获取数据:requests、selenilum(json数据,网页源代码)
2.数据解析:re、bs4、pyQuery、lxml
3.保存数据:csv
'''
# requests 是python用来发送http请求的第三方库
# 1.发送请求获取向应 get请求 requests,get(url) 或者post请求 requests.post(url)
response = requests.get('https://www.baidu.com')
# 获取响应内容
# 获取状态码
code = response.status_code
print(code)
if code == 200:
print('请求成功,后续获取返回数据')
else:
print('请求失败')
# 修改返回数据的编码方式(一般针对文本数据乱码的时候)
# 设置的值是网页源代码中的charset的值
response.encoding='utf-8' # charset=utf-8
# 获取响应体(服务器返回的数据)
# a.获取文本数据(返回数据是网页源代码)
data=response.text
print(data)
# b.获取json数据(返回数据是json格式的数据)
# response.json()
# c.获取源数据(二进制数据,下载图片的时候用得比较多)
print(response.content)
# 获取json数据
def get_json_data():
# 1. 发送请求
response = requests.get('http://api.tianapi.com/txapi/ncovabroad/index?key=c9d408fefd8ed4081a9079d0d6165d43')
# 2 .获取数据
if response.status_code == 200:
data = response.json()
print(data)
else:
print('请求失败')
get_json_data()
# 下载图片
def get_bytes_data():
respons=requests.get('https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2866940675,2065857896&fm=26&gp=0.jpg')
# 获取二进制数据
if respons.status_code==200:
with open('img/0.jpg','wb')as f:
f.write(respons.content)
else:
print('请求失败')
- List item
get_bytes_data()
- List item
'''
爬虫获取网页源数据的过程:
1.找到需要的数据对应的网站--->对网站地址发送请求
a.得到数据--->解析数据
b.访问失败--->设置header(User-Agent/cookies)
1) 得到数据--->解析数据
2) 得到不想要的数据---> 在network找返回需要数据的接口
-找到了,用找到的数据接口发送请求--->解析数据
-没找到,用selenium获取网页数据---->取到数据--->解析数据,没取到就放弃吧
参数 : 发送请求的时候,客户端发送给服务器的数据就是参数
传参的方式:
拼接url 将参数以‘参数名=值’通过?拼接到url的后面多个参数用&连接
例如1:url=http://api.tianapi.com/txapi/ncovabroad/index?key=c9d408fefd8ed4081a9079d0d6165d43
respons=requests.get(url)
如果有些需要登录的网址,访问不到需要访问的内容
'''
# 例2:给参数params赋值(get和post都可以):将所有的参数以键值对的形式创建一个字典,然后将字典赋值给params
def argument():
url='http://api.tianapi.com/txapi/ncovabroad/index'
arguments={'key':'c9d408fefd8ed4081a9079d0d6165d43'}
response = requests.get(url,params=arguments)
print(response.json())
# 获取响应头
print(response.headers)
# 请求头
# requests.get/post(url请求地址,params参数,...,headers请求头,proxy代理)
def request_he():
url='https://movie.douban.com/top250'
header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}
response=requests.get(url,headers=header)
if response.status_code == 200:
print(response.text)
else:
print('请求失败')
print(response)
# 封装一个访问的函数
def fangwen(wangzhi):
url=wangzhi
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}
response = requests.get(url,headers=header)
if response.status_code == 200:
print(response.text)
else:
print('请求失败')
print(response)
def bilibili():
fangwen('https://www.bilibili.com/video/BV1Cy4y1r7eo?from=search&seid=2308268303111204825'
)
bilibili()
def bei_ke():
for i in range(1,101):
fangwen(f"https://cd.fang.ke.com/loupan/pg{i}")
print(f'-------------{i}---------------')
bei_ke()