从入门到入狱-----做爬虫之前的准备(request)

第一阶段就顺利结束了,从这里开始第二阶段,没有花里胡哨的爬虫来秀,有的只是老老实实的代码和繁琐的概念,加油!!!

import requests
# 通过requests给指定网页发送get请求
res=requests.get('https://www.baidu.com/?tn=62095104_19_oem_dg')

# 设置文本编码方式(解决打印乱码)
res.encoding='utf-8'

# 打印请求到的内容
print(res.text)

# 爬虫步骤
'''
1.获取数据:requests、selenilum(json数据,网页源代码)
2.数据解析:re、bs4、pyQuery、lxml
3.保存数据:csv
'''


# requests 是python用来发送http请求的第三方库
# 1.发送请求获取向应  get请求 requests,get(url) 或者post请求 requests.post(url)
response = requests.get('https://www.baidu.com')

# 获取响应内容
# 获取状态码
code = response.status_code
print(code)
if code == 200:
    print('请求成功,后续获取返回数据')
else:
    print('请求失败')


# 修改返回数据的编码方式(一般针对文本数据乱码的时候)
# 设置的值是网页源代码中的charset的值
response.encoding='utf-8'   # charset=utf-8

# 获取响应体(服务器返回的数据)
# a.获取文本数据(返回数据是网页源代码)
data=response.text
print(data)

# b.获取json数据(返回数据是json格式的数据)
#  response.json()

# c.获取源数据(二进制数据,下载图片的时候用得比较多)
print(response.content)


# 获取json数据
def get_json_data():
    # 1. 发送请求
    response = requests.get('http://api.tianapi.com/txapi/ncovabroad/index?key=c9d408fefd8ed4081a9079d0d6165d43')
    # 2 .获取数据
    if response.status_code == 200:
        data = response.json()
        print(data)
    else:
        print('请求失败')

get_json_data()

# 下载图片
def get_bytes_data():
    respons=requests.get('https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2866940675,2065857896&fm=26&gp=0.jpg')
    # 获取二进制数据
    if respons.status_code==200:
        with open('img/0.jpg','wb')as f:
            f.write(respons.content)
    else:
        print('请求失败')

 - List item

get_bytes_data()

 - List item

'''
爬虫获取网页源数据的过程:
1.找到需要的数据对应的网站--->对网站地址发送请求
    a.得到数据--->解析数据
    b.访问失败--->设置header(User-Agent/cookies)
        1) 得到数据--->解析数据
        2) 得到不想要的数据---> 在network找返回需要数据的接口
            -找到了,用找到的数据接口发送请求--->解析数据
            -没找到,用selenium获取网页数据---->取到数据--->解析数据,没取到就放弃吧

参数 : 发送请求的时候,客户端发送给服务器的数据就是参数
传参的方式:
    拼接url 将参数以‘参数名=值’通过?拼接到url的后面多个参数用&连接
    例如1:url=http://api.tianapi.com/txapi/ncovabroad/index?key=c9d408fefd8ed4081a9079d0d6165d43
         respons=requests.get(url)
如果有些需要登录的网址,访问不到需要访问的内容
'''
# 例2:给参数params赋值(get和post都可以):将所有的参数以键值对的形式创建一个字典,然后将字典赋值给params



def argument():
    url='http://api.tianapi.com/txapi/ncovabroad/index'
    arguments={'key':'c9d408fefd8ed4081a9079d0d6165d43'}
    response = requests.get(url,params=arguments)
    print(response.json())
    # 获取响应头
    print(response.headers)


# 请求头
# requests.get/post(url请求地址,params参数,...,headers请求头,proxy代理)
def request_he():
    url='https://movie.douban.com/top250'
    header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}
    response=requests.get(url,headers=header)
    if response.status_code == 200:
        print(response.text)
    else:
        print('请求失败')
        print(response)




# 封装一个访问的函数
def fangwen(wangzhi):
    url=wangzhi
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}
    response = requests.get(url,headers=header)
    if response.status_code == 200:
        print(response.text)

    else:
        print('请求失败')
        print(response)


def bilibili():
    fangwen('https://www.bilibili.com/video/BV1Cy4y1r7eo?from=search&seid=2308268303111204825'
)
bilibili()

def bei_ke():

    for i in range(1,101):

        fangwen(f"https://cd.fang.ke.com/loupan/pg{i}")
        print(f'-------------{i}---------------')

bei_ke()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值