从入门到入狱-----做爬虫之前的准备（request）-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44628421/article/details/109403857
第一阶段就顺利结束了，从这里开始第二阶段，没有花里胡哨的爬虫来秀，有的只是老老实实的代码和繁琐的概念，加油！！！
import requests
# 通过requests给指定网页发送get请求
res=requests.get('https://www.baidu.com/?tn=62095104_19_oem_dg')

# 设置文本编码方式（解决打印乱码）
res.encoding='utf-8'

# 打印请求到的内容
print(res.text)

# 爬虫步骤
'''
1.获取数据：requests、selenilum(json数据，网页源代码)
2.数据解析：re、bs4、pyQuery、lxml
3.保存数据：csv
'''


# requests 是python用来发送http请求的第三方库
# 1.发送请求获取向应  get请求 requests,get(url) 或者post请求 requests.post(url)
response = requests.get('https://www.baidu.com')

# 获取响应内容
# 获取状态码
code = response.status_code
print(code)
if code == 200:
    print('请求成功，后续获取返回数据')
else:
    print('请求失败')


# 修改返回数据的编码方式（一般针对文本数据乱码的时候）
# 设置的值是网页源代码中的charset的值
response.encoding='utf-8'   # charset=utf-8

# 获取响应体（服务器返回的数据）
# a.获取文本数据（返回数据是网页源代码）
data=response.text
print(data)

# b.获取json数据（返回数据是json格式的数据）
#  response.json()

# c.获取源数据（二进制数据,下载图片的时候用得比较多）
print(response.content)


# 获取json数据
def get_json_data():
    # 1. 发送请求
    response = requests.get('http://api.tianapi.com/txapi/ncovabroad/index?key=c9d408fefd8ed4081a9079d0d6165d43')
    # 2 .获取数据
    if response.status_code == 200:
        data = response.json()
        print(data)
    else:
        print('请求失败')

get_json_data()

# 下载图片
def get_bytes_data():
    respons=requests.get('https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2866940675,2065857896&fm=26&gp=0.jpg')
    # 获取二进制数据
    if respons.status_code==200:
        with open('img/0.jpg','wb')as f:
            f.write(respons.content)
    else:
        print('请求失败')

 - List item

get_bytes_data()

 - List item

'''
爬虫获取网页源数据的过程：
1.找到需要的数据对应的网站--->对网站地址发送请求
    a.得到数据--->解析数据
    b.访问失败--->设置header(User-Agent/cookies)
        1) 得到数据--->解析数据
        2) 得到不想要的数据---> 在network找返回需要数据的接口
            -找到了，用找到的数据接口发送请求--->解析数据
            -没找到，用selenium获取网页数据---->取到数据--->解析数据，没取到就放弃吧

参数 : 发送请求的时候，客户端发送给服务器的数据就是参数
传参的方式：
    拼接url 将参数以‘参数名=值’通过？拼接到url的后面多个参数用&连接
    例如1：url=http://api.tianapi.com/txapi/ncovabroad/index?key=c9d408fefd8ed4081a9079d0d6165d43
         respons=requests.get(url)
如果有些需要登录的网址，访问不到需要访问的内容
'''
# 例2：给参数params赋值（get和post都可以）：将所有的参数以键值对的形式创建一个字典，然后将字典赋值给params



def argument():
    url='http://api.tianapi.com/txapi/ncovabroad/index'
    arguments={'key':'c9d408fefd8ed4081a9079d0d6165d43'}
    response = requests.get(url,params=arguments)
    print(response.json())
    # 获取响应头
    print(response.headers)


# 请求头
# requests.get/post(url请求地址,params参数,...,headers请求头,proxy代理)
def request_he():
    url='https://movie.douban.com/top250'
    header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}
    response=requests.get(url,headers=header)
    if response.status_code == 200:
        print(response.text)
    else:
        print('请求失败')
        print(response)




# 封装一个访问的函数
def fangwen(wangzhi):
    url=wangzhi
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}
    response = requests.get(url,headers=header)
    if response.status_code == 200:
        print(response.text)

    else:
        print('请求失败')
        print(response)


def bilibili():
    fangwen('https://www.bilibili.com/video/BV1Cy4y1r7eo?from=search&seid=2308268303111204825'
)
bilibili()

def bei_ke():

    for i in range(1,101):

        fangwen(f"https://cd.fang.ke.com/loupan/pg{i}")
        print(f'-------------{i}---------------')

bei_ke()