爬虫的快速入门基础 (四)requests库入门 第二章

(1)搜狗搜索人物实战

import requests

url = 'https://www.sogou.com/web?query=李荣浩'
# 首先我们需要观察 在搜狗 输入李荣浩 会发现他的Url 有上面这一长串的字符
# https://www.sogou.com/web?query=李荣浩&_asf=www.sogou.com&_ast=&w=01019900&p=40040100&ie=utf8&from=index-nologin&s_from=index&sut=1372&sst0=1649923016205&lkt=0%2C0%2C0&sugsuv=1649923012240390&sugtime=1649923016205
# 但是实际上我们观察一下  真正有用的就是这个 query=李荣浩  后面的字符我们可以不用管 删去
# 所以在构建要爬取的url的时候 我们 使用前面的 https://www.sogou.com/web?query=李荣浩就可以了

# 这个是搜狗可以  可能是看 query后面这个就够了 后面的其他字符可以删除

header = {
   "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/96.0.4664.55 Safari/537.36"
}

# 这个是 打开f12 然后在请求头中找到 user-agent 这个就是 网页判断你是用什么机器登入的网页 判断你是不是人在操作  还是说你是个程序
# 这一步和前面有点像  新加的这个headers 就是属性 就是你登入网页的属性 模仿成正常的人登入进去

req = requests.get(url=url,headers=header)

print(req.text)
# 这个就是打印你爬取的网页的文本

附上源代码

import requests

url = 'https://www.sogou.com/web?query=李荣浩'

header = {
   "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/96.0.4664.55 Safari/537.36"
}

req = requests.get(url=url,headers=header)

print(req.text)

(2)升级代码练习

通过在键盘输入你想要找的人 然后让程序自动爬取

import requests

# 这一步中的input就是 通过键盘输入的函数
query = input("输入你想找的人:")

# 这一步中的 format函数 在入门基础(一)中讲到了 是相当于替换{}中的字符  所以就是把键盘输入的 来替换query=后面的字符 来实现搜索目的
url = 'https://www.sogou.com/web?query={}'.format(query)

header = {
   "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/96.0.4664.55 Safari/537.36"
}

req = requests.get(url=url,headers=header)

print(req.text)

附上源码

import requests

query = input("输入你想找的人:")

url = 'https://www.sogou.com/web?query={}'.format(query)

header = {
   "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/96.0.4664.55 Safari/537.36"
}

req = requests.get(url=url,headers=header)

print(req.text)

多多学习 理解 可以进行其他的代码扩展 爬虫的学习并不难 用心学 你也会变成爬虫高手!!

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ZTLJQ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值