爬虫练习题（一）

原创

已于 2022-07-14 23:52:57 修改 · 5.3k 阅读

39 ·

CC 4.0 BY-SA版权

文章标签：

#python

于 2022-04-21 16:35:42 首次发布

本文介绍了使用Python进行搜狗搜索的爬虫实践，包括分析网页参数、构建翻页URL、设置请求头以及使用requests库获取网页源码。适合初学者了解爬虫基本操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

博主链接：张立梵的爬虫开端

个人介绍：小编大一视传在读，目前即将大二

欢迎大家对文章 关注、点赞、收藏

最近小伙伴问我有什么刷题网站推荐，我在这里推荐一下牛客网，这里面包含各种题库，全都是免费的题库，可以全方面提升你的数据操纵逻辑，提升编程实战技巧，赶快来一起刷题吧牛客网笔试题库|面试经验

Don't just follow the path .Make your own trail .
不要只是沿着路走，走你自己的路。

这次发稿具有极强的纪念意义，生日当天发稿，开启了我网络笔记的生涯，以及加深了对爬虫的无限热爱，希望大家能够给予我支持！！！第一次发稿还请多多支持！！！以后精彩不断哦。

10.(选做题1)目标网站https://www.sogou.com/
要求:
1.用户输入要搜索的内容,起始页和终止页
2.根据用户输入的内容爬取相关页面的源码
3.把获取下来的数据保存到本地

import requests
word = input("请输入搜索内容")
start = int(input("请输入起始页"))
end = int(input("请输入结束页"))
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44'
}
for n in range(start, end + 1):
    url = f'https://www.sogou.com/web?query={word}&page={n}'
    # print(url)
    response = requests.get(url, headers=headers)
    with open(f'{word}的第{n}页。html', "w", encoding="utf-8")as file:
        file.write(response.content.decode("utf-8"))

一、分析网页

1.先录入网址

python - 搜狗搜索 (sogou.com)https://www.sogou.com/web?query=python&_ast=1650447467&_asf=www.sogou.com&w=01029901&p=40040100&dp=1&cid=&s_from=result_up&sut=7606&sst0=1650447682406&lkt=0%2C0%2C0&sugsuv=1650427656976942&sugtime=1650447682406 2.分别搜索 “Python”，“中国”并进行网址对比。