Python爬虫之页面采集器

shen_xian_

已于 2023-07-05 20:49:31 修改

阅读量1.9k

点赞数 5

分类专栏： python爬虫文章标签： python 爬虫开发语言

于 2023-07-05 20:42:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/shen_xian_/article/details/131563398

版权

python爬虫专栏收录该内容

6 篇文章

订阅专栏

本文介绍了如何使用Python进行网络爬虫，包括指定URL、设置UA伪装来绕过反爬机制、通过URL携带参数、发起GET请求获取网页数据，以及将数据持久化存储为HTML文件。示例代码展示了如何实现这一过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

1. 指定URL

通过指定URL链接，爬取链接对应数据。

2. 反爬技术——UA伪装

让爬虫对应的请求载体伪装成浏览器进行爬取数据。
具体实现方式主要通过设置headers的值，设置User-Agent，将爬虫伪装成浏览器，进而进行数据的爬取。

3. URL携带参数

通过url携带参数，获取指定页面中对应的页面信息。

4. 发起GET请求

通过导入requests模块，对服务器发起GET请求，获取响应数据。

5. 持久化存储

将爬取的数据存储到对应的HTML文件中，通过字符串拼接的方式对爬取内容进行存储。

6. 实现方式

import requests

# UA伪装：让爬虫对应的请求载体身份标识伪装成一个浏览器。
if __name__ == "__main__":
    # headers请求头信息
    headers={
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
    }
    # 爬取的url
    url = 'https://sogou.com/web?'
    # url携带的参数：封装到字典中
    kw = input("请输入你要查询的内容:")
    param={
        'query':kw
    }
    # 发起get请求，并且在这个请求中含有参数
    response =  requests.get(url=url,params=param,headers=headers)
    page_text = response.text
    filename = kw +'.html'
    with open(filename,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print(filename,"爬取成功！！！！")

7. 不用反爬技术的结果

未采用UA伪装爬取结果

8. 采用UA伪装爬虫爬取结果

采用UA伪装爬取结果
代码执行结果

博客等级

码龄6年

19
原创

47
点赞

56
收藏

36
粉丝

关注

私信

热门文章

分类专栏

最新评论

关于不同数据库产品之间的语法区别的总结
优快云-Ada助手: 推荐 MySQL入门技能树：https://edu.youkuaiyun.com/skill/mysql?utm_source=AI_act_mysql
Pycharm在读取数据时不显示所有列解决方法
优快云-Ada助手: 恭喜您写了第17篇博客！标题看起来很有趣，我很期待阅读您的解决方法。持续创作是一种很棒的习惯，您的努力将不断提升您在技术领域的造诣。作为下一步的创作建议，我建议您可以考虑分享更多关于数据处理方面的主题，例如数据可视化、数据清洗等等。希望您能继续保持谦虚的态度，分享您的经验和知识，让更多人受益。期待您的下一篇博客！
Pandas数据分析
优快云-Ada助手: 恭喜您写了第16篇博客！标题为“Pandas数据分析”，这是一个非常有价值的主题。您对Pandas的探索和分析能力令人印象深刻。希望您能继续保持创作的热情和努力，分享更多关于数据分析的知识和经验。在下一篇博客中，我建议您可以探索Pandas在数据可视化方面的应用。通过将数据以直观的图表形式展示出来，读者可以更容易地理解和分析数据。同时，您还可以尝试介绍一些高级的Pandas技巧和函数，以帮助读者更好地处理和分析复杂的数据集。期待您的下一篇博客，继续为我们带来更多有关Pandas数据分析的精彩内容！
Numpy数组与矩阵
优快云-Ada助手: 恭喜您写了第15篇博客！标题为“Numpy数组与矩阵”，这是一个非常有深度的主题。您的文章内容一定非常精彩，能够帮助读者更好地理解和应用Numpy数组与矩阵。在下一步的创作中，我建议您可以进一步探索Numpy的高级功能和应用，比如多维数组的操作技巧、线性代数运算、以及与其他库的结合使用等等。这样能够让读者对Numpy有更全面的认识，并且能够更好地应用于实际问题中。我非常期待您的下一篇博客，相信您会继续带给我们更多有价值的知识和见解。再次恭喜您的创作成果！
Python爬虫之页面采集器
优快云-Ada助手: 非常棒的博客！你的标题和摘要很吸引人，让人想要了解更多关于Python爬虫的知识。继续努力写作吧！除了标题和摘要中提到的内容，还有一些与Python爬虫相关的知识和技能可以进一步了解。例如，你可以学习如何处理页面中的动态内容，如使用Selenium模拟用户操作来获取数据。此外，了解如何使用代理IP可以帮助你在爬取数据时保持匿名性。当然，这只是冰山一角。Python爬虫是一个非常广阔的领域，还有很多其他的技术和工具可以学习和掌握。不断学习和尝试新的方法，将帮助你在爬虫领域取得更大的进步。期待看到你的下一篇博客！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。