Python网络爬虫

shen_xian_

已于 2023-07-22 22:01:56 修改

阅读量1.6k

点赞数 18

分类专栏： python爬虫文章标签： python 爬虫开发语言

于 2023-07-04 22:39:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/shen_xian_/article/details/131541735

版权

python爬虫专栏收录该内容

6 篇文章

订阅专栏

爬虫

目录

爬虫

1.定义

爬虫，即网络爬虫，又称网络蜘蛛（Web Spider），是一种按照一定规则获取万维网数据的程序。在FOAF社区中间，更经常的称为网页追逐者。

通过编写程序，模拟浏览器上网，然后去互联网上抓取数据。并不是只有Python语言可以编写爬虫程序，java，php等都有对应的爬虫框架，如java有WebMagic爬虫框架，PHP有phpspider爬虫框架，C# 有DotnetSpider爬虫框架。

2.爬虫分类在日常使用过程中的分类？

通用爬虫：抓取系统的重要组成部分，抓取的是一整张页面的数据。
聚焦爬虫：建立在通用爬虫的基础上。抓取页面中特定的内容。
增量式爬虫：检测网站中数据更新情况。只会抓取最新更新的数据。它能够在一定程度上保证所爬行的页面是尽可能新的页面。
Deep Web 爬虫：Web 页面按存在方式可以分为表层网页（Surface Web）和深层网页（Deep Web，也称 Invisible Web Pages 或 Hidden Web）。表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的 Web 页面。Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的 Web 页面。

3.爬虫的工作流程

爬虫的工作流程主要通过url队列对相应的网址进行网页获取，然后通过网页分析获取对应的内容，最后进行数据的存储。

4.反爬机制

门户网站通过制定相关的策略，防止爬虫程序对网站数据进行爬取。

5.反反爬策略

爬虫程序制定相关的策略，破解门户网站中的反爬机制，从而获取门户网站中的相关数据。

6.http协议

定义：服务器和客户端进行数据交换的一种形式。
常用请求头信息：

User-Agent : 请求载体的身份标识。
Connection:请求完毕后是断开链接还是保持链接。

常用响应头信息：

Content-Type:服务器响应回客户端的数据类型。

7.https协议

安全的http协议。
加密方式：

对称密钥加密。
非对称密钥加密。
证书密钥加密。
CA证书能够帮助我们鉴别某一个网站的合法性，原理如下：
一、生成我的公钥
二、CA机构用自己的私钥加密我的公钥以及相关信息
三、客户信任CA，并拥有CA的公钥，客户就可以使用公钥解密加密后的证书，并从证书中得到我的公钥
四、如果能用CA的公钥解密出数据，说明我的证书是经过CA认证过的，客户就可以放心访问了，如果系统发现证书不是权威CA机构颁发的，会警告用户
五、客户使用我的公钥解密数据，然后进行信息交换

博客等级

码龄6年

19
原创

47
点赞

56
收藏

36
粉丝

关注

私信

热门文章

分类专栏

最新评论

关于不同数据库产品之间的语法区别的总结
优快云-Ada助手: 推荐 MySQL入门技能树：https://edu.youkuaiyun.com/skill/mysql?utm_source=AI_act_mysql
Pycharm在读取数据时不显示所有列解决方法
优快云-Ada助手: 恭喜您写了第17篇博客！标题看起来很有趣，我很期待阅读您的解决方法。持续创作是一种很棒的习惯，您的努力将不断提升您在技术领域的造诣。作为下一步的创作建议，我建议您可以考虑分享更多关于数据处理方面的主题，例如数据可视化、数据清洗等等。希望您能继续保持谦虚的态度，分享您的经验和知识，让更多人受益。期待您的下一篇博客！
Pandas数据分析
优快云-Ada助手: 恭喜您写了第16篇博客！标题为“Pandas数据分析”，这是一个非常有价值的主题。您对Pandas的探索和分析能力令人印象深刻。希望您能继续保持创作的热情和努力，分享更多关于数据分析的知识和经验。在下一篇博客中，我建议您可以探索Pandas在数据可视化方面的应用。通过将数据以直观的图表形式展示出来，读者可以更容易地理解和分析数据。同时，您还可以尝试介绍一些高级的Pandas技巧和函数，以帮助读者更好地处理和分析复杂的数据集。期待您的下一篇博客，继续为我们带来更多有关Pandas数据分析的精彩内容！
Numpy数组与矩阵
优快云-Ada助手: 恭喜您写了第15篇博客！标题为“Numpy数组与矩阵”，这是一个非常有深度的主题。您的文章内容一定非常精彩，能够帮助读者更好地理解和应用Numpy数组与矩阵。在下一步的创作中，我建议您可以进一步探索Numpy的高级功能和应用，比如多维数组的操作技巧、线性代数运算、以及与其他库的结合使用等等。这样能够让读者对Numpy有更全面的认识，并且能够更好地应用于实际问题中。我非常期待您的下一篇博客，相信您会继续带给我们更多有价值的知识和见解。再次恭喜您的创作成果！
Python爬虫之页面采集器
优快云-Ada助手: 非常棒的博客！你的标题和摘要很吸引人，让人想要了解更多关于Python爬虫的知识。继续努力写作吧！除了标题和摘要中提到的内容，还有一些与Python爬虫相关的知识和技能可以进一步了解。例如，你可以学习如何处理页面中的动态内容，如使用Selenium模拟用户操作来获取数据。此外，了解如何使用代理IP可以帮助你在爬取数据时保持匿名性。当然，这只是冰山一角。Python爬虫是一个非常广阔的领域，还有很多其他的技术和工具可以学习和掌握。不断学习和尝试新的方法，将帮助你在爬虫领域取得更大的进步。期待看到你的下一篇博客！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。