Python爬虫的学习记录

最新推荐文章于 2023-09-21 20:02:23 发布

原创最新推荐文章于 2023-09-21 20:02:23 发布 · 787 阅读

0 ·

CC 4.0 BY-SA版权

笔记专栏收录该内容

15 篇文章

订阅专栏

本文介绍了爬虫的基本概念，包括其大批量获取数据的能力，以及通用爬虫、聚焦爬虫和增量爬虫的分类。爬虫在合法范围内可用于数据获取和分析，如搜索引擎、市场研究等，但过度使用可能导致服务器压力甚至违法。同时，文章讨论了反爬机制和robots.txt协议，并列举了多种爬虫的应用场景，如购物比价、内容分析等。最后，强调了爬虫与反爬之间的博弈，以及合理使用爬虫的重要性。

什么是爬虫：
爬虫是一种大批量获取数据的方法
通俗的说，爬虫就是一个‘机器/程序’，这台‘机器’根据目标/关键字模拟人的行为去各个网站/网页爬取想要的内容，比如：
批量爬取图片批量爬取关键文字批量爬取视频批量爬取购物网站价格批量爬取某商品评论批量爬取某地房价

要合理使用爬虫
爬虫的破坏力：
1，过度使用爬虫轻则导致服务器下载，重则可以导致网站彻底宕机
2，通过爬虫在获取的敏感数据，个人数据，版权数据进行销售属于严重违法，且爬虫工程师连带责任

爬虫的合法性：
1，在法律允许的范围内进行
2，注意使用中的法律风险

爬虫的非正常使用如同黑客行为。
善用爬虫让他成为价值工具，不要让他成为作案工具

爬虫的分类
通用爬虫：
抓取互联网整个页面数据，通常是搜索引擎使用
聚焦爬虫：
聚焦爬虫是通用爬虫的升级版本，抓取特定的内容
增量爬虫：
基于聚焦爬虫的规则，检测是否有新的数据更新，如果有则进行抓取。

爬虫的业务场景
·为现有应用提供数据
·数据作为分析基础
·个人便利目的
个人信息检索系统；特定信息收集系统；自动填写调差问卷；爬虫分析热度排行；爬虫进行股票分析，爬取网站定向数据；视频网站视频批量下载；
购物网站比价系统；文章批量下载；飞机票比价系统；招聘公司爬取招聘信息；爬取房产网站做房产分析；财务报表下载；排行分析；畅销书排行分析；
验证码破解；用户拓展关系分析；模拟登录系统；文件下载助手开发；音乐网站批量下载；城市旅游数据分析；购物网站数据挖掘分析；电商信息数据分析；
论坛发帖，问答推广，效果回访；爬取微信公众号，进行数据分析；头条自动发文章，赚点广告费；新闻数据分析

关于反爬的说明：
爬虫和网站之间一直就在一个对立面上，是一个明的对抗。
爬虫就是网站的一个逆向工程
反爬机制：通过相应的安全机制，策略或者门槛机制限制机器直接获取数据
反反爬机制：爬虫制定相关的策略破解/穿透/绕过去网站的反爬机制，反反爬机制的核心就是让你的爬虫更像人

robots.txt协议：
Robots协议是以一个防君子不防小人的协议，规定本网站哪些数据不可以爬取，那些可以爬取，这不是一个技术手段，而是一个声明，但是具有法律效应。

爬虫的基本原理
爬虫其实就是WEB（网站）的逆向工程
静态模式：
浏览器输入网址 → 回车 → 服务器接到请求 → 返回代码 → 浏览器接收代码 → 浏览器解析代码展示出页面
动态模式：
浏览器输入网址 → 回车 → 服务器接到请求 → 返回部分前端和Javascript代码 → Javascript再次发起请求 → 加载页面的实际内容

以上为今天的学习笔记！有点迷糊，慢慢学习吧！加油
每天进步一点点