Python爬虫的学习记录

本文介绍了爬虫的基本概念,包括其大批量获取数据的能力,以及通用爬虫、聚焦爬虫和增量爬虫的分类。爬虫在合法范围内可用于数据获取和分析,如搜索引擎、市场研究等,但过度使用可能导致服务器压力甚至违法。同时,文章讨论了反爬机制和robots.txt协议,并列举了多种爬虫的应用场景,如购物比价、内容分析等。最后,强调了爬虫与反爬之间的博弈,以及合理使用爬虫的重要性。

什么是爬虫:
爬虫是一种大批量获取数据的方法
通俗的说,爬虫就是一个‘机器/程序’,这台‘机器’根据目标/关键字模拟人的行为去各个网站/网页爬取想要的内容,比如:
批量爬取图片 批量爬取关键文字 批量爬取视频 批量爬取购物网站价格 批量爬取某商品评论 批量爬取某地房价

要合理使用爬虫
爬虫的破坏力:
1,过度使用爬虫轻则导致服务器下载,重则可以导致网站彻底宕机
2,通过爬虫在获取的敏感数据,个人数据,版权数据进行销售属于严重违法,且爬虫工程师连带责任

爬虫的合法性:
1,在法律允许的范围内进行
2,注意使用中的法律风险

爬虫的非正常使用如同黑客行为。
善用爬虫让他成为价值工具,不要让他成为作案工具

爬虫的分类
通用爬虫:
抓取互联网整个页面数据,通常是搜索引擎使用
聚焦爬虫:
聚焦爬虫是通用爬虫的升级版本,抓取特定的内容
增量爬虫:
基于聚焦爬虫的规则,检测是否有新的数据更新,如果有则进行抓取。

爬虫的业务场景
·为现有应用提供数据
·数据作为分析基础
·个人便利目的
个人信息检索系统;特定信息收集系统;自动填写调差问卷;爬虫分析热度排行;爬虫进行股票分析,爬取网站定向数据;视频网站视频批量下载;
购物网站比价系统;文章批量下载;飞机票比价系统;招聘公司爬取招聘信息;爬取房产网站做房产分析;财务报表下载;排行分析;畅销书排行分析;
验证码破解;用户拓展关系分析;模拟登录系统;文件下载助手开发;音乐网站批量下载;城市旅游数据分析;购物网站数据挖掘分析;电商信息数据分析;
论坛发帖,问答推广,效果回访;爬取微信公众号,进行数据分析;头条自动发文章,赚点广告费;新闻数据分析

关于反爬的说明:
爬虫和网站之间一直就在一个对立面上,是一个明的对抗。
爬虫就是网站的一个逆向工程
反爬机制:通过相应的安全机制,策略或者门槛机制限制机器直接获取数据
反反爬机制:爬虫制定相关的策略破解/穿透/绕过去网站的反爬机制,反反爬机制的核心就是让你的爬虫更像人

robots.txt协议:
Robots协议是以一个防君子不防小人的协议,规定本网站哪些数据不可以爬取,那些可以爬取,这不是一个技术手段,而是一个声明,但是具有法律效应。

爬虫的基本原理
爬虫其实就是WEB(网站)的逆向工程
静态模式:
浏览器输入 网址 → 回车 → 服务器接到请求 → 返回代码 → 浏览器接收代码 → 浏览器解析代码展示出页面
动态模式:
浏览器输入 网址 → 回车 → 服务器接到请求 → 返回部分前端和Javascript代码 → Javascript再次发起请求 → 加载页面的实际内容

以上为今天的学习笔记!有点迷糊,慢慢学习吧!加油
每天进步一点点

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值