爬虫(一):爬虫基础

基本介绍

网络爬虫是模拟客户端(主要是浏览器)发送请求/接收响应,自动抓取互联网信息的程序

  • 没有明确的法律法规,尽量不要采集个人信息
  • 原则上,只要是客户端能做的事情,爬虫都能做
  • 爬虫只能获取客户端所能展示的数据

学习路径

  1. requests模块非常重要,需要掌握
  2. selenium可以实现非常简单但能用的爬虫
  3. 反爬机制
  4. mongodb只需要知道怎么用mongodb以及怎么与python交互
  5. scrapy爬虫框架
  6. appium用于手机的数据采集

爬虫的作用

  1. 数据采集(用于机器学习舆情监控/数据挖掘)
  2. 软件测试(自动化测试)虫师博客
  3. 抢票
  4. 投票
  5. 网络安全(短信轰炸,web漏洞扫描)

爬虫的分类

根据被爬网站的数量不同,可分为

  • 通用爬虫,如搜索引擎
  • 聚焦爬虫,专门抓取某一类网站

根据是否以获取数据为目的,可分为

  • 功能性爬虫,如投票
  • 数据增量爬虫,如招聘信息

根据url地址和对应的页面内容是否改变,数据增量爬虫可分为:

  • 基于url地址变化、内容也随之变化的爬虫
  • 基于url地址不变,内容变化的爬虫

爬虫的流程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值