PYTHON爬虫

爬虫的概念

爬虫可分为:

  1. 通用爬虫:百度、360、搜狐、谷歌、必应…
  2. 聚焦爬虫:

通用爬虫原理

  1. 抓取网页
  2. 采集数据
  3. 数据处理
  4. 提供检索服务
  5. robots.txt(口头上的协议)

聚焦爬虫——根据特定的需求,抓取指定的数据

思路:代替浏览器上网
网页的特点:

  1. 网页都存在唯一的URL
  2. 网页内容都是html结构的
  3. 使用的都是http、https协议

爬取步骤

  1. 给一个URL
  2. 写程序,模拟浏览器访问URL
  3. 解析内容;提取数据

开发环境

windows、linux
python3.6 64位
sublime text3 、pycharm

课程内容

  1. 使用到的库
    urllib、requests、bs4…

  2. 解析网页内容的知识
    正则表达式、bs4、xpath、jsonpath

  3. 涉及到动态html
    selenium+phantomjs、chromeheadless

  4. scrapy框架
    高性能框架使用

  5. scrapy-redis组件
    redis,分布式爬虫

  6. 涉及到爬虫,反爬虫,反反爬虫的一些内容
    UA、代理、验证码、动态页面等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值