01 爬虫课程概述

https://www.youtube.com/watch?v=EDTOrXLYZ5s&index=9&list=PL8LR_PrSuIRjZcTzD-3EnoZ5i85w-iWZt
# 课程介绍
1.python的基本语法知识
2.如何抓取HTML页面
    HTTP请求的树立, urllib, urllib2, requests
    处理后的请求可以模拟浏览器发送请求,获取服务器响应的文件
3.解析响应页面的内容
    re、xpath、beautifulSoup4(bs4) 、Jsonpath、 pyquery等
    使用某种描述性来给我们需要提取的数据定义一个匹配规则
    符合这个规则的数据就会被匹配
4.如何采集动态html、验证码的处理
    通用的动态页面采集:Selenium PhantomJS(无界面浏览器):模拟真实浏览器加载js、ajax等非静态的页面数据
    Tesseract:机器学习库 机器图像识别系统,可以处理简单的验证码.复杂的验证码可以通过手动输入/打码平台
5.Scrapy框架(Scrapy, Pyspider)
    高定制型高性能(异步网络框架twisted)、所以数据下载速度非常快,提供了数据存储、数据下载、提取规则等组件
6.分布式策略:
    scrapy redis, 在Scrapy的基础上添加了一套以Redis数据库为核心的一套组件,让Scrapy框架支持分布式的功能,主要在Redis里做请求指纹去重、请求分配、数据临时存储
7.爬虫 反爬虫 反反爬虫 之间的斗争
    其实爬虫做到最后,最头疼的不是复杂的页面,也不是晦涩的数据,而是网站另一边的反爬虫人员
    User Agent、代理、验证码、动态数据加载、加密数据
    数据的价值是否值得去费劲做反爬虫
    1.机器成本 + 人力成本 > 数据价值,就不反了 一般做到封IP就结束了
    2.面子的战争:
    爬虫和反爬虫之间的斗争,最后一定是爬虫获胜
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值