爬虫-1-基本概念

本文介绍爬虫技术的基本概念,包括数据提取方法、爬虫框架如Scrapy及ScrapyRedis,以及爬虫在数据呈现与分析中的作用。探讨了爬虫在不同场景的应用,如12306、微信公众号数据抓取,以及如何应对验证码和IP限制等问题。

1、复习
2、用request模块发送请求接收响应,从响应中提取数据。
3、数据提取方法。静态HTML页面
4、动态网页提取数据。
前端、flask讲过
静态HTML页面:不是通过js加载上去的
动态HTML页面:通过js加载上去的
5、mogdb
6、scrapy爬虫框架 ,通过框架可以使爬虫跟快一些
7、scrapy redis爬虫框架

基础知识:

1、爬虫应用场景

数据呈现、数据分析

大数据、人工智能,寻找规律,制定决策。数据来自微博、阿里、百度、360等,也会提供对外接口。微博收集用户数据,微博指数网站:微指数。但是小公司一般没有自己的数据指数平台,就需要用爬虫爬取;还可以通过官方网址去下载,手动比较慢,可以通过爬虫下载;可以购买数据。用自动化程序获取数据,不仅从简单的页面上获取数据。

想把爬取到的内容直接呈现出来。百度新闻,有可能没有记者,但是新闻如何来?点进百度新闻后,会跳转到其他网站,重定向到其他网站。新闻量比较大,不可能通过人力做,百度的搜索引擎,是一个非常大的爬虫,把爬取的数据放到数据库,用户就可以进行读取。

2、爬虫定义

网络蜘蛛:模拟客户端发送网络请求、接收请求响应。
如果想看斗鱼平台真正观看的人数,有些是机器人,这种数据是拿不到的,人手动能看到什么,爬虫才能看到什么。

对于爬取的数据进行筛选,比如要爬取新闻类,宁可对一些内容判定为不是新闻,也不能把感觉像是新闻的数据筛选出来。

浏览器能做的事情,原则上,爬虫都可以做。

3、爬虫的更多用途

12306

实现页面的局部刷新,用的是ajax技术
登录:会遇到验证码,学习完机器学习后可以做到识别验证码。如果只想买票,可以去12306的合作网站去爬取,不需要验证码。
如果要爬取微信的公众号,比较难爬,但是微信和搜狗有合作,可以去爬取搜狗。所以有时候爬取数据没必要正面刚。

网站上的投票

投票后提交:对方根据ip地址判断是否投过票,此时只需更换下ip,用while True,如果需要输入手机号,也可以去淘宝上购买。

短信轰炸
在这里插入图片描述
注册或者发送验证码时,会往手机上发送短信,在百度搜索“注册”就可以找到很多需要注册的网站,找到100来个。对每个网站写个小程序,模拟注册,就可以达到给别人手机号发送短信的效果。有的网站一分钟之后才能继续发送短信,time.sleep(60)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值