1、复习
2、用request模块发送请求接收响应,从响应中提取数据。
3、数据提取方法。静态HTML页面
4、动态网页提取数据。
前端、flask讲过
静态HTML页面:不是通过js加载上去的
动态HTML页面:通过js加载上去的
5、mogdb
6、scrapy爬虫框架 ,通过框架可以使爬虫跟快一些
7、scrapy redis爬虫框架
基础知识:
1、爬虫应用场景
数据呈现、数据分析
大数据、人工智能,寻找规律,制定决策。数据来自微博、阿里、百度、360等,也会提供对外接口。微博收集用户数据,微博指数网站:微指数。但是小公司一般没有自己的数据指数平台,就需要用爬虫爬取;还可以通过官方网址去下载,手动比较慢,可以通过爬虫下载;可以购买数据。用自动化程序获取数据,不仅从简单的页面上获取数据。
想把爬取到的内容直接呈现出来。百度新闻,有可能没有记者,但是新闻如何来?点进百度新闻后,会跳转到其他网站,重定向到其他网站。新闻量比较大,不可能通过人力做,百度的搜索引擎,是一个非常大的爬虫,把爬取的数据放到数据库,用户就可以进行读取。
2、爬虫定义
网络蜘蛛:模拟客户端发送网络请求、接收请求响应。
如果想看斗鱼平台真正观看的人数,有些是机器人,这种数据是拿不到的,人手动能看到什么,爬虫才能看到什么。
对于爬取的数据进行筛选,比如要爬取新闻类,宁可对一些内容判定为不是新闻,也不能把感觉像是新闻的数据筛选出来。
浏览器能做的事情,原则上,爬虫都可以做。
3、爬虫的更多用途
12306
实现页面的局部刷新,用的是ajax技术
登录:会遇到验证码,学习完机器学习后可以做到识别验证码。如果只想买票,可以去12306的合作网站去爬取,不需要验证码。
如果要爬取微信的公众号,比较难爬,但是微信和搜狗有合作,可以去爬取搜狗。所以有时候爬取数据没必要正面刚。
网站上的投票
投票后提交:对方根据ip地址判断是否投过票,此时只需更换下ip,用while True,如果需要输入手机号,也可以去淘宝上购买。
短信轰炸

注册或者发送验证码时,会往手机上发送短信,在百度搜索“注册”就可以找到很多需要注册的网站,找到100来个。对每个网站写个小程序,模拟注册,就可以达到给别人手机号发送短信的效果。有的网站一分钟之后才能继续发送短信,time.sleep(60)
本文介绍爬虫技术的基本概念,包括数据提取方法、爬虫框架如Scrapy及ScrapyRedis,以及爬虫在数据呈现与分析中的作用。探讨了爬虫在不同场景的应用,如12306、微信公众号数据抓取,以及如何应对验证码和IP限制等问题。
3272

被折叠的 条评论
为什么被折叠?



