爬虫-1-基本概念

最新推荐文章于 2025-07-23 22:19:16 发布

原创最新推荐文章于 2025-07-23 22:19:16 发布 · 150 阅读

0 ·

CC 4.0 BY-SA版权

爬虫基础知识专栏收录该内容

6 篇文章

订阅专栏

本文介绍爬虫技术的基本概念，包括数据提取方法、爬虫框架如Scrapy及ScrapyRedis，以及爬虫在数据呈现与分析中的作用。探讨了爬虫在不同场景的应用，如12306、微信公众号数据抓取，以及如何应对验证码和IP限制等问题。

1、复习
2、用request模块发送请求接收响应，从响应中提取数据。
3、数据提取方法。静态HTML页面
4、动态网页提取数据。
前端、flask讲过
静态HTML页面：不是通过js加载上去的
动态HTML页面：通过js加载上去的
5、mogdb
6、scrapy爬虫框架，通过框架可以使爬虫跟快一些
7、scrapy redis爬虫框架

基础知识：

1、爬虫应用场景

数据呈现、数据分析

大数据、人工智能，寻找规律，制定决策。数据来自微博、阿里、百度、360等，也会提供对外接口。微博收集用户数据，微博指数网站：微指数。但是小公司一般没有自己的数据指数平台，就需要用爬虫爬取；还可以通过官方网址去下载，手动比较慢，可以通过爬虫下载；可以购买数据。用自动化程序获取数据，不仅从简单的页面上获取数据。

想把爬取到的内容直接呈现出来。百度新闻，有可能没有记者，但是新闻如何来？点进百度新闻后，会跳转到其他网站，重定向到其他网站。新闻量比较大，不可能通过人力做，百度的搜索引擎，是一个非常大的爬虫，把爬取的数据放到数据库，用户就可以进行读取。

2、爬虫定义

网络蜘蛛：模拟客户端发送网络请求、接收请求响应。
如果想看斗鱼平台真正观看的人数，有些是机器人，这种数据是拿不到的，人手动能看到什么，爬虫才能看到什么。

对于爬取的数据进行筛选，比如要爬取新闻类，宁可对一些内容判定为不是新闻，也不能把感觉像是新闻的数据筛选出来。

浏览器能做的事情，原则上，爬虫都可以做。

3、爬虫的更多用途

12306

实现页面的局部刷新，用的是ajax技术
登录：会遇到验证码，学习完机器学习后可以做到识别验证码。如果只想买票，可以去12306的合作网站去爬取，不需要验证码。
如果要爬取微信的公众号，比较难爬，但是微信和搜狗有合作，可以去爬取搜狗。所以有时候爬取数据没必要正面刚。

网站上的投票

投票后提交：对方根据ip地址判断是否投过票，此时只需更换下ip，用while True,如果需要输入手机号，也可以去淘宝上购买。

短信轰炸
在这里插入图片描述
注册或者发送验证码时，会往手机上发送短信，在百度搜索“注册”就可以找到很多需要注册的网站，找到100来个。对每个网站写个小程序，模拟注册，就可以达到给别人手机号发送短信的效果。有的网站一分钟之后才能继续发送短信，time.sleep(60)