爬虫（一）：爬虫基础

JWind_xyf

于 2020-08-28 22:39:44 发布

阅读量1k

点赞数 2

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/JWind_xyf/article/details/108175403

版权

基本介绍

网络爬虫是模拟客户端（主要是浏览器）发送请求/接收响应，自动抓取互联网信息的程序

没有明确的法律法规，尽量不要采集个人信息
原则上，只要是客户端能做的事情，爬虫都能做
爬虫只能获取客户端所能展示的数据

学习路径

requests模块非常重要，需要掌握
selenium可以实现非常简单但能用的爬虫
反爬机制
mongodb只需要知道怎么用mongodb以及怎么与python交互
scrapy爬虫框架
appium用于手机的数据采集

爬虫的作用

数据采集（用于机器学习舆情监控/数据挖掘）
软件测试（自动化测试）虫师博客
抢票
投票
网络安全（短信轰炸，web漏洞扫描）

爬虫的分类

根据被爬网站的数量不同，可分为

通用爬虫，如搜索引擎
聚焦爬虫，专门抓取某一类网站

根据是否以获取数据为目的，可分为

功能性爬虫，如投票
数据增量爬虫，如招聘信息

根据url地址和对应的页面内容是否改变，数据增量爬虫可分为：

基于url地址变化、内容也随之变化的爬虫
基于url地址不变，内容变化的爬虫

爬虫的流程

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。