爬虫基本概念（新手必看）

最新推荐文章于 2025-05-02 20:27:24 发布

置顶彡倾灬染|

最新推荐文章于 2025-05-02 20:27:24 发布

阅读量2.1k

点赞数 3

分类专栏：爬虫基本概念文章标签： python 爬虫

本文链接：https://blog.youkuaiyun.com/qq_45830025/article/details/107520049

版权

爬虫基本概念专栏收录该内容

3 篇文章

订阅专栏

1.爬虫是什么？
网络爬虫是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序
简单来说：爬虫是用事先写好的程序去抓取网络上的数据，这样的程序叫爬虫

2.爬虫的分类
按照使用场景来分，可以分为两类：通用爬虫和聚焦爬虫
通用爬虫：搜索引擎爬虫（百度）
聚焦爬虫：获取想要的数据

3.爬虫就是在模仿人类的操作

4.爬虫的知识体系和相关工具（必须掌握）
爬虫的知识体系和相关工具

 1.概念
        利用HTTP协议，从网站采集、提取数据的过程
    2.知识结构及路线图
        1）web前端
            （1）HTML
            （2）CSS  层级样式表
            （3）JS
        2）HTTP超文本传输协议
        3）Python语言
        4）HTTP编程
            （1）Python标准库：urllib
            （2）第三方库：requests（需要安装、下载）
        5）数据采集
            （1）文本类型
            （2）图片
            （3）媒体文件（e.g. ：音乐、视频）
        6）数据提取
            （1）XPath
            （2）正则表达式
            （3）Beautiful Soup
        7）数据存储
            （1）文本文档
            （2）MySQL数据库
            （3）Excel
            （4）MongoBD数据库
            （5）Redis数据库
        8）反爬虫技术应用
            （1）图片验证码
            （2）滑块验证码
            （3）IP代理池
            （4）封装请求头
            （5）动态内容处理
                1>Ajax
                2>Selenium
            （6）JS加密
            （7）Cookie加密
            （8）CSS加密
            （9）Base64加密
        9）爬虫框架
            （1）Scrapy框架
                1>scrapy-redis分布式爬虫
            （2）pyspider框架
    3.工具
        1）环境
            （1）windows
            （2）Linux系统
        2）开发
            （1）Python
                1>pycharm
            （2）数据库
                1>MySQL
                2>MongolianDB
                3>Redis
            （3）浏览器
                1>谷歌浏览器
                2>火狐浏览器

在这里插入图片描述

5.HTTP请求

客户端--发送请求（request）-->服务器
客户端<--返回响应（response）--服务器

请求方式：get请求/post请求
get请求：会将请求的参数放到地址栏（URL）/网址后面，不安全
post请求：不会将请求的参数放到网址后面，相对安全
在这里插入图片描述