爬虫简介

最新推荐文章于 2021-07-03 22:41:08 发布

徐加七

最新推荐文章于 2021-07-03 22:41:08 发布

阅读量416

点赞数

分类专栏：爬虫

本文链接：https://blog.youkuaiyun.com/xujiaqi1998/article/details/102858667

版权

数据工程：
  数据采集 和 数据存储（爬虫系统）
  数据计算、分析 和 数据可视化（数据分析）
  数据建模 和 数据训练（数据挖掘、机器学习）

1. 什么是爬虫？
  抓取网页数据的程序。

2. 爬虫是怎么抓取网页数据？

  网页三大特征：
  -1. 网页都有自己的URL（统一资源定位符）来进行互联网定位；
  -2. 网页都使用 HTML（超文本标记语言）来描述页面信息；
  -3. 网页都使用HTTP/HTTPS（超文本传输协议）来传输 HTML 数据。

  爬虫的标准设计流程：
  -1. 通过网页的URL地址，发送 HTTP 请求给网站服务器；
  -2. 网站服务器接收请求，返回对应的HTTP响应；
  -3. 接收响应，解析响应数据：
    a. 如果是需要保存的目标数据，使用相关工具保存（txt、json、xml、csv、mongodb、mysql、redis）
    b. 如果是需要继续抓取的 URL 地址，则从第二步继续执行。
  -4 当所有需要抓取的URL地址全部爬取完毕，程序结束。

3. 爬虫抓下来的数据能干嘛？
  -1. 数据采集数据数据工程的第一环，数据可以用于后续的数据分析、数据挖掘、机器学习
  -2. 数据也可以出售；
  -3. 抓取各个网站的数据，用于自己的网站，提供用户流量；
  -4. 抓取友商数据，及时调整自己产品信息
  -5. PPT创业，吹牛融资，需要数据支持。


4. 为什么Python做爬虫更多？
  PHP、Java、C、Python

  PHP 并发能力弱
  Java 编写和重构成本高
  C/C++ 学习成本高
  Python 开发效率高、工具便捷、 HTTP请求处理库和HTTP响应处理库非常多，
          强大的爬虫框架 Scrapy，以及高效成熟的分布式组件 scrapy-redis

  Python 动态、强类型、解释型语言

  动态：数据类型在执行时确定
  静态：数据类型在执行前确定

  强类型： 不同类型的不能做计算（Python）
  弱类型： 不同类型可以做计算（JavaScript）

  解释型语言: 每次执行代码，需要重新用解释器执行一遍。
  编译型语言: 执行前可以通过编译器生成可执

最低0.47元/天解锁文章