爬虫简介

数据工程:
  数据采集 和 数据存储(爬虫系统)
  数据计算、分析 和 数据可视化(数据分析)
  数据建模 和 数据训练(数据挖掘、机器学习)

1. 什么是爬虫?
  抓取网页数据的程序。

2. 爬虫是怎么抓取网页数据?

  网页三大特征:
  -1. 网页都有自己的URL(统一资源定位符)来进行互联网定位;
  -2. 网页都使用 HTML(超文本标记语言)来描述页面信息;
  -3. 网页都使用HTTP/HTTPS(超文本传输协议)来传输 HTML 数据。

  爬虫的标准设计流程:
  -1. 通过网页的URL地址,发送 HTTP 请求给网站服务器;
  -2. 网站服务器接收请求,返回对应的HTTP响应;
  -3. 接收响应,解析响应数据:
    a. 如果是需要保存的目标数据,使用相关工具保存(txt、json、xml、csv、mongodb、mysql、redis)
    b. 如果是需要继续抓取的 URL 地址,则从第二步继续执行。
  -4 当所有需要抓取的URL地址全部爬取完毕,程序结束。

3. 爬虫抓下来的数据能干嘛?
  -1. 数据采集数据数据工程的第一环,数据可以用于后续的数据分析、数据挖掘、机器学习
  -2. 数据也可以出售;
  -3. 抓取各个网站的数据,用于自己的网站,提供用户流量;
  -4. 抓取友商数据,及时调整自己产品信息
  -5. PPT创业,吹牛融资,需要数据支持。


4. 为什么Python做爬虫更多?
  PHP、Java、C、Python

  PHP 并发能力弱
  Java 编写和重构成本高
  C/C++ 学习成本高
  Python 开发效率高、工具便捷、 HTTP请求处理库和HTTP响应处理库非常多,
          强大的爬虫框架 Scrapy,以及高效成熟的分布式组件 scrapy-redis

  Python 动态、强类型、解释型语言

  动态:数据类型在执行时确定
  静态:数据类型在执行前确定

  强类型: 不同类型的不能做计算(Python)
  弱类型: 不同类型可以做计算(JavaScript)

  解释型语言: 每次执行代码,需要重新用解释器执行一遍。
  编译型语言: 执行前可以通过编译器生成可执
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值