数据工程:
数据采集 和 数据存储(爬虫系统)
数据计算、分析 和 数据可视化(数据分析)
数据建模 和 数据训练(数据挖掘、机器学习)
1. 什么是爬虫?
抓取网页数据的程序。
2. 爬虫是怎么抓取网页数据?
网页三大特征:
-1. 网页都有自己的URL(统一资源定位符)来进行互联网定位;
-2. 网页都使用 HTML(超文本标记语言)来描述页面信息;
-3. 网页都使用HTTP/HTTPS(超文本传输协议)来传输 HTML 数据。
爬虫的标准设计流程:
-1. 通过网页的URL地址,发送 HTTP 请求给网站服务器;
-2. 网站服务器接收请求,返回对应的HTTP响应;
-3. 接收响应,解析响应数据:
a. 如果是需要保存的目标数据,使用相关工具保存(txt、json、xml、csv、mongodb、mysql、redis)
b. 如果是需要继续抓取的 URL 地址,则从第二步继续执行。
-4 当所有需要抓取的URL地址全部爬取完毕,程序结束。
3. 爬虫抓下来的数据能干嘛?
-1. 数据采集数据数据工程的第一环,数据可以用于后续的数据分析、数据挖掘、机器学习
-2. 数据也可以出售;
-3. 抓取各个网站的数据,用于自己的网站,提供用户流量;
-4. 抓取友商数据,及时调整自己产品信息
-5. PPT创业,吹牛融资,需要数据支持。
4. 为什么Python做爬虫更多?
PHP、Java、C、Python
PHP 并发能力弱
Java 编写和重构成本高
C/C++ 学习成本高
Python 开发效率高、工具便捷、 HTTP请求处理库和HTTP响应处理库非常多,
强大的爬虫框架 Scrapy,以及高效成熟的分布式组件 scrapy-redis
Python 动态、强类型、解释型语言
动态:数据类型在执行时确定
静态:数据类型在执行前确定
强类型: 不同类型的不能做计算(Python)
弱类型: 不同类型可以做计算(JavaScript)
解释型语言: 每次执行代码,需要重新用解释器执行一遍。
编译型语言: 执行前可以通过编译器生成可执
爬虫简介
最新推荐文章于 2021-07-03 22:41:08 发布