编程题:HDFS基本操作、Hive编程、spark编程
HDFS的基本操作 https://blog.youkuaiyun.com/a215012954/article/details/91448799
Hive的基本操作 https://blog.youkuaiyun.com/a215012954/article/details/91446210
spark的基本操作 https://blog.youkuaiyun.com/a215012954/article/details/91447191
大数据
- 大数据的特点:数据量大、数据类型繁多(结构化数据、半结构化数据、非结构化数据)、处理速度快和价值密度低.。
- 结构化数据主要是指存储在关系数据库中的数据;非结构化数据包括邮件、音频、视频、微信,微博,位置信息、链接信息、手机呼叫信息、网络日志等。
- 大数据和传统数据挖掘区别:①秒级响应②实时分析结果
- 批处理计算针对大规模数据的批量处理,也是我们日常数据分析工作中非常常见的一类数据处理需求。
- 流数据(或数据流)在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须采用实时计算的方式给出秒级响应。