大数据

大数据的定义

1. 大数据是一门以Hadoop为代表的开源大数据平台框架上进行各种数据分析的技术。

2. 具体说,大数据平台基础框架包括了Hadoop和Spark为代表的基础大数据框架。

3. 具体说,各种数据分析技术包括实事数据处理技术、离线处理技术;数据分析、数据挖掘和用机器算法进行预测分析等技术。

理论知识
1、大数据的相关概念及行业生态
2、Hadoop的基础原理及其架构

应用知识
实战:HDFS实际操作(通过shell命令/Python程序)
实战:MapReduce程序开发实例

课程目标
1、掌握Hadoop框架的基础原理及使用方式
2、掌握基于Hadoop框架进行数据处理与分析的应用程序的开发

预备知识
1、Linux常用命令
2、有一定的Python或者的程序基础
3、对Hadoop有一定的了解,可以搭建自己的测试环境

Hadoop是什么?
1、Hadoop是一个开源的大数据框架
2、Hadoop是一个分布式计算的解决方案
3、Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算)

Hadoop核心
1、HDFS分布式文件系统:存储是大数据技术的基础
2、MapReduce编程模型:分布式计算是大数据应用的解决方案

举例
1、从一个100M文件中过滤出含有Hadoop字符串的行
解决方案一:Linux grep命令
解决方案二:编写Java/Python程序
2、从一个100T/100P的文件中过滤出含有Hadoop字符串的行?

HDFS总结:
1、普通的成百上千的机器
2、按TB甚至PB为单位的大量的数据
3、简单便捷的文件获取

Hadoop基础架构:
HDFS概念(数据块、NameNode、DataNode)
数据块:数据块是抽象块而非整个文件作为存储单元,默认大小为64M
一般设置为128M,备份X3
(存储10M文件使用一个数据块,存储300M文件使用3个数据块)
NameNode(主):1、管理文件系统的命名空间,存放文件元数据;
2、维护着文件系统的所有文件和目录,文件与数据块的映射
3、记录每个文件中各个块所在数据节点的信息
DataNode(从):1、存储并检索数据块
2、向NameNode更新所存储块的列表

HDFS优点:
1、适合大文件存储,支持TB、PB级的数据存储,并有副本策略
2、可以构建在廉价的机器上,并有一定的容错和恢复机制
3、支持流式数据访问,一次写入,多次读取最高效。

HDFS缺点:
1、不适合大量小文件存储
2、不适合并发写入,不支持文件随机修改
3、不支持随机读等低延迟的访问方式

转载于:https://www.cnblogs.com/arrowchen/p/9135705.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值