大数据框架、概念等 简短总结 (持续总结中)

该博客介绍了大数据技术相关内容,包括数据仓库、HDFS、HBase、Hive、Spark等,阐述了各技术特点,如HDFS适合批处理,HBase用于分布式文件系统动态查询等。还提及Kubernetes、容器文件存储格式,最后介绍了微服务架构,它是松耦合、高度自治的分布式架构。

数据仓库 

更关注数据分析层面(OLAP)

一次写入、多次读取

HDFS 分布式文件系统

HDFS适合批处理场景,不支持数据随机查找,不适合增量数据处理且不支持数据更新

Habse

分布式文件系统的动态查询,HDFS的随机读写操作

HBase并不适合传统的事物处理程序或关联分析,不支持复杂查询

Hive

分布式文件系统的类SQL 查询

Hive不是为在线事务处理而设计

Spark

分布式计算框架,微批量数据的处理

RDD  弹性分布式数据集

主要在于 弹性、 和 分布式 两个特点

Kafka

高吞吐的消息队列、系统间的解耦

ElasticSearch

1、先做事情   建立索引(倒排索引)

2、少做事情   域中检索

Apsche Yarn

Apache  Mesos

Mesos是Apache下的开源布式资源管理框架,它被称为是分布式系统的内核

Kubernetes 

容器文件

1、可分割、2、可压缩、3、可序列化、4、可传输

Patquet  列式存储

保存时,预读功能,统计信息

读取时,可以根据统计信息做Push Down

ORC FILE  优化的列式存储

AVRO  行式存储

 

大数据技术相关的个人讲义

https://github.com/tianyeshiye/MyCourse

 

 

微服务架构

微服务是一种服务间松耦合的、每个服务之间高度自治并且使用轻量级协议进行通信的可持续集成部署的分布式架构体系

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值