数据仓库
更关注数据分析层面(OLAP)
一次写入、多次读取
HDFS 分布式文件系统
HDFS适合批处理场景,不支持数据随机查找,不适合增量数据处理且不支持数据更新
Habse
分布式文件系统的动态查询,HDFS的随机读写操作
HBase并不适合传统的事物处理程序或关联分析,不支持复杂查询
Hive
分布式文件系统的类SQL 查询
Hive不是为在线事务处理而设计
Spark
分布式计算框架,微批量数据的处理
RDD 弹性分布式数据集
主要在于 弹性、 和 分布式 两个特点
Kafka
高吞吐的消息队列、系统间的解耦
ElasticSearch
1、先做事情 建立索引(倒排索引)
2、少做事情 域中检索
Apsche Yarn
Apache Mesos
Mesos是Apache下的开源布式资源管理框架,它被称为是分布式系统的内核
Kubernetes
容器文件
1、可分割、2、可压缩、3、可序列化、4、可传输
Patquet 列式存储
保存时,预读功能,统计信息
读取时,可以根据统计信息做Push Down
ORC FILE 优化的列式存储
?
AVRO 行式存储
?
大数据技术相关的个人讲义
https://github.com/tianyeshiye/MyCourse
微服务架构
微服务是一种服务间松耦合的、每个服务之间高度自治并且使用轻量级协议进行通信的可持续集成部署的分布式架构体系