
大数据
文章平均质量分 95
大数据框架
懒猫gg
我很懒!
展开
-
数据湖-hudi概述
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。原创 2022-10-12 15:37:02 · 25250 阅读 · 2 评论 -
Flink概述
批,流一体消息。一致性的保证原创 2022-09-11 15:19:46 · 745 阅读 · 0 评论 -
Spark概述
MR计算模型已经可以满足所有的计算需求了。但其对于一些复杂的计算要经过多个Map或者reduce, 中间步骤读写HDFS。而这些中间数据是不被用户关心的,spark提出RDD计算模型, 不同于MR的是中间输出结果可以保存在内存中。...原创 2022-05-31 18:03:11 · 454 阅读 · 0 评论 -
Hive概述
Hive原创 2022-05-18 16:42:33 · 382 阅读 · 0 评论 -
Hbase概述
HBase是一个分布式、可扩展、支持海量数据存储的NoSQL数据库。底层物理存储是以Key-Value的数据格式存储的,HBase中的所有数据文件(默认)都存储在Hadoop HDFS文件系统上。原创 2022-05-14 21:56:08 · 1478 阅读 · 0 评论 -
赫拉(hera)分布式任务调度系统
hive脚本调度系统原创 2019-05-22 09:44:52 · 3547 阅读 · 0 评论 -
hadoop yarn调度平台
YARN 是 Hadoop 资源管理器。负责协调任务作业的服务器资源。使任务有序对资源进行利用。除了支持原生 MapReduce任务,他还提供了Spark等任务接入的入口。原创 2022-05-08 22:50:23 · 1159 阅读 · 0 评论 -
MapReduce概述
分布式计算引挚MR原创 2022-04-30 23:17:41 · 1053 阅读 · 0 评论 -
Hadoop HDFS概述
在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。原创 2022-04-26 18:50:33 · 1741 阅读 · 0 评论 -
clickhouse概述
随着数据科技的进步,数据分析师早已不再满足于传统的T+1式报表或需要提前设置好维度与指标的OLAP查询。数据分析师更希望使用可以支持任意指标、任意维度并秒级给出反馈的大数据Ad-hoc查询系统。这对大数据技术来说是一项非常大的挑战,传统的大数据查询引擎根本无法做到这一点。由俄罗斯的Yandex公司开源的ClickHouse脱颖而出。在第一届易观OLAP大赛中,在用户行为分析转化漏斗场景里,ClickHouse比Spark快了近10倍。原创 2022-03-28 20:15:32 · 3466 阅读 · 1 评论