- 博客(10)
- 收藏
- 关注
原创 Flink
Apache Flink是2014年12月份诞生的一个流计算引擎,是一个用于在无界和有界数据流上进行有状态计算的框架和分布式处理引擎。Flink被设计成在所有常见的集群环境中运行,以内存速度和任何规模执行计算。
2021-07-25 16:20:44
581
原创 Spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
2021-07-25 15:55:21
618
原创 HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”
2021-07-10 16:04:45
550
1
原创 Sqoop
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导到Hadoop的HDFS中,也可以将HDFS的数据导到关系型数据库中。
2021-06-27 16:34:06
116
原创 Apache Hive
hive是一个基于大数据技术的数据仓库(DataWareHouse)技术,主要是通过将用户书写的SQL语句翻译成MapReduce代码,然后发布任务给MR框架执行,完成SQL 到 MapReduce的转换。可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
2021-06-27 16:05:49
1333
1
原创 MapReduce
MapReduce是hadoop体系下的一种计算模型(计算框架|编程框架),分布式计算框架。主要是用来通过代码,对存储在hdfs上的数据进行读取、统计,分析
2021-06-27 15:33:54
466
原创 HDFS文件系统
HDFS(Hadoop分布式文件系统)全称:Hadoop Distributed File System 说明:HDFS技术属于Hadoop内的一个子技术。作用:解决海量数据存储问题---分布式文件系统(多台计算机存储),突破单体服务器的存储能力。
2021-06-27 14:44:16
1721
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人