
图解大数据技术
文章平均质量分 94
图解大数据相关的技术,比如Hadoop、Hive、HBase、Spark、Flink等。适合不了解大数据或对大数据方面的知识了解不多的小伙伴学习和入门,当然也适合熟悉大数据相关技术的老司机复习。
黄俊懿
放下期待、不抱希望地努力,踏踏实实,能走多远是多远。
展开
-
【图解大数据技术】流式计算:Spark Streaming、Flink
Flink 和 Spark Streaming 不一样,Flink 一开始设计就是为了做实时流式计算的。它可以监听消息队列获取数据流,也可以用于计算存储在 HDFS 等存储系统上的数据(Flink 把 这些静态数据当做数据流来进行处理)。然后 Flink 计算后生成的结果流,也可以发送到其他存储系统。原创 2024-07-13 10:06:08 · 1557 阅读 · 0 评论 -
【图解大数据技术】Spark
Spark与MapReduce一样,也是大数据计算框架。Spark相比MapReduce拥有更快的执行速度和更低的编程复杂度。Spark Core:封装了Spark的基本功能,比如RDD、任务调度等。Spark SQL:Spark SQL可以处理结构化数据,当我们遇到结构化数据的计算时,可以使用Spark SQL,它允许我们把数据集映射为表结构,然后像操作关系型数据库的库表一样操作Spark SQL的表。原创 2024-07-13 10:04:03 · 1210 阅读 · 0 评论 -
【图解大数据技术】Flume、Kafka、Sqoop
Flume是一个数据采集工具,多用于大数据技术架构下的日志采集。Flume的特点是高可靠,高可用,分布式,海里数据采集传输。Agent:一个Agent就是一个JVM进行,Agent中主要由Source、Channel、Sink三部分组成。Source:Source主要负责收集外部的数据到Agent中,以Event的形式存入Channel。Sink:Sink负责从Channel中批量删除Event并把它们写入指定的外部存储。原创 2024-07-06 18:15:16 · 1495 阅读 · 2 评论 -
【图解大数据技术】Hive、HBase
HBase是一个用于存储海量非结构化或半结构化数据的列示存储数据库,支持高性能写入,准实时查询。HBase底层基于HDFS实现了PB级别的海量数据存储。通过缓存和预写日志技术实现了高性能写入和低延迟查询。通过Zookeeper的监控通知HMaster故障转移实现了高可靠性。通HMaster接收RegionServer注册以及HMaster的RegionServer集群负载均衡能力实现高扩展性。原创 2024-06-29 21:41:43 · 1910 阅读 · 0 评论 -
【图解大数据技术】Hadoop、HDFS、MapReduce、Yarn
MapReduce是一个分布式离线计算框架,专门用于处理大数据场景中与实时性无关的一些离线计算任务。MapReduce的数据输入一般是HDFS,然后经过InputFormat进行输入格式化,变成格式;然后执行用户实现的Mapper类型的map方法,进行数据映射,映射处理的结果也是格式;然后执行一个shuffle过程,对映射结果进行按key进行分组分区,把同一区域的所有KV发送到同一个Reducer,由一个节点进行;Reducer对同一个key分组下的所有value进行聚合操作;原创 2024-06-29 21:38:35 · 2583 阅读 · 0 评论