
大数据
文章平均质量分 89
大数据
WWWDDD92
in amoy 搬砖ing...
展开
-
MapReduce
MapReduce介绍MapReduce是hadoop生态中的一个批量计算的框架,基于该框架,程序员能够容易地编写应用程序。这些应用程序能运行在分布式系统上,并以可靠的、具有容错能力的方式并行地处理TB级别的海量数据。MapReduce的思想核心是“分而治之”:map负责“分”,把复杂的任务分解成若干个简单的任务来并行处理。reduce负责“合”,对map阶段的结果进行汇总。MapReduce可以运行在yarn(Resource Manager、Node Manager)集群上,也支持在本地原创 2022-02-28 20:23:40 · 1759 阅读 · 0 评论 -
Apache Hadoop入门
Apache Hadoop Learning文章目录Apache Hadoop LearningHDFS简介概念交互流程示意图搭建shell命令学习MapReduce简介工作机制设计举个栗子????yarn简介设计执行流程hive简介概念架构执行流程远程模式搭建hive命令参考文献HDFS简介HDFS称为分布式文件系统(Hadoop Distributed Filesystem),有时也简称为DFS。我们可以用以下几个key描述HDFS:超大文件GB、TB甚至PB级别的数据。流式数据访问原创 2020-11-19 15:32:37 · 369 阅读 · 0 评论 -
avro
avro背景avro是hadoop中的一个子项目,是一个基于二进制数据传输高性能的中间件。avro支持本地和远程(RPC)调用。基于Http协议的avro远程调用,首先需要定义一个JSON文件作为双方通信的传输协议规范。特点丰富的数据结构紧凑、快速的二进制数据格式远程过程调用简单的动态语言集成avro vs jsonjson是一种轻量级的数据传输格式,但对于大数据集,json数据会显得力不从心。json的格式是key:value型,每条记录都需要附上key的名字,对空间浪费十分严重。原创 2020-11-19 14:34:02 · 414 阅读 · 0 评论