- 博客(6)
- 收藏
- 关注
原创 Flume自定义组件
1 自定义MysqlHdfsSourcepackage com.atguigu.custom;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.EventDeliveryException;import org.apache.flume.PollableSourc...
2020-03-15 20:36:36
234
原创 Hadoop生态系统之Hive
本文将从Hive的大方向上及Hive细节使用这两个方向来阐述:1、Hive是什么?hive在Hadoop生态系统中充当什么角色?为什么需要学习使用Hive2、如何使用Hive及代码演示一 宏观剖析1 Hive是个啥?摘自百度百科hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映...
2020-03-12 22:38:47
1551
原创 hadoop生态系统之MR详解
笔者将以第一人称视角向各位阐述MR,从两个大方向描述MR旨在将自己所学所会融进这套知识体系。1. 站在系统设计的角度讲讲MR在hadoop生态系统中上下游扮演的角色起到了什么作用及为什么需要MR2.技术性细节,MR的整个工作流程如有不到之处烦请指正一 宏观剖析1 MR是什么?MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生...
2020-03-12 21:40:34
3781
2
原创 HDFS常用Shell命令
本篇文章只是简单阐述一下HDFS中常用命令, 在实际开发中可使用 bin/hadoop fs查看命令详情使用HDFS基本语法: bin/hadoop fs OR bin/hdfs dfs 注:为帮助快速理解并使用本文中使用T表示target基本命令 1.启动hadoop集群 HDFS相关组件: sbin/start-dfs.sh YARN相关组件: sbin/start-ya...
2020-02-20 17:32:43
346
原创 HDFS客户端操作
1. HDFS客户端环境搭建1.1 安装hadoop1.安装对应的编译后的hadoop包到非中文路径下 1.1 这里简单阐述一下在搭建环境时为什么hadoop需要重新编译源码 答: hadoop是用java写的,但是某些操作不适合用java实现,所以用的是c/c++的动态库(本地库),所以需要根据不同的处理器架构,重新编译,他们以库的形式提供接口供上层调用。2.配置HADOOP_HOM...
2020-02-20 17:29:49
208
原创 Hadoop完全分布式集群搭建
1. 克隆虚拟机母机信息:**为了描述的过程能尽可能通俗易懂, 笔者将集群节点暂且命名为: slave1,slave2.slave3** linux版本: CentOs6.8 jdk版本: jdk1.8.0_144 hadoop版本: hadoop2.7.2 虚拟机母机Master配置: ① 防火墙关闭 ② 设置静态ip 注: 如何设置静态ip及如...
2020-02-20 17:16:14
297
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人