
hadoop
geekLinyi
这个作者很懒,什么都没留下…
展开
-
Hadoop基础
1. Hadoophadoop是一个分布式的、开源的、高可靠的、可扩展的软件框架。分布式: 【GFS(存储),MapReduce(计算)两篇论文】【bigtable(大表)】hadoop组成【2.7.3版本】Hadoop CommonHadoop Distributed Files System(HDFS)【默认端口号:8020(1.0则是9000)】【外部...原创 2019-09-08 21:06:36 · 680 阅读 · 0 评论 -
分布式并行计算框架:数据在哪,计算在哪
分布式并行计算框架:数据在哪,计算就在哪【主要是map输入<k1,v1>,map的输出或reduce的输入<k2,v2>,reduce输出<k3,v3>分别代表什么,弄懂其中关系就容易了】【k1:表示字节数索引,v1:表示该行的值】【k2:表示map的context.write(key,value)的key值,v2:表示value值】【k3:表示以key...原创 2019-09-29 22:16:03 · 485 阅读 · 0 评论 -
认识wordcount(一)
认识wordcount(一)0. 执行前准备0.1 拷贝Hadoop二进制包中的可执行Jar包将Hadoop二进制包中的可执行Jar包拷贝到工程下新建的lib文件夹,将他们都右键【build path】->【Add to build path】0.2 设置日志配置文件将Hadoop二进制包中的hadoop-2.7.3\etc\hadoop\log4j.properties文...原创 2019-09-29 22:17:28 · 237 阅读 · 0 评论 -
认识wordcount(二)
认识wordcount(二)0. 执行前准备0.1 配置好的完全分布式环境(如果遇到权限问题,给777)高可用环境会有两个master节点,会报错,暂时没去找解决方案!但是可以在src下的配置文件配置,或者在程序中指定一个master,破坏高可用的两个master情况,但是不会变更整个集群环境,说起来就是暂时配置的一个环境。(修改【fs.defaultFS】【yarn.resourcem...原创 2019-09-29 22:17:53 · 163 阅读 · 0 评论 -
认识wordcount(三)
认识wordcount(三)0. 执行前准备0.1 配置好的完全分布式环境高可用环境会有两个master节点,会报错,暂时没去找解决方案!但是可以在src下的配置文件配置,或者在程序中指定一个master,破坏高可用的两个master情况,但是不会变更整个集群环境,说起来就是暂时配置的一个环境。(修改【fs.defaultFS】【yarn.resourcemanager.hostname...原创 2019-09-29 22:18:27 · 149 阅读 · 0 评论 -
Mapper分析
Mapper分析public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> { public abstract class Context implements MapContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT> { } protected void setup(Conte...原创 2019-09-29 22:20:19 · 672 阅读 · 0 评论 -
天气数据案例分析
天气数据案例分析求每年的最高温度示例数据:0029029070999991901010106004+64333+023450FM-12+000599999V0202701N015919999999N0000001N9-00781+99999102001ADDGF1089919999999999999999991. 分析数据15-19位为年分数据87-91为气温数据92为校验...原创 2019-09-29 22:20:53 · 3014 阅读 · 0 评论 -
partition分区
partition分区分区数决定了reducer数,业务数决定分区数默认情况下,job设置的reduceTasks为1,每个reduce对应生成一个结果文件reduce个数分为几种情况:ReduceTasks:0【无reduce阶段】ReduceTasks:1【默认】ReduceTasks:n【分多个文件】partition分区函数采用【org.apache...原创 2019-09-29 22:21:27 · 215 阅读 · 0 评论 -
设定ReducerTask个数
设定ReducerTask个数设定ReducerTask个数,使用默认的HashPartitioner分区,对数据进行分区操作,提供给不同的Reducer处理【在源码中将定义的ReducerTask数提交给Partitioner,因此是Reducer数决定了Partition分区数】【Reducer输出从part-r-00000开始连续的】1. 测试数据import java.io.Bu...原创 2019-09-29 22:21:59 · 477 阅读 · 0 评论 -
自定义InputFormat输入格式
自定义InputFormat输入格式<通过自定义InputFormat输入格式求文件中的奇数行和偶数行的平均数>0. 示例数据22183446192456553341491. 思路:将默认的<k1,v1>(偏移量,行值) --> <k1,v1> (行号,行值)1.1 重写TextInputFormat类1.1.1...原创 2019-09-29 22:22:35 · 758 阅读 · 0 评论 -
shuffle流程
shuffle流程The Reducer copies the sorted output from each Mapper using HTTP across the network.【Reducer通过网络使用http协议,从每个mapper复制排序后的输出】shuffle流程Map()函数Buffer(环形缓冲区)Partition(分区)Sort(排序)Spill ...原创 2019-09-29 22:23:09 · 273 阅读 · 0 评论 -
通过HDFS FileSystem API 对 HDFS 进行操作
通过HDFS FileSystem API 对 HDFS 进行操作windows下安装eclipse-hadoop插件将hadoop-eclipse-plugin-2.6.0.jar复制到eclipse安装目录下的plugins文件夹中。将hadoop.dll和winutils.exe复制到Windows的hadoop安装目录的bin文件夹下Windows解压hadoop2.7.3配...原创 2019-09-29 22:15:00 · 430 阅读 · 0 评论 -
HDFS体系结构(各种进程状态)
HDFS体系结构(各种进程状态)NameNode【名称节点】开启方式(关闭方式):hdfs namenode(关闭Terminal)hadoop-daemon.sh start namenode(hadoop-daemon.sh stop namenode或杀死进程)start-dfs.sh(stop-dfs.sh或杀死进程)namenode默认大小...原创 2019-09-29 22:14:15 · 1058 阅读 · 0 评论 -
HDFS命令详解
HDFS dfsadmin 命令详解-report:获取集群报表信息【心跳机制汇报的就是report信息】[hadoop@master ~]$ ·hdfs dfsadmin -report·Configured Capacity: 55935541248 (52.09 GB)Present Capacity: 39769579520 (37.04 GB)DFS Remaining:...原创 2019-09-29 22:12:19 · 386 阅读 · 0 评论 -
Hadoop Pseudo-Distributed Mode:【伪分布模式】搭建
2. Hadoop Pseudo-Distributed Mode:【伪分布模式】搭建基于CentOS_64_6.8、jdk1.8、Hadoop2.7.3[hadoop伪分布模式运行在单节点上,每个hadoop守护进程占用单独的Java进程]设定CentOS的用户名为hadoop自定义的集群软件安装位置:在/home/hadoop下创建一个soft目录文章目录2. Hadoop Ps...原创 2019-09-08 21:08:56 · 1612 阅读 · 0 评论 -
namenode和datanode启动问题
namenode和datanode启动问题当namenode启动datanode宕掉,或者datanode启动namenode宕掉时,考虑clusterID出现了不一致情况使用hdfs namenode开启namenode节点,查看错误日志,对于所有的节点启动异常就去找日志。HDFS中的守护进程启动异常就使用hdfs command来查看日志,或者到对应的节点的/home/hadoop/sof...原创 2019-09-08 21:15:47 · 1359 阅读 · 0 评论 -
伪分布基础上,搭建完全分布式
伪分布基础上,搭建完全分布式安装jdk拷贝并解压创建软链接安装hadoop拷贝并解压创建软链接配置环境变量配置jdk环境变量配置hadoop环境变量设置无密登录主节点设置无密登录,将公钥库保存给其他节点,就可以通过ssh 其他机器名远程登录其他机器节点创建密钥创建公钥库设置hadoop配置文件修改core-site.xml修改h...原创 2019-09-08 21:18:02 · 387 阅读 · 0 评论 -
CentOS6.8虚拟机搭建完全分布式
虚拟机搭建完全分布式文章目录虚拟机搭建完全分布式1. 主节点配置1.1 安装系统环境1.2 设置静态IP1.2.1 查看子网IP【VMWare15】1.2.2 查看MAC地址是否与eth0匹配1.2.3 root用户下修改【/etc/sysconfig/network-scripts/ifcfg-eth0】1.2.4 重启网络服务1.2.5 设置windows主机中的虚拟网卡VMnet81.2....原创 2019-09-08 21:36:32 · 1433 阅读 · 0 评论 -
多次初始化namenode产生的异常
namenode与datanode初次初始化name#Sun Sep 08 23:36:43 PDT 2019namespaceID=903658744clusterID=CID-77684598-9de2-4dfc-bab5-14e503c65dfecTime=0storageType=NAME_NODEblockpoolID=BP-1528666264-192.168.204...原创 2019-09-17 11:01:30 · 643 阅读 · 0 评论 -
伪分布基础上,搭建完全分布式
伪分布基础上,搭建完全分布式安装jdk拷贝并解压创建软链接安装hadoop拷贝并解压创建软链接配置环境变量配置jdk环境变量配置hadoop环境变量设置无密登录主节点设置无密登录,将公钥库保存给其他节点,就可以通过ssh 其他机器名远程登录其他机器节点创建密钥创建公钥库设置hadoop配置文件修改core-site.xml修改h...原创 2019-09-17 11:13:07 · 349 阅读 · 0 评论 -
从零搭建完全分布式
从零搭建完全分布式基于CentOS_64_6.8、jdk1.8、Hadoop2.7.3一台master节点,3台slave节点【以下所有windows配置都是为了在同一网络环境下,部署一个windows远程ssh连接集群做操作或测试使用】文章目录从零搭建完全分布式0.安装前准备(所有节点都做,IP地址、主机名不同)0.1 设置静态IP0.1.1 查看子网IP0.1.2 查看MAC地址是否与...原创 2019-09-17 11:15:09 · 351 阅读 · 0 评论 -
各种守护进程状态
各种守护进程状态文章目录各种守护进程状态1. 伪分布2. 完全分布式2.1 不开启yarn2.2 开启yarn(有MapReduce任务时才有MRAppMaster和YarnChild)3. 完全分布式(高可用)3.1 手动容灾3.1.1 不开yarn3.1.2 开启yarn3.2 Zookeeper自动容灾3.2.1 不开yarn3.2.2 开启yarn1. 伪分布master[h...原创 2019-09-17 11:16:02 · 921 阅读 · 0 评论 -
HDFS 启动顺序
HDFS 启动顺序Loading fsimage:加载镜像文件首次开启集群时,加载镜像文件:{hadoop.tmp.dir}/dfs/name/fsimage_0000000000000000000再次开启集群时,Loading fsimage /home/hadoop/tmp/dfs/name/current/fsimage_0000000000000000002Loading ...原创 2019-09-29 22:10:46 · 1108 阅读 · 0 评论 -
fsimage和edits_log
fsimage和edits_log分析1. 操作过程》》[hadoop@master ~]$ hdfs namenode -format》》[hadoop@master ~]$ start-dfs.sh Starting namenodes on [master]master: starting namenode, logging to /home/hadoop/soft/hadoop-...原创 2019-09-29 22:11:39 · 211 阅读 · 0 评论 -
combiner组合器
combiner组合器1. 作用:作用于Mapper端【但不能影响最终结果,max、sum行,avg不行】a.降低Mapper端的本地磁盘输出b.减少Reducer端的网络通信【在Map端做了一次Reduce操作】2. Temperature案例 【在Mapper后,开启Combiner,意味着在Reducer前执行了一次Reduce操作,可以降低Mapper端...原创 2019-09-29 22:23:42 · 269 阅读 · 0 评论