
hadoop
齐梦星空
专注
展开
-
在idea上搭建hadoop2.2.0源码阅读环境
获取解压源码,并建立idea项目修改hadoop-annotations子项目的jdk依赖版本。先简单编译一下,发现产生如下错误:原因是hadoop-annotations项目的jdk版本和本机不匹配.结局方法如下:解决org.apache.hadoop:hadoop-maven-plugins插件编译问题将上一步修改后的文件再编译一次,出现如下提示:解决方案:先通过mvn...原创 2020-04-17 10:56:16 · 396 阅读 · 0 评论 -
以hadoop 1.0.0版本分析hadoop是如何提交任务的
脚本分析hadoop的bin目录如下:当调用 hadoop jar XXX.jar 命令后。hadoop脚本对应的是如下内容:由此可知,hadoop 是通过org.apache.hadoop.util.RunJar类开始任务的RunJar类分析概览RunJar类是个含有main函数的启动类,包含两个静态方法:分析main函数: public static void main...原创 2020-02-29 09:37:30 · 269 阅读 · 0 评论 -
hadoop多余数据块删除
HDFS冗余数据块的自动删除在日常维护hadoop集群的过程中发现这样一种情况:某个节点由于网络故障或者DataNode进程死亡,被NameNode判定为死亡,HDFS马上自动开始数据块的容错拷贝;当该节点重新添加到集群中时,由于该节点上的数据其实并没有损坏,所以造成了HDFS上某些block的备份数超过了设定的备份数。通过观察发现,这些多余的数据块经过很长的一段时间才会被完全删除掉,...原创 2018-11-05 11:26:36 · 2559 阅读 · 0 评论 -
hadoop的ha机制状态管理
初始命令$ hdfs haadminUsage: DFSHAAdmin [-ns <nameserviceId>] [-transitionToActive <serviceId> [--forceactive]] [-transitionToStandby <serviceId>] [-failover [--forcefence...原创 2018-11-13 11:37:14 · 703 阅读 · 1 评论 -
hive的使用
创建表格create table tab_ip_seq(id int,name string,ip string,country string) row format delimited //行切分fields terminated by ',' //字段切分stored as sequencefile;//array create table tab_array(a array...原创 2018-11-13 14:38:51 · 181 阅读 · 0 评论 -
java.lang.SecurityException: class "javax.servlet.FilterRegistration"'s signer information does not
使用sbt+scala编写spark程序单机运行时出现java.lang.SecurityException: class &quot;javax.servlet.FilterRegistration&quot;'s signer information does not match signer information of other classes in the same package解决方法在sbt...原创 2018-12-23 09:28:40 · 768 阅读 · 0 评论 -
HDFS命令
合并文件hdfs dfs -getmerge /user/hejl/static/part* ./all查看文件夹大小 hdfs dfs -du -h -s /user/chenmq/section_exception_mmsi原创 2019-01-18 15:15:39 · 133 阅读 · 0 评论 -
hdfs的权限问题
以 hdfs 身份执行hdfs命令 sudo -u hdfs hadoop fs -chmod 777 /user原创 2019-06-18 11:19:47 · 4522 阅读 · 0 评论 -
hadoop系列之Configuration类解析
前言Configuration是hadoop中五大组件的公用类,所以放在了core下,org.apache.hadoop.conf.Configruration。这个类是作业的配置信息类,任何作用的配置信息必须通过Configuration传递,因为通过Configuration可以实现在多个mapper和多个reducer任务之间共享信息。hadoop作为Apache旗下hadoop系列最早出...原创 2019-09-07 11:41:45 · 1312 阅读 · 0 评论 -
hadoop系列之hadoop脚本解析与远程连接
文章目录环境hadoop脚本解析1. 获取hadoop脚本所在路径2. 加载hadoop-config.sh3.没搞明白4.指定CLASSPATH5.添加核心依赖6. 日志配置7. 为不同命令指定不同的类,和java运行配置8 执行java程序远程调试环境hadoop :1.0.0java :1.8.0_171hadoop脚本解析接下来所讲的hadoop脚本是指的文件$HADOOP_...原创 2019-09-07 22:20:51 · 722 阅读 · 0 评论 -
hadoop系列之使用jar命令提交任务
文章目录环境启动haoop,并配置远程调试代码解析runJar自定义mapreduce程序环境hadoop :1.0.0java :1.8.0_171启动haoop,并配置远程调试指定远程调试监听端口8888export HADOOP_CLIENT_OPTS="-agentlib:jdwp=transport=dt_socket,address=8888,server=y,su...原创 2019-09-08 12:58:29 · 2989 阅读 · 0 评论 -
hadoop系列之JobTracker启动源码解析
文章目录本文是接着上一篇hadoop系列之使用jar命令提交任务在上一篇我们最后画了一张图:我们再jobClient调用init()函数的时候通过RPC获得了一个Jobtracker实例。然后在job调用submitJobInternal()的时候又调用了jobtracker的submitJob().接下来我们从submitJob()函数讲解jobtracker....原创 2019-09-09 15:43:17 · 434 阅读 · 0 评论 -
hadoop的datanode节点崩溃响应时间配置
hadoop datanode节点超时时间设置datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为:timeout = 2 * heartbeat.recheck.interv...原创 2018-11-05 11:22:57 · 525 阅读 · 0 评论 -
无密登录
1.生成密钥对ssh-keygen -t rsa2.给机器权限ssh-copy-id hadoop101原创 2018-11-05 10:00:37 · 316 阅读 · 0 评论 -
hadoop高可用机制配置
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将编译好的...原创 2018-11-02 13:58:40 · 260 阅读 · 0 评论 -
hadoop学习环境搭建
安装 jdkhttp://blog.youkuaiyun.com/fuyuwei2015/article/details/731959361. 卸载查看已经安装的jdk[root@bogon jre]# rpm -qa|grep jdkjava-1.8.0-openjdk-headless-1.8.0.65-3.b17.el7.x86_64java-1.7.0-openjdk-1.7.0....转载 2018-08-24 10:43:35 · 155 阅读 · 0 评论 -
hadoop的namenode数据管理机制
1.客户端请求向服务器上传数据,发送信息给namenode,namenode将本次操作的内容记录在edits log文件内2.然后客户端开始上传数据,数据上传成功后向namenode发送完成信息,然后namenode在内存中写入本次上传的元数据3.同步内存的数据到fsimage文件中,同步时机在edits log满之前,刷新方式是将edits log和fsimage合并edit log满...原创 2018-10-18 08:11:20 · 291 阅读 · 0 评论 -
hadoop的datanode数据管理机制
数据块的默认大小是128M.可以在dfs.block.size里配置块大小可以配置副本数dfs.replication文件块地址追加操作:cat tailfile &gt;&gt; headfile原创 2018-10-18 08:38:25 · 412 阅读 · 1 评论 -
hadoop之java接口常见问题
1.Wrong FS: hdfs://192.168.117.101:9000/JAVA_learing.jar, expected: file:/// Path path = new Path(str); Configuration conf = new Configuration(); FileSystem fs = FileSystem.get...原创 2018-10-18 10:11:30 · 372 阅读 · 0 评论 -
hadoop指令集合
查看远程问价列表hadoop fs -ls hdfs:/192.168.117.101:9000/创建文件目录hadoop fs -mkdir hdfs://192.168.117.101:9000/book从本地拷贝文件到远程hadoop fs -copyFromLocal JAVA_learing.jar hdfs://192.168.117.101:9000///...原创 2018-10-15 09:58:58 · 171 阅读 · 0 评论 -
hadoop的job分发机制
hadoop的jar包主程序运行到job.waitForCompletion(true);向resourcemanger申请一个job任务resourcemanger返回job相关资源的路径(staging-dir,位于hdfs的temp中,存)和jobid给主程序主程序将资源(jar包等)提交到staging-dir,然后向resourcemanger汇报提交成功resourceman...原创 2018-10-19 09:04:49 · 601 阅读 · 0 评论 -
hadoop文件写入原理
客户端写文件进入hdfs中时,每个文件块只写一遍,然后其他datanode节点从初始节点复制原创 2018-10-16 17:52:47 · 497 阅读 · 0 评论 -
Java开发hadoop程序配置
window运行hadoop程序权限配置修改VM参数,添加-DHADOOP_USER_NAME=NAME原创 2018-10-10 21:30:05 · 1266 阅读 · 0 评论 -
hadoop用java API实现mapreduce示例
自定义数据类型beanpackage org.hadoop.total;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/* * FlowBean要在节点传输,要符合hadoop的序列号机制,实现Wri...原创 2018-10-24 14:59:46 · 2333 阅读 · 0 评论 -
hadoop用java API实现mapreduce排序
mapreduce排序依靠的是key键,所以要在输出的key对应的类实现compareTo()方法#key对应的类package org.hadoop.sort;import org.apache.hadoop.io.Writable;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;im...原创 2018-10-24 16:15:06 · 761 阅读 · 0 评论 -
hadoop之rookeeper搭建
1.上传并解压zookeepermkdir zookeepertar -zxvf zookeeper-3.4.10.tar.gz -C zookeeper2.编辑/home/chen/app/zookeeper-3.4.10/conf/zoo.pfg文件(把样例复制一遍,重命名)tickTime=2000 //多长时间一个心跳initLimit=10//启动的时间限制,用心跳数衡量...原创 2018-11-01 18:04:17 · 167 阅读 · 0 评论 -
hadoop之zookeeper安装
1.上传安装包并解压tar -zxvf zookeeper.jar -C app2.修改配置文件/home/chen/app/zookeeper-3.4.10/conf/zoo.cfg# The number of tLimit=10syncLimit=5dataDir=/tmp/zookeepermilliseconds of each ticktickTime=2000 //心跳节...原创 2018-11-02 08:03:26 · 238 阅读 · 0 评论 -
hadoop状态检查
状态地址namenode的50070端口,如:192.168.117.101:50070上传文件hadoop fs -put filename hdfs://192.168.117.101:9000/下载文件hadoop fs -get hdfs:/192.168.117.101:9000/filename...原创 2018-08-27 15:34:26 · 1770 阅读 · 0 评论