
Hadoop
文章平均质量分 70
就想叫筷子
这个作者很懒,什么都没留下…
展开
-
Hive配置Oracle作为元数据库
oracle驱动包下载https://www.oracle.com/technetwork/apps-tech/jdbc-112010-090769.html配置$HIVE_HOME/conf/hive_site.xml(需要自己创建)configuration> <property> <name>javax.j...原创 2018-12-16 12:12:48 · 2373 阅读 · 0 评论 -
dfs.datanode.data.dir(2.x)/dfs.data.dir(1.x)的作用
从官网找到这么一段Determines where on the local filesystem an DFS data node should store its blocks. If this is a comma-delimited list of directories, then data will be stored in all named directories, t...原创 2019-01-29 18:16:40 · 1048 阅读 · 0 评论 -
TaskTracker/ApplacationMaster在配置有多个 mapred.local.dir/yarn.nodemanager.local-dirs时的选择策略
Task 在运行的过程中中间结果是需要写本地文件 系 统 的,hadoop中就有配置选项 mapred.local.dir(1.X)/yarn.nodemanager.local-dirs (2.X)来配置这个本地文件的写入点,可以有多个写入点,通常如果每个slave上有多个磁 盘 ,分别挂载在 /disk{1..3} 的话,就可以将之配置为:<property> <na...原创 2019-01-29 18:08:42 · 611 阅读 · 4 评论 -
转载MapReduce: 提高MapReduce性能的七点建议
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没有什么...转载 2019-01-29 15:46:57 · 210 阅读 · 0 评论 -
转载:HDFS参数配置
配置项 优化原理 推荐值 dfs.namenode.handler.count NameNode中用于处理RPC调用的线程数,默认为10。对于较大的集群和配置较好的服务器,可适当增加这个数值来提升NameNode RPC服务的并发度。 64 dfs.datanod...转载 2019-01-29 08:54:29 · 677 阅读 · 0 评论 -
关于org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z问题的解决
运行MR程序的时候出现这个异常Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 解决方案将类 org.apache.hadoop.io.nativeio.Nati...原创 2019-01-16 19:33:15 · 579 阅读 · 0 评论 -
Hadoop 两种环境下的checkpoint机制
1 伪分布式环境hadoop伪分布式checkpoint机制2 HA环境checkpoint机制配置了HA的HDFS中,有active和standby namenode两个namenode节点。他们的内存中保存了一样的集群元数据信息,因为standby namenode已经将集群状态存储在内存中了,所以创建检查点checkpoint的过程只需要从内存中生成新的fsimage。详细过程如...转载 2019-01-16 08:57:44 · 1243 阅读 · 0 评论 -
Mapper读取多行的思路
map方法默认是一行一行读取文件数据,如果想要改写成一次读多行,自定义思路如下TextInputFormat–》LineRecordReader–》SplitLineReader–》LineReader 转自:https://blog.youkuaiyun.com/tanggao1314/article/details/51307642...转载 2019-01-17 11:47:12 · 591 阅读 · 0 评论 -
Mapper的四个方法
(1) protected void setup(Context context)一般用来加载一些初始化的工作,每个job执行一次protected void setup(Context context) throws IOException,InterruptedException { blacklist=new TreeSet<String>();...原创 2019-01-17 10:40:54 · 2585 阅读 · 0 评论 -
MapReduce作业提交过程
通过提交jar包,进行MapReduce处理,那么整个运行过程分为五个环节: 1、向client端提交MapReduce job. 2、随后yarn的ResourceManager进行资源的分配. 3、由NodeManager进行加载与监控containers. 4、通过applicationMaster与ResourceManager进行资源的申请及状态的交互,由Node...转载 2019-01-17 09:57:08 · 1288 阅读 · 0 评论 -
用crontab设置hive脚本的自动执行及shell 127返回码的解决
测试用crontab设置一段hive ETL脚本的自动执行,期间遇到了一个问题设置好的脚本01.sh在命令行模式下 ./01.sh 可以执行,但是配置到crontab中就返回127码,hive后的任何命令都不执行查看了其他网友贡献的解决方案,终于搞定。解释一下127码:127码代表未找到命令,0代表成功执行。所以我这里返回127说明crontab在执行01.sh时找不到hive...原创 2018-12-30 18:22:06 · 1605 阅读 · 0 评论 -
查看mapreduce程序每个 map task 或者 reduce task 执行时间
以hadoop2.7.5为例有一个mapreduce.jobhistory.webapp.address参数,这个参数配置在 mapred-site.xml文件中<property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop02:19888</va...原创 2019-02-21 08:35:36 · 3624 阅读 · 0 评论