hadoop学习
wuzhilon88
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mapreduce 控制map和reduce 运行数量
<property> <name>mapreduce.job.running.map.limit</name> <value>500</value> </property> <property> <name>mapreduce.job.running.reduce.limit</name> <value>...原创 2021-09-29 17:51:17 · 484 阅读 · 0 评论 -
设置hive 任务最大 map reduce 并行度
setmapreduce.job.running.map.limit=2000; setmapreduce.job.running.reduce.limit=500;原创 2021-04-26 12:19:32 · 1426 阅读 · 0 评论 -
Mapreduce 任务获取配置信息和counters 信息
获取用户MR 任务配置信息api http://xxxx:8080/proxy/application_1605539278152_9672465/ws/v1/mapreduce/jobs/job_1605539278152_9672465/conf 通过api 获取MRcounters http://xxx:8080/proxy/application_1605539278152_9624852/ws/v1/mapreduce/jobs/job_1605539278152_9624852/cou..原创 2021-03-31 20:45:19 · 526 阅读 · 0 评论 -
解决hiveserver2 执行SQL 出现: User: infosec is not allowed to impersonate infosec
Exception:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException):User:infosecisnotallowedtoimpersonateinfosec 解决方法: 1.删除hadoop-env.sh中HADOOP_USER_NAME的设置 2.创建用户infosec,sudosuinfosec之后再...原创 2020-09-01 15:12:10 · 671 阅读 · 0 评论 -
linux 替换特殊符号 \\ 处理方式
-i参数:在原始文件上修改 sed全文替换的标准用法: sed 's/oldString/newString/g' filename 但是有特殊字符时则失效,需要将‘/’替换成‘#’: sed 's#oldString#newString#g' filename 如:sed 's#_#\\_#g' ceshi.tex 连续替换多个特殊字符:‘_’, '^' sed -i 's#_#\\_#g ...原创 2020-04-08 18:49:36 · 3291 阅读 · 1 评论 -
Hive textfile数据表更改输入输出文件格式
altertabletmp_etltest.xxx SETFILEFORMATINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.mapred.TextOutputFormat'SERDE'org.apache.hadoop.hive.serde2.lazy.Laz...原创 2019-11-11 16:53:06 · 1369 阅读 · 0 评论 -
spark ListenerBus 监听器
Spark 源码中对livelistenerBus进行了这样的注释: 即所有spark消息SparkListenerEvents 被异步的发送给已经注册过的SparkListeners. 在SparkContext中, 首先会创建LiveListenerBus实例,这个类主要功能如下: 保存有消息队列,负责消息的缓存保存有注册过的listener,负责消息的分发 li原创 2017-03-17 16:59:27 · 6509 阅读 · 0 评论 -
Spark Shuffle FetchFailedException解决方案
在大规模数据处理中,这是个比较常见的错误。 报错提示 SparkSQL shuffle操作带来的报错 org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0 org.apache.spark.shuffle.FetchFailed原创 2017-03-17 16:45:12 · 6326 阅读 · 0 评论 -
spark sql 表分区出现损坏
表分区出现损坏 1) Create a table"test". "create table test (n string) partitioned by (pstring)" 2) Load some data into partition(p='1') 3)Remove the path related to partition(p='1') of table test manua原创 2017-03-17 16:44:08 · 2090 阅读 · 0 评论 -
hadoop namnode 挂掉以及解决的过程记录如下
现将namnode 挂掉以及解决的过程记录如下: 1、时间(2016-03-08-22:20) 发现namnode2状态为DOWN的告警 2、采取措施 重启namenode2。集群正常 3、分析原因 们的hadoop集群采用的是默认的hadoop-heapsize大小,1000m,内存过小导致namenode2出现内存溢出原创 2017-03-17 16:39:27 · 4143 阅读 · 0 评论 -
hivemeta、sparkSubmit进程参数优化
1、对hive参数优化 优化 hivemeta进程和sparksubmit进程 修改hive-env.sh添加 vi hive/conf/hive-env.sh export HADOOP_OPTS="$HADOOP_OPTS -XX:NewRatio=12 -Xmx4096m -Xms1024m -XX:MaxHeapFreeRatio=40 -XX:原创 2016-03-14 20:05:46 · 1306 阅读 · 0 评论 -
hadoop namenode进程参数调整
修改hadoop-env.sh添加 vi $HADOOP_HOME/conf/hadoop-env.sh export HADOOP_NAMENODE_OPTS="-Xmx16384m -Xms4096m -Xmn2048m -verbose:gc -Xloggc:/usr/local/fqlhadoop/logs/hdfs/namenode.gc.log -XX:E原创 2016-03-14 20:02:15 · 4716 阅读 · 0 评论 -
spark sql 1.6.0 自定义永久函数
spark sql 1.5.0 也支持 Spark(Hive) SQL中UDF的使用 相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具,当这些内置的UDF不能满足于我们的需要时原创 2016-03-14 19:58:34 · 4958 阅读 · 0 评论 -
ERROR YarnScheduler: Lost executor
执行脚本出现: 15/07/30 10:18:13 ERROR cluster.YarnScheduler: Lost executor 8 on myhost1.com: remote Rpc client disassociated 15/07/30 10:18:13 ERROR cluster.YarnScheduler: Lost executor 6 on myhost2.com:原创 2016-03-09 15:24:13 · 13702 阅读 · 2 评论 -
编译spark1.6.0出现 Failed to execute goal org.codehaus.mojo:exec-maven-plugin:1.4.0:exec (sparkr-pkg)
spark 1.6 编译 1、下载spark1.6源码 2、安装maven 3、解压spark1.6 执行export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"cd spark1.6.0./make-distribution.sh --name hadoop2.6 --tgz -Pspar原创 2016-02-02 18:34:43 · 6882 阅读 · 1 评论 -
hadoop 根据SecondaryNameNode恢复Namenode
1.配置secondarynamenode 修改conf/core-site.xml 增加 fs.checkpoint.period 3600 The number of seconds between two periodic checkpoints. fs.checkpoint.size 67108864 The size of the current edit l原创 2015-10-30 09:57:09 · 2053 阅读 · 0 评论 -
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.tez.TezTask
hive> select count(1) from customer; Query ID = hive_20151113120000_368645da-6763-4ca3-a774-8961d490c0b0 Total jobs = 1 Launching Job 1 out of 1 Status: Running (Executing on YARN cluster with A原创 2015-11-13 12:15:30 · 17209 阅读 · 0 评论 -
在Linux下给mysql创建用户并分配权限及问题解决方案
1.新建用户 //登录MYSQL @>mysql -u root -p @>密码 //创建用户 mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’)); //刷新系统权限表 mysql>flush privileges;原创 2014-10-22 15:12:07 · 23800 阅读 · 0 评论 -
Hadoop分析日志实例的详细步骤及出现的问题分析和解决
1). 日志格式分析 首先分析 Hadoop 的日志格式, 日志是一行一条, 日志格式可以依次描述为:日期、时间、级别、相关类和提示信息。如下所示: 2014-01-07 00:31:25,393 INFO org.apache.hadoop.mapred.JobTracker: SHUTDOWN_MSG: /****************************************原创 2014-01-08 15:03:19 · 8721 阅读 · 0 评论
分享