
HADOOP
文章平均质量分 78
TURING.DT
科技改变世界,技术改变人生。
展开
-
hive1.2版本设置队列问题
环境ambari的hadoop集群使用如下命令设置队列,不生效set mapreduce.job.queuename=hive;之后再网上搜索了一下找到原因了,共享给需要的朋友,hive 1.2版本有引擎之说查看引擎hive> set hive.execution.engine;hive.execution.engine=tez需要使用set tez.queue.nam...原创 2018-10-11 10:44:32 · 1602 阅读 · 0 评论 -
hadoop hdfs.xml权限问题导致App Timeline Server服务无法正常启动
近期操作ambari重启ResourceManager的App Timeline Server 服务无法正常启动,ambari界面报错如下:4 - File['/var/run/hadoop-yarn/yarn/yarn-yarn-timelineserver.pid'] {'action': ['delete'], 'not_if': 'ls /var/run/hadoop-yarn原创 2016-04-20 11:57:57 · 4127 阅读 · 0 评论 -
apache、CDH、HDP hadoop源码下载
apache源码http://hadoop.apache.org/releases.htmlCDH源码http://archive-primary.cloudera.com/cdh5/cdh/5/HDP源码http://s3.amazonaws.com/public-repo-1.hortonworks.com/index.html#/HDP/centos6/2.x/u原创 2016-05-27 16:05:45 · 5294 阅读 · 1 评论 -
resourcemanager UI界面无法访问报错KeeperErrorCode = ConnectionLoss for /rmstore
之前有4个Zookeeper节点,删除一个节点后,过段时间重启了resourcemanager服务,服务启动了,但是UI界面看不了,报错如下:2016-05-05 16:13:22,683 INFO recovery.ZKRMStateStore (ZKRMStateStore.java:runWithRetries(1145)) - Retrying operation on ZK.原创 2016-05-05 16:27:14 · 6064 阅读 · 0 评论 -
CDH5: 使用parcels配置lzo
本文描述如何在CDH5中,使用parcels配置lzo, 并能正常使用hive进行数据查询一、Parcel 部署步骤1 下载: 首先需要下载 Parcel。下载完成后,Parcel 将驻留在 Cloudera Manager 主机的本地目录中。2 分配: Parcel 下载后,将分配到群集中的所有主机上并解压缩。3 激活: 分配后,激活 Parcel 为群集重启后使用做准备。激活前转载 2016-07-14 09:51:42 · 1650 阅读 · 0 评论 -
Namenode HA自动切换 从Namenode报错Got a command from standby NN - ignoring command:2
Namenode HA自动切换,查看当前的 standby Namenode日志发现,有的节点datanode在与这个standby 通信,查看当前的服务Namenode UI界面,发现存在dead的节点,登录到节点,服务都正常启动着,尝试把节点的datanode服务重启了下,与当前Namenode通信又正常了。Namenode日志:2016-06-19 13:03:55,原创 2016-06-19 13:51:36 · 769 阅读 · 0 评论 -
python实现wordcount程序
需要统计的文件$ cat input.txt foo foo quux iio oo pp pp oosee you you again welcome testtest ddd gggg gggacc aaa ddddbbb ddd cccddd ccc aaawo ni tawho am i-----------------------------mapper.py代码原创 2016-05-25 18:44:10 · 4870 阅读 · 0 评论 -
hadoop2.0的datanode多存储硬盘设置数据副本存放策略
集群使用4块硬盘,目前集群中部分节点盘disk1使用率已经超90%,后期可能会出现问题。在hadoop2.0中,datanode数据副本存放磁盘选择策略有两种方式:第一种是沿用hadoop1.0的磁盘目录轮询方式,实现类:RoundRobinVolumeChoosingPolicy.java第二种是选择可用空间足够多的磁盘方式存储,实现类:AvailableSpaceVolumeCho原创 2016-09-13 14:48:18 · 3817 阅读 · 0 评论 -
Hadoop Balancer运行速度优化
1.修改dfs.datanode.max.transfer.threads = 4096 (如果运行hbase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers2.修改dfs.datanode.balance.bandwidthPerSec = 31457280 ,指定DataNode用原创 2016-09-14 15:50:21 · 8656 阅读 · 0 评论 -
Hadoop之使用python实现数据集合间join操作
hadoop之steaming介绍hadoop有个工具叫做steaming,能够支持python、shell、C++、PHP等其他任何支持标准输入stdin及标准输出stdout的语言,其运行原理可以通过和标准java的map-reduce程序对比来说明:使用原生java语言实现Map-reduce程序 hadoop准备好数据后,将数据传送给java的map程序原创 2016-04-13 14:31:12 · 981 阅读 · 0 评论 -
离线安装Cloudera Manager5.3.4与CDH5.3.4
文章转载:http://www.aboutyun.com/thread-14024-1-1.html前期准备工作(系统环境搭建)操作系统:CentOS 6.5 x64CPU*2 64G 300G*4所需软件 cloudera-manager-el6-cm5.3.4_x86_64.tar.gz、mysql-connector-java-5.1.25-bin.jar1、设原创 2016-04-13 14:05:06 · 3032 阅读 · 0 评论 -
Hadoop监控页面查看Hive的完整SQL
想看看执行的hive job提交了什么语句,有没有方法从hadoop job监控页面查看?方法如下,这里看到简单的一段SQL,几乎看不出具体在执行什么任务。1、点开一个application,点击Tracking URL: ApplicationMaster 或者 History(历史任务显示History),进入到MapReduce Job job_1409xxxx,Jo原创 2016-04-13 14:30:00 · 6389 阅读 · 2 评论 -
重启ambari-agent服务器报错: Failed to start ping port listener of
维护过程中重启ambari-agent服务器 报错:INFO 2016-03-08 13:04:24,070 main.py:74 - loglevel=logging.INFOINFO 2016-03-08 13:04:24,076 DataCleaner.py:39 - Data cleanup thread startedINFO 2016-03-08 13:04:24,08原创 2016-04-13 14:30:36 · 3561 阅读 · 1 评论 -
nodemanager报错 spark.network.yarn.YarnShuffleService not found
HDP2.4版本安装启动后nodemanager报错,无法启动,查看日志发现,2016-03-11 10:51:23,638 FATAL nodemanager.NodeManager (NodeManager.java:initAndStartNodeManager(540)) - Error starting NodeManagerjava.lang.RuntimeExce原创 2016-04-13 14:30:42 · 5828 阅读 · 0 评论 -
ambari迁移HistoryServer服务
ambari管理界面没有提供move HistoryServer功能,所以需要使用命令进行迁移操作。操作前提示:如果你对ambari这些操作一点都不熟悉,建议不要进行操作,以免ambari管理界面异常,导致无法管理。可以先在测试环境操作练习,确认无误后,再进行正式环境操作。测试环境 Ambari 2.0一、删除 Delete Mapreduce History Serv原创 2016-04-13 14:31:09 · 1078 阅读 · 0 评论 -
azkaban任务报错java.lang.RuntimeException: The root scratch dir: /tmp/hive
azkaban运行任务的时候失败报错如下:23-03-2016 08:16:14 CST analyzer-kafka2hdfs_new ERROR - Exception in thread "main" org.apache.hive.service.cli.HiveSQLException: java.lang.RuntimeException: The root scratch d原创 2016-04-13 14:31:22 · 3355 阅读 · 0 评论 -
Spark On YARN自动调整Executor数量配置 - Dynamic Resource Allocation
Spark 1.5.2版本支持为Spark On YARN模式的Spark Application根据Task自动调整Executor数,要启用该功能,需做以下操作:一:在所有的NodeManager中,修改yarn-site.xml,为yarn.nodemanager.aux-services添加spark_shuffle值,设置yarn.nodemanager.aux-services原创 2016-04-13 14:31:38 · 4601 阅读 · 0 评论 -
hadoop常见问题Browse the filesystem链接打不开
现象:在访问Master:50070之后,点击browse the filesystem后,该页无法显示。原因:点击browse the filesystem后,网页转向的地址用的是hadoop集群的某一个datanode的主机名,由于客户端的浏览器无法解析这个主机名,因此该页无法显示。解决:需要在客户端的hosts文件里加入hadoop集群的ip地址与对应的主机名,这样就能解决问原创 2016-04-13 14:05:28 · 1259 阅读 · 0 评论 -
hadoop群集设置block副本,对于数据传输很有影响的
最近测试了下hadoop读写数据的情况,将结果分享给大家,datanodemem:128Gcup:2cpu 26** 4核 共8核namenodemem:192Gcup:2cpu 26** 4核 共8核datanode15台namenode2台单个文件2G 使用-put方式data block repliction =33副本put(原创 2016-04-13 14:25:58 · 796 阅读 · 0 评论 -
hadoop2.6.0 + Azkaban2.5.0 任务调度系统实践
Azkaban有三种运行模式:solo server mode:最简单的模式,数据库内置的H2数据库,管理服务器和执行服务器都在一个进程中运行,任务量不大项目可以采用此模式。two server mode:数据库为mysql,管理服务器和执行服务器在不同进程,这种模式下,管理服务器和执行服务器互不影响multiple executor mode:该模式下,执行服务器和管理服务器在不同主原创 2016-06-06 13:52:25 · 4022 阅读 · 2 评论 -
CDH5.5.1增加新主机
1.说明CDH机器添加分三种方式1) 页面向导添加(最好离线,不然会从官网下载安装包时间较长)2) 软件包手动安装3) 原始码手动安装(原始码安装需要自己指定管理目录)这里分享第二种方式,软件包安装方法2.安装部署1) 主机名、ip等修改好,关闭防火墙,ssh免密码登录,CM服务器配置下hosts文件解析新主机2) 首先到http://archi原创 2016-09-21 16:14:00 · 4437 阅读 · 0 评论 -
关于hadoop hdfs中Non DFS Used占用很大的问题分析处理
今天帮一个朋友处理hdfs上Non DFS Used占用很大的问题,从hadoop UI界面看到的节点信息存储容量:Capacity| Used| Non DFS Used| Remaining4.46T| 1.69T| 1.46T| 1.31TNon DFS Used怎么有这么大,于是先看看dfs.datanode.du.reserved配置,10G很正常,那去看看dfs.dat原创 2017-04-20 14:23:52 · 6727 阅读 · 0 评论 -
nfs3方式挂载hdfs实现高可用存储
因为项目使用NFS共享,但是存在着单点故障,后来发现可以将hdfs目录挂载到本地,ambari HDP支持nfs,照着文档的说明去做,很简单完成了。1.修改hdfs-site.xmvi /etc/hadoop/conf/hdfs-site.xml如果没有hdfs-site.xml就找hdfs-default.xml,设置为如下内容,hdp的默认值是0 dfs.access原创 2017-05-11 12:02:13 · 4241 阅读 · 2 评论 -
hadoop streaming两个数据文件实现join合并操作
hadoop做数据处理,大都是对集合进行操作,因此将数据文件与另一个数据文件进行join的操作需求非常常见。下面将使用一个例子让新入门的朋友掌握编写方法:[hdfs@server1]$ more clean_item_new100002303,3368100002865,11991100003592,7995100004955,7033100006838,12630原创 2017-04-01 16:26:32 · 5423 阅读 · 0 评论 -
Hadoop Namenode元数据文件 Fsimage、editlog、seen_txid说明
Hadoop NameNode元数据的$dfs.namenode.name.dir/current/文件夹有几个文件:1|--current/2|-- VERSION3|-- edits_*4|-- fsimage_00000000000085470775|-- fsimage_0000000000008547077.md56|-- seen_t原创 2017-03-03 18:34:42 · 5379 阅读 · 3 评论 -
ambari动态添加datanode和nodemanager
在运行中的ambari hadoop集中中动态添加或删除节点1. 下线节点1) namenode节点上dfs.exclude文件,看配置文件怎么配置的,里每行添加一个服务器名,如我要下线server7,server8,server9,则如下:server7server8resourcemanager节点上yarn.exclude文件里每行添加一个服务器名,如我要下线se原创 2016-04-13 14:24:29 · 4448 阅读 · 0 评论 -
Hadoop-Streaming实战经验及问题解决方法总结
看到一篇不错的Hadoop-Streaming实战经验的文章,里面有大部分的情景都是自己实战中曾经遇到过的。特意转载过来,感谢有心人的总结。目录Join操作分清join的类型很重要…启动程序中key字段和partition字段的设定…控制hadoop程序内存的方法…对于数字key的排序问题…在mapper中获取map_input_file环境变量的方转载 2017-07-10 14:18:36 · 409 阅读 · 0 评论 -
通过hadoop streaming 输入两个文件或目录
通过Hadoop streaming写Mapreduce程序时,会遇到同时处理多个输入文件或者目录的的需求,那么如何在map程序中知道这一条内容到底来自哪个文件?其实hadoop已经给留了解决方法:在map端获取环境变量mapreduce_map_input_file,即为本次的输入文件。sh脚本中:-input ${hdfs_input_path} \-input ${hdfs原创 2017-08-11 14:52:12 · 8488 阅读 · 0 评论 -
hadoop streaming 按字段排序与输出分割详解
1.默认情况在Hadoop streaming的默认情况下,是以”\t”作为分隔符的。对于标准输入来说,每行的第一个”\t” 以前的部分为key,其他部分为对应的value。如果一个”\t”字符没有,则整行都被当做key。2.map阶段的sort与partitionmap阶段很重要的阶段包括sort与partition。排序是按照key来进行的。咱们之前讲了默认的key是由”\t”转载 2017-08-11 16:10:37 · 749 阅读 · 0 评论 -
hadoop跨集群之间迁移hive数据
Hive跨集群迁移数据工作是会出现的事情, 其中涉及到数据迁移, metastore迁移, hive版本升级等。1. 迁移hdfs数据至新集群hadoop distcp -skipcrccheck -update hdfs://xxx.xxx.xxx.xxx:8020/user/risk hdfs://xxx.xxx.xxx.xxx:8020/user/risk-skipcrc原创 2017-04-13 11:51:04 · 14329 阅读 · 7 评论 -
hadoop Corrupt blocks或Missing replicas问题处理方法
hadoop集群出现硬盘物理故障导致部分块损坏,出现Corrupt blocks或Missing replicas问题,下面说下如何处理:1、查看状态:hdfs fsck /需要等待一些时间.........Status: CORRUPT Total size: 110507203084214 B Total dirs: 258577 Total f原创 2017-04-18 11:27:52 · 11176 阅读 · 3 评论 -
使用hadoop streaming进行用户流量分析
本文是用python语言并使用hadoop中的streaming来对用户数据进行分析,统计用户的手机号码、上行流量、下行流量、总流量的信息。本案例适合hadoop初级人员学习。一、待分析的数据源文本文件内容,里面有非常多的用户浏览信息,包括用户手机号码,上网时间,机器序列号,访问的IP,访问的网站,上行流量,下行流量,总流量等信息。(倒数第三列是上传流量,倒数第二列是下载流量,原创 2016-09-26 18:00:16 · 1185 阅读 · 0 评论 -
mapreduce中MAP数量如何控制?
一、果断先上结论1.如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。2.如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。3.如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2。 二、原理与分析过程看了很多博客,感觉没有一个说的很清楚,所以我来整理一下转载 2016-10-28 11:05:41 · 3257 阅读 · 0 评论 -
Hadoop hdfs界面:Hadoop Non DFS Used大小问题
最近研究hadoop hdfs 中NonDFSUsed容量是什么,Non DFS Used为非hadoop文件系统所使用的空间,比如说本身的linux系统使用的,或者存放的其它文件。有的时候你会发现HDFS UI界面上显示的Non DFS Used很大,但实际的服务器上都没有那么大的空间了,看看下边的解释:Non DFS Used = Configured Capacity原创 2016-11-17 14:40:45 · 6400 阅读 · 0 评论 -
使用distcp命令跨集群传输数据
Java API等多种接口对HDFS访问模型都集中于单线程的存取,如果要对一个文件集进行操作,就需要编写一个程序来执行并行操作。HDFS提供了一个非常实用的程序--distcp ,用来在Hadoop文件系统中并行地复制大数据量文件。distcp一般适用于在两个HDFS集群间传送数据的情况。如果两个集群都运行在同一个Hadoop版本上,那么可以使用HDFS模式:hadoop distcp hdf原创 2016-11-30 10:21:55 · 11024 阅读 · 0 评论 -
Namenode停止报错 Error: flush failed for required journal
hadoop集群主Namenode突然停止,报错如下:2016-03-23 17:12:25,877 INFO namenode.FSEditLog (FSEditLog.java:endCurrentLogSegment(1153)) - Ending log segment 5741443422016-03-23 17:12:26,350 WARN client.QuorumJou原创 2016-04-13 14:31:25 · 5017 阅读 · 0 评论 -
Namenode服务停止Error: flush failed for required journal (JournalAndStream(mgr=QJM to
今天收到告警发现主Namenode服务停止,切换到从Namenode上,查看日志如下:org.apache.hadoop.ipc.RemoteException(java.io.IOException): IPC's epoch 51 is less than the last promised epoch 52 at org.apache.hadoop.hdfs.qjourna原创 2016-06-18 10:41:22 · 6688 阅读 · 0 评论 -
ambari中删除journalnode节点
之前谈过如何在ambari中增加journalnode节点服务,这篇将说明如何删除journalnode服务说明:hadooptest 为集群的名字,不是HA的名字http://10.11.32.53 为ambari管理界面hadooptest.bj 为需要删除服务的主机正常情况,首先journalnode服务最少需要3个节点,保障在删除操作的开始,你的journalnod原创 2017-03-27 14:26:11 · 1532 阅读 · 0 评论 -
ambari增加journalnode服务节点
ambari默认3个journalnode节点,但是如果一个节点出现问题,需要增加补充,ambari界面没有操作的选项,所以只能通过其他命令方式操作,看到之前有个文章是将HA降级,之后重新做HA,这样的风险太高了,操作负载,从网上找到了其他方式,分享给需要的朋友,也希望ambari新版本可以将这个增加journalnode功能,添加进去。操作前提示:如果你对ambari这些操作一点都不原创 2016-04-13 14:31:06 · 2608 阅读 · 0 评论 -
CDH安装报错Hive must also be configured with YARN.
CDH群集安装的时候,中途出现问题,重新安装,到最后一步安装服务的时候报错,如下:Command failed to run because service Hive has invalid configuration. Review and correct its configuration. First error: When Hive is configured with Spark原创 2016-04-13 14:28:38 · 4134 阅读 · 2 评论