
hadoop
文章平均质量分 80
Hadoop 相关博文
岚天逸剑
这个作者很懒,什么都没留下…
展开
-
Hive 1.2.1&Spark&Sqoop安装指南
目录目录 11.前言 12.约定 23.服务端口 24.安装MySQL 24.1.安装MySQL 24.2.创建Hive元数据库 45.安装步骤 45.1.下载Hive1.2.1二进制安装包 45.2.安装Hive 55.3.安装MySQL-Connector 55.4.修改配置 55.4.1.修改/etc/prof原创 2016-02-16 15:44:28 · 9159 阅读 · 1 评论 -
在Hadoop-3.1.2上安装HBase-2.2.1
目录目录 11. 前言 32. 缩略语 33. 安装规划 33.1. 用户规划 33.2. 目录规划 44. 相关端口 45. 下载安装包 46. 修改配置文件 56.1. 修改策略 56.2. 修改conf/regionservers 56.3. 修改conf/hbase-env.sh 56.4. 修改conf/log4j.properties...原创 2019-11-09 11:01:21 · 1654 阅读 · 0 评论 -
基于zookeeper-3.5.5安装hadoop-3.1.2
目录目录 11. 前言 32. 缩略语 33. 安装步骤 44. 下载安装包 45. 机器规划 46. 设置批量操作参数 57. 环境准备 57.1. 修改最大可打开文件数 57.2. 修改OOM相关参数 67.3. 免密码登录设置 67.4. 修改主机名 67.4.1. 临时修改主机名 67.4.2. 永久修改主机名 77.4.3. 批...原创 2019-11-02 18:37:13 · 1572 阅读 · 0 评论 -
HBase快照迁移数据失败原因及解决办法
目录目录 11. 背景 12. 环境 13. 执行语句 14. 问题描述 15. 错误信息 26. 问题原因 37. 解决办法 4 背景机房裁撤,需将源HBase集群的数据迁移到目标HBase集群,采用快照迁移方式。 环境Hadoop-3.1.2 + HBase-2.2.1 执行语句 time hbase org.apache.hado...原创 2019-10-22 14:28:23 · 2237 阅读 · 1 评论 -
编译hbase-1.2.3源代码
目录目录 11. 约定 12. 安装jdk 13. 安装maven 14. 网络配置 24.1. eclipse 34.2. maven 35. 从hbase官网下载源代码包: 46. eclipse导入hbase源代码 47. 编译hbase-thrift 68. Problems opening an editor ... does not exis原创 2016-10-25 17:25:54 · 3110 阅读 · 0 评论 -
Yarn application has already exited with state FINISHED
如果在运行spark-sql时遇到如下这样的错误,可能是因为yarn-site.xml中的配置项yarn.nodemanager.vmem-pmem-ratio值偏小,它的默认值为2.1,可以尝试改大一点再试。ERROR cluster.YarnClientSchedulerBackend: Yarn application has already exited with state原创 2016-10-13 11:00:48 · 5090 阅读 · 0 评论 -
大数据利器
类别名称官网备注查询引擎Phoenixhttps://phoenix.apache.org/Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写Kylinhttp://kylin.ioeBay开源的基于Hadoop的分布式OLAP分析引擎,旨在减少Hadoo原创 2016-02-18 14:39:19 · 8216 阅读 · 0 评论 -
Yarn上运行spark-1.6.0
目录目录 11. 约定 12. 安装Scala 12.1. 下载 22.2. 安装 22.3. 设置环境变量 23. 安装Spark 23.1. 下载 23.2. 安装 23.3. 配置 33.3.1. 修改conf/spark-env.sh 34. 启动Spark 34.1. 运行自带示例 34.2. SparkSQL Cli 45.原创 2016-02-17 12:52:16 · 11178 阅读 · 0 评论 -
使用process_monitor.sh监控hadoop进程的crontab配置
可以从下列链接找到process_monitor.sh:https://github.com/eyjian/libmooon/blob/master/shell/process_monitor.sh假设:1) java安装目录为/data/jdk2) 监控脚本process_monitor监控脚本process_monitor.sh安装目录为/usr/local/bin3) hadoop安...原创 2016-02-02 15:34:08 · 8929 阅读 · 2 评论 -
编译hadoop的libhdfs.a
进入hadoop-hdfs-project/hadoop-hdfs/src目录,执行cmake以生成Makefile文件。如果遇到如下的错误:~/hadoop-2.7.1-src/hadoop-hdfs-project/hadoop-hdfs/src]$ cmake .JAVA_HOME=, JAVA_JVM_LIBRARY=/data/jdk/jre/lib/amd64/se原创 2015-11-27 10:45:53 · 13236 阅读 · 1 评论 -
安装hue-3.11.0
1) 配置HDFS HttpFS和WebHDFS如果HDFS是HA方式部署的,则只能使用HttpFS,而不能用WebHDFS。2) 安装依赖:apr-iconv-1.2.1confuse-3.0apr-util-1.5.4libpng-1.6.26apr-1.5.2 expat-2.2.0pcre-8.38libxml2-devellibxslt原创 2016-10-28 18:16:00 · 9934 阅读 · 0 评论 -
Hadoop-2.7.2分布式安装手册
目录目录 11. 前言 22. 部署 32.1. 机器列表 32.2. 主机名 32.2.1. 临时修改主机名 42.2.2. 永久修改主机名 42.3. 免密码登录范围 43. 约定 53.1. 安装目录约定 53.2. 服务端口约定 64. 工作详单 75. JDK安装 75.1. 下载安装包 75.2. 安装步骤 76. 免密码原创 2015-11-25 09:10:20 · 15556 阅读 · 0 评论 -
HBase-1.2.1和Phoenix-4.7.0分布式安装指南
目录目录 11. 前言 12. 约定 23. 相关端口 24. 下载HBase 25. 安装步骤 25.1. 修改conf/regionservers 25.2. 修改conf/hbase-site.xml 35.2.1. hbase.master.info.port 45.2.2. hbase.master.info.bindAddress 45.3.原创 2015-12-01 16:00:43 · 11613 阅读 · 0 评论 -
HBase Thrift2 CPU过高问题分析
目录目录 11. 现象描述 12. 问题定位 23. 解决方案 54. 相关代码 5 1. 现象描述外界连接9090端口均超时,但telnet端口总是成功。使用top命令观察,发现单个线程的CPU最高达99.99%,但并不总是99.9%,而是在波动。当迁走往该机器的流量后,能够访问成功,但仍然有超时,读超时比写超时多:# ./hbase_stre原创 2016-12-07 10:04:09 · 13823 阅读 · 0 评论 -
ZooKeeper-3.4.10分布式安装指南
目录目录 11. 前言 12. 约定 13. 安装步骤 23.1. 配置/etc/hosts 23.2. 设置myid 23.3. 修改conf/zoo.cfg 24. 启动ZooKeeper集群 35. 安装验证 3 1. 前言介绍ZooKeeper-3.4.6版本的分布式安装,力求细致,提供精确的安装指导。本文的安装环境是64位的SuSE 10.原创 2014-04-22 11:54:54 · 10195 阅读 · 0 评论 -
Hadoop-2.8.0分布式安装手册
目录目录 11. 前言 32. 特性介绍 43. 部署 53.1. 机器列表 63.2. 主机名 63.2.1. 临时修改主机名 73.2.2. 永久修改主机名 73.3. 免密码登录范围 73.4. 修改最大可打开文件数 83.5. OOM相关:vm.overcommit_memory 84. 约定 84.1. 安装目录约定 84.2. 服原创 2017-04-30 14:26:04 · 6011 阅读 · 0 评论 -
Hadoop-2.8.0分布式安装手册
目录目录 11. 前言 32. 特性介绍 33. 部署 53.1. 机器列表 53.2. 主机名 53.2.1. 临时修改主机名 63.2.2. 永久修改主机名 63.3. 免密码登录范围 73.4. 修改最大可打开文件数 73.5. OOM相关:vm.overcommit_memory 74. 约定 74.1. 安装目录约定 74.2. 服...原创 2018-09-11 14:39:39 · 12161 阅读 · 1 评论 -
大数据利器2018版
类别 名称 (可重点关注加粗部分) 官网 备注 查询引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品,ApacheHBase之上的一个SQL中间层,完全使用Java编写 Presto http://prestodb.io/ Facebook开源的分布式SQL查询引擎,适用于交互...原创 2018-11-01 09:03:44 · 9675 阅读 · 0 评论 -
分布式消息队列知识图谱
点击查看大图:原创 2019-01-23 15:08:44 · 7408 阅读 · 0 评论 -
Zookeeper客户端cli_st为何在crontab中运行不正常?
实践中,发现直接在命令行终端运行cli_st时,能够得到预期的结果,但一将它放到crontab中,则只收到:bye 相关的一段clit_st源代码如下: if (FD_ISSET(0, &rfds)) { int rc; int len = sizeof(buffer) - bufoff -1;原创 2015-11-25 13:07:00 · 20716 阅读 · 0 评论 -
HBase的FlushLargeStoresPolicy多例族支持
众所周知,HBase的一个例族flush时,会导致所有例族都跟着被flush。在HBase-0.94的官方说明(http://hbase.apache.org/0.94/book/number.of.cfs.html)也明确HBase不能很好的支持一个以上的例族。 HBase-2.0.0和HBase-1.1.0(https://issues.apache.org/jira/browse/H原创 2015-11-18 11:40:29 · 12108 阅读 · 0 评论 -
“undefined reference to JNI_GetCreatedJavaVM”和“File format not recognized”错误原因分析
“undefined reference to JNI_GetCreatedJavaVM”和“File format not recognized”错误原因分析如果编译时,报如下所示错误:../../third-party/hadoop/lib/libhdfs.a(jni_helper.c.o): In function `getGlobalJNIEnv':/root/hado原创 2014-05-06 16:15:43 · 9454 阅读 · 0 评论 -
SecondaryNameNode中的“Inconsistent checkpoint fields”错误原因
该错误原因,可能是因为没有设置好SecondaryNameNode上core-site.xml文件中的“hadoop.tmp.dir”。2014-04-17 11:42:18,189 INFO org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Log Size Trigger :1000000 txns2014原创 2014-04-19 10:57:27 · 4274 阅读 · 0 评论 -
看两种截然不同的设计理念:分布式文件系统支持大和小文件的思考
为何Google GFS设计成对大文件友好,而像腾讯的TFS(Tencent File System)和淘宝的TFS(Taobao File System)却设计成对小文件友好了?这一点非常好理解,两个TFS都用来满足图片等大量小文件的需求。但是两者是矛盾的吗?答案是否。实际中TFS也在努力支持大文件,GFS也要支持小文件。 GFS通过在GFS之上构建Bigtable来支持大量小文件,原创 2014-04-19 11:30:41 · 868 阅读 · 0 评论 -
查看HDFS集群信息
clusterID:集群ID,必须保持一致1)在NameNode上查看cat $HADOOP_HOME/dfs/name/current/VERSION#Fri Apr 18 11:56:57 GMT 2014namespaceID=1397306199clusterID=CID-bfe869e9-fe7a-48c7-9606-08512f1708becTime=0原创 2014-04-19 10:39:13 · 3715 阅读 · 0 评论 -
Hadoop-2.4.0中HDFS文件块大小默认为128M
134217728 / 1024 = 131072 / 1024 = 128原创 2014-04-19 14:32:38 · 12451 阅读 · 0 评论 -
“hdfs dfs -ls”命令的使用
“hdfs dfs -ls”带一个参数,如果参数以“hdfs://URI”打头表示访问HDFS,否则相当于ls。其中URI为NameNode的IP或主机名,可以包含端口号,即hdfs-site.xml中“dfs.namenode.rpc-address”指定的值。“hdfs dfs -ls”要求默认端口为8020,如果配置成9000,则需要指定端口号,否则不用指定端口,这一点类似于浏览原创 2014-04-17 18:57:59 · 9865 阅读 · 0 评论 -
执行“hdfs dfs -ls”时报ConnectException
原因可能是指定的端口号9000不对,该端口号由hdfs-site.xml中的属性“dfs.namenode.rpc-address”指定,即为NameNode的RPC服务端口号。 文件上传后,被存储在DataNode的data(由DataNode的hdfs-site.xml中的属性“dfs.datanode.data.dir”指定)目录下,如:$HADOOP_HOME/data/cur原创 2014-04-17 20:10:08 · 10884 阅读 · 0 评论 -
启动Hadoop HDFS时的“Incompatible clusterIDs”错误原因分析
“Incompatible clusterIDs”的错误原因是在执行“hdfs namenode -format”之前,没有清空DataNode节点的data目录。 网上一些文章和帖子说是tmp目录,它本身也是没问题的,但Hadoop 2.4.0是data目录,实际上这个信息已经由日志的“/data/hadoop/hadoop-2.4.0/data”指出,所以不能死死的参照网上的解决办法,原创 2014-04-17 19:53:33 · 8892 阅读 · 0 评论 -
在Linux上编译Hadoop-2.4.0
Hadoop-2.4.0的源码目录下有个BUILDING.txt文件,它介绍了如何在Linux和Windows下编译源代码,本文基本是遵照BUILDING.txt指示来操作的,这里再做一下简单的提炼。第一次编译要求能够访问互联网,Hadoop的编译依赖非常多的东西,一定要保证机器可访问互联网,否则难逐一解决所有的编译问题,但第一次之后的编译则不用再下载了。1. 安装依赖在编译Hadoo原创 2014-04-21 15:47:59 · 9071 阅读 · 0 评论 -
loadFileSystems error & ExceptionUtils错误原因分析
loadFileSystems error & ExceptionUtils错误原因分析一见 2014/5/7 C/C++程序通过hdfs.h访问HDFS,运行时遇到如下错误,会是什么原因了?(注:hadoop安装在/data/hadoop/hadoop-2.4.0,而/data/hadoop/current是指向它的软链接):loadFileSystems error:(un原创 2014-05-07 20:08:37 · 10570 阅读 · 0 评论 -
Linux上编译hadoop-2.7.1的libhdfs.so和libhdfs.a
hadoop提供了CMake来编译libhdfs,因此在编译之前需要先安装好CMake工具。然后进入libhdfs的源代码目录,如:/data/hadoop-2.7.1-src/hadoop-hdfs-project/hadoop-hdfs/src执行cmake以生成Makefile文件(假设jdk的安装目录为/data/jdk1.7.0_55):cmake -DGEN原创 2015-11-13 11:00:25 · 9733 阅读 · 0 评论 -
Haodoop RPC解析
1. 前言 12. Hadoop RPC 12.1. 总体结构 12.1.1. RPC Interface 12.1.2. RPC Server 12.1.3. RPC Client 12.2. RPC Interface 22.2.1. getServer 22.2.2. getProxy 32.3. RPC Server 42.3.1. RPC Serv原创 2015-09-07 12:50:52 · 12406 阅读 · 0 评论 -
Hadoop-2.4.0分布式安装手册
目录目录 11. 前言 22. 部署 22.1. 机器列表 22.2. 主机名 22.2.1. 临时修改主机名 32.2.2. 永久修改主机名 32.3. 免密码登录范围 43. 约定 43.1. 安装目录约定 43.2. 服务端口约定 54. 工作详单 65. JDK安装 65.1. 下载安装包 65.2. 安装步骤 66. 免密码原创 2014-04-28 09:28:38 · 11479 阅读 · 0 评论 -
Spark 0.9.1和Shark 0.9.1分布式安装指南
目录目录 11. 约定 12. 安装Scala 12.1. 下载 22.2. 安装 22.3. 设置环境变量 23. 安装Spark 23.1. 部署 23.2. 下载 33.3. 安装 33.4. 配置 33.4.1. 修改conf/spark-env.sh 33.4.2. 修改conf/slaves 34. 启动Spark 35. 安原创 2014-05-12 09:44:23 · 1237 阅读 · 0 评论 -
Storm的wordCounter计数器详解
原文:http://www.maoxiangyi.cn/index.php/archives/362拓扑 点击(此处)折叠或打开 package cn.jd.storm; import backtype.stor原创 2014-04-10 10:58:28 · 8121 阅读 · 0 评论 -
HBase-0.98.0和Phoenix-4.0.0分布式安装指南
目录目录 11. 前言 12. 约定 13. 相关端口 24. 下载HBase 25. 安装步骤 25.1. 修改conf/regionservers 25.2. 修改conf/hbase-site.xml 25.2.1. hbase.master.info.port 45.2.2. hbase.master.info.bindAddress 45.3.原创 2014-04-24 10:37:48 · 2512 阅读 · 0 评论 -
HDFS Federation
目录目录 11. 前言 12. 背景 13. 解析 1 1. 前言Federation翻译成中文是联盟或联邦的意思,网上有很多介绍HDFS Federation的文章,官网上的Federation.html也做了专门的介绍。本文试图画蛇添足,以更通俗的方式重复一遍,以帮助对HDFS Federation的理解。2. 背景为何需要Federation?众所周知,之原创 2014-05-15 10:10:44 · 12435 阅读 · 0 评论 -
Hive 0.12.0安装指南
目录目录 11.前言 12.约定 13.服务端口 24.安装MySQL 24.1.安装MySQL 24.2.创建Hive元数据库 25.安装步骤 35.1.下载Hive0.12.0二进制安装包 35.2.安装Hive 35.3.安装MySQL-Connector 35.4.修改配置 35.4.1.修改/etc/profi原创 2014-04-23 15:45:29 · 1238 阅读 · 1 评论 -
Hadoop(HDFS、YARN、HBase、Hive和Spark等)默认端口表
端口作用9000fs.defaultFS,如:hdfs://172.25.40.171:90009001dfs.namenode.rpc-address,DataNode会连接这个端口50070dfs.namenode.http-address50470dfs.namenode.https-ad原创 2014-04-29 18:45:19 · 6643 阅读 · 0 评论