
Hadoop
CWJ的博客
You never know how strong you really are until being strong is the only choice you have
展开
-
Hadoop 2.x之HDFS利用QJM实现HA高可用
【启动顺序】 1、关闭防火墙# service iptables stop2、启动三台zookeeper# zkServer.sh start3、在其中一个namenode上格式化,这个步骤只需要操作一次,以后跳过这步# hdfs namenode -format4、在其中一个namenode上初始化zkfc,这个步骤只需要操作一次,以后跳过这步# hdfs zkfc -formatZK5、启动d原创 2017-05-05 19:59:20 · 1114 阅读 · 0 评论 -
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
在Win7系统Intellij开发工具中调试Spark读取Hbase。运行直接报异常 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.这应该是在win7系统下没有配置hadoop环境变量的问题!注意在配置hadoop环境变量之前,将下载好的winutils原创 2017-05-11 23:49:10 · 3636 阅读 · 0 评论 -
HDFS完全分布式安装
【步骤】 • 下载 • 解压 • 检查java环境和ssh的免密码登陆 • 修改core-site.xml • 修改hdfs-site.xml • 修改masters文件和slaves文件 • 复制hadoop配置文件到其他主机上 • 配置hadoop环境变量 • 格式化namenode • start-hdfs.sh启动 • 测试准原创 2017-05-02 23:53:46 · 1068 阅读 · 0 评论 -
Hadoop2.x版本中配置SecondaryNameNode
在Hadoop1.x.x的版本中,masters 文件里记录SecondaryNameNode的机器列表,每行一个 slaves 文件里记录启动datanode 和 tasktracker的机器列表,hadoop2.2.0里采用了HA机制(active NameNode和standby NameNode),可以不用secondarynamenode了,当然也还可以用secondarynamenode转载 2017-05-03 23:17:21 · 1234 阅读 · 0 评论 -
Hadoop之HDFS的简单介绍及常用命令
【目录】 1. HDFS介绍 2. HDFS优点 3. HDFS缺点 4. HDFS架构 5. HDFS数据存储单元 6. HDFS结构 7. Block的副本放置策略 8. Hadoop之HDFS文件读写过程 9. 安全模式 10. HDFS常用命令1、HDFS(HadoopDistributedFileSystem)是分布式存储系统,提原创 2017-05-03 00:36:26 · 1503 阅读 · 0 评论 -
MapReduce、Tez、Storm、Spark四个框架的异同
1) MapReduce:是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,非常适合数据密集型计算。2) Spark:MapReduce计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘计算框架,而Spark则是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。3) Storm:MapReduce也不适合进行流式计算、实时分析,比如转载 2017-05-02 18:06:08 · 1157 阅读 · 0 评论 -
HDFS一些概念的理解
1.HDFS数据存放策略:分块存储+副本存放。2.数据拓扑结构(即数据备份):默认存放3份,可以通过修改配置文件hdfs-site.xml修改备份数量,如果本机在集群中,第一份就会存放到本节点即本机上,如果不在集群中,就通过负载均衡存放到一个相应的随机节点上,第二份存放在同机柜的不同节点上,第三份存放在不同机柜的某个节点上。3.数据查找:就近原则,现在本节点上查找,再从本机柜上查找,最后再去不同机柜转载 2017-05-03 23:12:42 · 2846 阅读 · 0 评论 -
Hadoop介绍
copy from @寒小阳Hadoop历史Hadoop核心HDFSMapReduce总结Hadoop历史Hadoop的雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)...转载 2018-06-06 09:59:55 · 331 阅读 · 0 评论 -
Hadoop经典案例:词频统计
copy from @寒小阳总体流程Map阶段代码排序阶段Reduce阶段本地模拟测试代码Hadoop集群运行案例这是一个非常经典的例子,几乎在任何的hadoop教材上都会看到它,即使如此,它依旧是最经典最有代表性的案例,学习大数据处理,可以从先理解清楚它入手。总体流程咱们来看看对特别大的文件统计,整个过程是如何分拆的。 大家想想词频统计的过程...转载 2018-06-06 18:09:52 · 9965 阅读 · 0 评论