
hadoop
文章平均质量分 58
梦飞天
这个作者很懒,什么都没留下…
展开
-
第120讲:Hadoop的MapReduce和Yarn的配置实战详解学习笔记
第120讲:Hadoop的MapReduce和Yarn的配置实战详解学习笔记本讲主要讲解MapReduce和Yarn的配置方法核心配置有两个:mapreduce-site.xml和yarn-site.xml1.MapReduce配置:ParameterValueNotesmapreduce.framework.name原创 2015-11-09 19:58:02 · 1157 阅读 · 0 评论 -
第116讲:Hadoop集群之安装Java、创建Hadoop用户、配置SSH等实战学习笔记
第116讲:Hadoop集群之安装Java、创建Hadoop用户、配置SSH等实战学习笔记本期内容:1.安装java2.创建hadoop用户3.配置ssh4.实战演示 1.安装java建议使用java最新版本java-1.8.0_60 64位下载到linux下解压即可。配置JAVA_HOME,PATH 2.创建hadoop用户建议创建hadoop原创 2015-10-13 21:38:28 · 529 阅读 · 0 评论 -
第132讲:Hadoop集群监控:日志、Metrics学习笔记
第132讲:Hadoop集群监控:日志、Metrics学习笔记一般用第三方工具,因为有针对性,可视化更好。监控的目标是检测集群,在什么时候没有提供需要的服务。hadoop最需要监控的是namenode,secondarynamenode,resourcemanager等。当然也要监控datanode和nodemanager。依据日志可以发现系统的发生的事件。从日志角度讲默认日志信息原创 2015-11-15 18:37:54 · 907 阅读 · 0 评论 -
第127讲:Hadoop集群管理之安全模式解析及动手实战学习笔记
第127讲:Hadoop集群管理之安全模式解析及动手实战学习笔记hadoop在启动时namenode会把fsimage加载进内存,同时和edits内容合并,以此建立整个文件系统的元数据的镜像(内存级别),所以客户端可以通过namenode访问文件系统的信息。完成后变成一个新的fsimage,这个过程是namenode自已完成的,同时会建立一个新的edits。这时namenode需要开始监听rp原创 2015-11-15 12:54:29 · 897 阅读 · 0 评论 -
第117讲:Hadoop集群之安装IP配置、Slaves、namenode和secondarynamenode的配置学习笔记
第117讲:Hadoop集群之安装IP配置、Slaves、namenode和secondarynamenode的配置学习笔记1.IP配置每台机器上要有所有机器的IP:/etc/hosts中配置hostname在/etc/hostname中配置2.slaves配置记录运行datanode的节点hadoop目录下的etc/hadoop下有一个slaves文件一方面hdfs中原创 2015-10-14 21:54:49 · 3545 阅读 · 0 评论 -
第131讲:Hadoop集群管理工具均衡器Balancer 实战详解学习笔记
第131讲:Hadoop集群管理工具均衡器Balancer 实战详解学习笔记为什么需要均衡器呢?随着集群运行,具体hdfs各个数据存储节点上的block可能分布得越来越不均衡,会导致运行作业时降低mapreduce的本地性。分布式计算中精髓性的一名话:数据不动代码动。降低本地性对性能的影响是致使的,而且不能充分利用集群的资源,因为导致任务计算会集中在部分datanode上,更易导致故障原创 2015-11-15 18:16:05 · 812 阅读 · 0 评论 -
第128讲:Hadoop集群管理工具dfsadmin实战详解学习笔记
第128讲:Hadoop集群管理工具dfsadmin实战详解学习笔记通过dfsadmin可以查看hdfs的一些信息也可以执行一些管理操作。要想使用dfsadmin需要有管理员权限,因为dfsadmin可以修改hdfs的内容。使用hadoop dfsadmin命令可以显示帮助 。hadoop dfsadmin -report 统计信息,可以查看 datanode的IP,心跳信息等。原创 2015-11-15 15:22:03 · 1947 阅读 · 1 评论 -
第133讲:Hadoop集群监控Ganglia架构设计和运行机制详细解析学习笔记
第133讲:Hadoop集群监控Ganglia架构设计和运行机制详细解析学习笔记可监控和显示集群中节点的各种状态信息,如CPU/内存、磁盘利用率,IO负载,网络流量等。ganglia可将历史数据以曲线形式非常友好地以php页面形式展现,本身有很好的扩展性,允许用户加入自己想监控的信息。要监控特殊信息时方便。下图是ganglia架构图: ganglia包含几个部分,这几个部分间通原创 2015-11-15 22:49:34 · 944 阅读 · 0 评论 -
第129讲:Hadoop集群管理工具fsck实战详解学习笔记
第129讲:Hadoop集群管理工具fsck实战详解学习笔记是用检查hdfs具体文件、文件夹的健康状况的。这个工具帮助我们检查hdfs中文件在datanode中缺失的块及过程或过少的replication复本的内容。hadoop fsck PATH会从给定路径循环遍历文件系统中的内容,但此时访问的是namenode,而不是datanode,对于检查过的文件都会打印点。文件在na原创 2015-11-15 16:23:08 · 934 阅读 · 0 评论 -
zookeeper能启动但无法选举问题
今天一大早4点多就睡不着了,困绕了我近半年的zookeeper能启动但无法选举问题让我头疼。起床试试吧。经过一天的奋战,试了无数种方法(当然因为zookeeper用途太广了,这半年也多次尝试,却都没有解决)。现象:1.QuorumPeerMain进程可能正常启动。但使用zkServer.sh status查看状态时报:[richard@richard3 zookeeper-3.4.6]原创 2016-01-16 19:11:28 · 2725 阅读 · 0 评论 -
第126讲:Hadoop集群管理之Datanode目录元数据结构详解学习笔记
第126讲:Hadoop集群管理之Datanode目录元数据结构详解学习笔记namenode是管理hdfs文件系统的元数据datanode是负责当前节点上的数据的管理,具体目录内容是在初始阶段自动创建的。在用hdfs dfs namenode format时并没有对datanode进行format。在datanode中目录是按文件信息存储的。datanode存在于具体节点上的had原创 2015-11-14 20:37:16 · 1097 阅读 · 0 评论 -
第125讲:Hadoop集群管理之SecondaryNamenode目录元数据结构详解及其内幕机制学习笔记
第125讲:Hadoop集群管理之SecondaryNamenode目录元数据结构详解及其内幕机制学习笔记在hadoop-2.6.0/dfs目录下可以看到name文件夹和namesecondary文件夹。namesecondary文件夹即是secondarynamenode。进入namesecondary/current文件夹思考以看到edits,fsimage,VERSION,和na原创 2015-11-14 19:41:12 · 557 阅读 · 0 评论 -
第121讲:Hadoop集群的格式化、集群运行实战解析等学习笔记
第121讲:Hadoop集群的格式化、集群运行实战解析等学习笔记本讲主要讲解hadoop集群格式化、集群运行实战1.官网讲的格式化:Hadoop StartupTo start a Hadoop cluster you will need to start both the HDFS and YARN cluster.The first time you bring up HD原创 2015-11-09 19:59:29 · 1282 阅读 · 0 评论 -
第113讲:10分钟从技术角度理解Hadoop学习笔记
第113讲:10分钟从技术角度理解Hadoop学习笔记本讲内容:1.HDFS2.YARN3.MapReduceHDFS使用hadoop完成了分布式存储YARN是作集群资源管理和调试的。运行在hadoop上的程序如何使用内存和CPU是由YARN管理的。MapReduce由Mapper把大任务分成任务的子集,计算完成后再由reducer把任务的子集reduce成需要的结果。原创 2015-10-09 22:19:01 · 808 阅读 · 0 评论 -
第119讲:HDFS的配置以及安全高效的HDFS配置最佳实践学习笔记
第119讲:HDFS的配置以及安全高效的HDFS配置最佳实践学习笔记安全和高效是中高级用户关心的。core-site.xml和hdfs-site.xml是hadoop最主要的配置文件。core-site.xml中fs.defaults是namenode的uri。就是文件系统的uri,也就是文件系统的要目录。hdfs-site.xml中的dfs.namenode.name.dir原创 2015-11-09 19:56:29 · 731 阅读 · 0 评论 -
第114讲:Hadoop集群安装解析学习笔记
第114讲:Hadoop集群安装解析学习笔记windows下安装vmware,vmware下安装ubuntu虚拟机。1.安装java2.ssh免密码3.下载hadoop-2.6.0并解压4.配置hadoop推荐:1.电脑内存最少8G2.linux最好用ubuntu/Centos3.虚拟机单机最少2G内存 apache hadoop官网上的安装说明:h原创 2015-10-10 22:18:50 · 815 阅读 · 0 评论 -
第118讲:Hadoop内存需求量及Namenode内存使用详解学习笔记
第118讲:Hadoop内存需求量及Namenode内存使用详解学习笔记本期内容:1.hadoop的内存使用2.namenode内存使用详解namenode内存大小涉及到集群的规模。hadoop默认为每一个终端分配1GBm内存hadoop2.6.0中mapper和reducer都叫yarn child。具体在worker上运行的map和reduc任务个数取决于cpu个数原创 2015-10-25 21:32:50 · 6207 阅读 · 0 评论 -
第115讲:Hadoop集群构建硬件选择、集群规模、网络拓扑、机架感知等学习笔记
第115讲:Hadoop集群构建硬件选择、集群规模、网络拓扑、机架感知等学习笔记本期内容:1.hadoop商业硬件的选择2.hadoop集群规模建议3.hadoop网络拓扑结构4.机架感知 1.hadoop商业硬件的选择hadoop可以运行在普通的硬件上。但hadoop运行时对内存和CPU有要求。普通的硬件不等于非常低端的硬件。8个CPU4Core2.5GHz,16原创 2015-10-12 22:24:49 · 1605 阅读 · 0 评论 -
第123讲:Hadoop集群管理之Namenode目录元数据结构详解学习笔记
第123讲:Hadoop集群管理之Namenode目录元数据结构详解学习笔记hadoop-2.x的集群管理与hadoop-1.x有很大不同hdfs-site.xml:dfs.replicationdfs.namenode.name.dir 存放namenode元数据信息可以配置多个目录,这些目录完全相同,一个损坏不影响hdfs上的数据。hadoop-2.6.0/dfs/n原创 2015-11-12 22:36:43 · 766 阅读 · 0 评论 -
第122讲:实战WordCount测试Hadoop集群环境学习笔记
第122讲:实战WordCount测试Hadoop集群环境学习笔记WordCount是对众多文件中每一个文件中每一个单词出现次数进行统计。每一个并行单位都是mapper,mapper会对自己处理的split进行单词计数,最后reducer会对mapper结果再次进行全局统计,最后得出每一个单词在所有文件中出现的次数。WordCount在hadoop-2.6.0中的share/hadoo原创 2015-11-12 22:03:51 · 630 阅读 · 0 评论 -
第124讲:Hadoop集群管理之fsimage和edits工作机制内幕详解学习笔记
第124讲:Hadoop集群管理之fsimage和edits工作机制内幕详解学习笔记客户端对hdfs进行写文件时会首先被记录在edits文件中。edits修改时元数据也会更新。每次hdfs更新时edits先更新后客户端才会看到最新信息。fsimage:是namenode中关于元数据的镜像,一般称为检查点。一般开始时对namenode的操作都放在edits中,为什么不放在fsim原创 2015-11-13 23:44:21 · 1202 阅读 · 0 评论 -
第55课:60分钟内从零起步驾驭Hive实战学习笔记
第55课:60分钟内从零起步驾驭Hive实战学习笔记本期内容:1. Hive本质解析2. Hive安装实战3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark,Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行,还有一部分在Hadoop中运行。所以讲原创 2016-03-26 18:56:56 · 2074 阅读 · 0 评论