
hadoop学习笔记
JustInToday
这个作者很懒,什么都没留下…
展开
-
Hadoop2.4.1学习笔记(一)之ssh远程登录原理
Hadoop2.4.1学习笔记(一)之ssh远程登录原理 应用情景描述:当启动Hadoop时,每当启动一次Hadoop时,就会启动一个进程,登录一台Linux虚拟机,当多个节点时,为了避免多次输入密码,可以选用ssh远程登录。来实现在一台虚拟机上即可登录其他的虚拟机。 具体的设置: 1.原创 2015-12-25 11:11:13 · 702 阅读 · 0 评论 -
javaEE+Linux学习总结
javaEE+Linux学习总结在之前一段时间里一直在学习Linux,并且搜索了很多的资料。下面是总结:1.学习Linux的原因:是进阶的必经之路。目前比较火的大数据、机器学习、数据挖掘相关的几乎都和Linux相关,且在完成的javaEE项目常常会在Linux上测试,Linux也常常作为服务器。因为Linux的诸多优点,都使其得到了广泛的应用,所以学习Linux的基本操作是必须的。还有原创 2016-01-27 20:04:32 · 1324 阅读 · 0 评论 -
HBase Phoenix 机制
HBase Phoenix 机制原文连接http://www.binospace.com/index.php/in-depth-analysis-hbase-phoenix/深入分析HBase-Phoenix执行机制与原理七月 1st, 2013 by klose | Posted under 互联网应用, 海量数据存储与处理.针对HBase上SQL解决方案,目前社区内转载 2016-07-27 18:54:15 · 1393 阅读 · 0 评论 -
第一个MapReduce案例集群模式&本地模式
第一个MapReduce案例集群模式&Linux本地模式 记录一下自己在开发MapReduce程序的过程。 思考点是:如何下手,怎样开发。1.对于平台的要求:环境已搭建完毕,且测试通过。 我自己平台是:Centos6.4 +jdk1.7+hadoop2.5.1 都是64位的我这里写的是非常简单的一种:创建一个java工程,导...原创 2016-01-06 13:48:40 · 6556 阅读 · 0 评论 -
hadoop学习记录之javaEE环境的搭建
hadoop学习记录之javaEE开发环境的搭建在Linux系统下安装javaEE的IDE,注意在安装时JDK的要与IDE的要求的jdk的版本一致。hadoop用的版本是hadoop2.4.1。(这个自己选择)对于在Linux下开发java程序,首先设置IDE智能提示,步骤如下:1.选择IDE的菜单项:Windows-->perfences-->选择java目录下的Editor--原创 2016-01-27 11:20:03 · 697 阅读 · 0 评论 -
MapReduce编程模型的认识
MapReduce编程模型的认识对于这个问题的探讨是因为我在面试中被问到这个问题:你觉得MapReduce编程与你在平时的编程上有什么不同呢?我当时就蒙了,真没有注意到这个基本的认知问题,没回答上来。下去后开始百度起来了。。。。。。。下面是一些资料和认知。在百度百科中的解释是:“........概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式原创 2016-04-04 15:04:15 · 2538 阅读 · 1 评论 -
hadoop权威指南阅读笔记(一)
第一章一、对hadoop的诞生的原因:问题:硬盘的存储容量在迅速的增加,传输的速度并未有相同幅度的增加,从驱动器上读取数据需要花费很长的时间所以为了提高传输速度提出了一种解决方案是:从多个磁盘并行读写数据。但是在此种解决方案的上存在的问题是:1.硬件故障---数据存储在多台机器上,当发生故障时如何防止数据的丢失。2.如何保证从多台机器上合并的数据的正确性。在这种原创 2016-04-03 12:32:21 · 881 阅读 · 0 评论 -
Combiner机制和使用
Combiner机制和使用Combiner产生原因: 每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。Combiner是继承自Reducer类。Combiner组件: 1.是在每个 map task 的本地运行,能原创 2016-01-14 12:46:25 · 3429 阅读 · 0 评论 -
Job的输入切片机制及源码流程
Job的输入切片机制及源码流程当在使用Linux指令,提交一次job运行后,处理单个文件时,开始的进程如下: Run Jar -->MRAppMaster-->YarnChild(MapTask/reduceTask)当map运行结束后,YarnChild结束,当运行reduce时又产生一个YarnChild,当reduce结束后YarnChild再次结束。此过程共产生两个原创 2016-01-13 15:06:41 · 849 阅读 · 0 评论 -
hadoop学习记录之hadoop版本升级问题解决
hadoop学习记录之hadoop版本升级问题解决我之前用的是hadoop2.4.1是32位的,在运行程序时发现不行了,必须得升级,hadoop2.5.1开始支持64位的了。首先是在hadoop2.4.1运行程序时出现警告:WARN util.NativeCodeLoader: Unable to load native-hadooplibrary for your platform…原创 2016-01-29 11:29:15 · 869 阅读 · 1 评论 -
hadoop学习笔记之hdfs的文件上传下载
hadoop学习笔记之hdfs的文件上传下载实验平台:hadoop2.4.1 Linux系统采用CentOS6.4 编程工具: Linux 下的javaEE 实验初期准备是:将以上开发环境搭建好。这里说一下jar包,导入jar的步骤是:使用WinSCP将文件传入Linux系统,再将文件jar包复制到home目录下。选择build path -->add Library -->user原创 2016-01-05 16:02:49 · 6146 阅读 · 0 评论 -
Linux+javaEE学习笔记-- Linux文件权限+用户组
Linux文件权限+用户组在Linux中每个用户必须属于一个组,不能独立组外。在Linux中每个文件也有所有者、所在组、其他组的概念。所有者:文件的创建者默认为该文件的所有者所在组:文件在被创建后默认原创 2016-01-25 21:14:20 · 556 阅读 · 0 评论 -
Linux + javaEE 学习笔记---Linux常用命令设定运行级别
Linux常用命令init命令共有七个级别:init[0123456],对应关系如下: 0 ---- 关机模式 该模式启动后就是开机后自动关机 1----单用户模式 ,只有当前用户可以登录,其他用户无法登录连接 2----多用状态但是没有网络服务 3----多用户状态有网络服务(多数情况会使用该级别) 4----系统未使用留给用户 5----图形化界面,设定后开机即进入原创 2016-01-25 21:11:33 · 473 阅读 · 0 评论 -
Hadoop2.4.1学习笔记(二)之hdfs文件系统学习
Hadoop2.4.1学习笔记(二)之hdfs文件系统学习 Hdfs是分布式文件系统。 具体的实现机制: 1. 是将一个源文件分割成多个块,分别存在多台服务器中,每个块存在各个服务器的本地文件系统中。 2.对于客户端来说,会隐藏分布式的细节,由hdfs统一提供抽象的文件目录结构,在客户端访问时,是访问的该抽象目录结构,其内部会通过NameNode找到服务器对应的原创 2015-12-27 10:18:09 · 455 阅读 · 0 评论 -
hadoop1.x和2.x的区别、HA机制及zookepper介绍
hadoop1.x和2.x的区别、HA机制及zookepper介绍hadoop2.x 及hadoop1.x的HDFS的区别:hadoop2.x支持HA和Federation机制。hadoop1.x中不支持HA和Federation机制。在运算框架上:hadoop2.x是YARN + MAPREDUCE hadoop1.x只有 MAPREDUCEhadoop2.x的运算分为两个原创 2016-01-16 11:17:57 · 1057 阅读 · 0 评论 -
hadoop伪分布式的环境搭建
hadoop伪分布式的环境搭建1. 完成Centos6.4安装2.ifconfig -a 查看Linux本机的ip地址。在新安装的Centos6.4 Linux系统,需要配置手动配置本机的IP地址。步骤如下: 1.使用命令:vi /etc/sysconfig/network-scripts/ifcfg-eth0 编辑该文件,添加量如下图:在使用root用户登录的前提下使原创 2016-01-26 20:57:53 · 1768 阅读 · 0 评论