
Hadoop
文章平均质量分 61
colinmok
这个作者很懒,什么都没留下…
展开
-
何谓海量数据处理
何谓海量数据处理? 所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。 那解决办法呢?针对时间,我们可以采用巧妙的算法搭配合适的数据结构,如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树,针对空间,无非就一个办法:大而化小:分而治之/hash映射转载 2014-07-18 15:12:31 · 617 阅读 · 0 评论 -
学习总结十七:ZooKeeper集群搭建
1.ZooKeeper1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。(传输的数据要保证2M以下,各服务器时间也要保持一致)2.如何搭建ZooKeeper服务器集群2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。2.2 在hadoop0的/usr/local目录下,解压缩zk....tar.gz,设置环境变量2.3 在conf目录原创 2014-07-05 22:48:30 · 481 阅读 · 0 评论 -
学习总结十九:Hbase数据库shell操作
创建表 create '表名称', '列族名称1','列族名称2','列族名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录 get '表名称', '行名称'查看表中的记录总数 count '表名称'删除记录 delete '表名' ,'行名称' , '列名称'删除一张表 先要屏蔽该表,才能对该表进行删除,第一步 disable原创 2014-07-06 16:21:13 · 561 阅读 · 0 评论 -
学习总结二十一:Hbase集群搭建
1.hbase的机群搭建过程(在原来的hadoop0上的hbase伪分布基础上进行搭建)1.1 集群结构,主节点(hmaster)是hadoop0,从节点(region server)是hadoop1和hadoop21.2 修改hadoop0上的hbase的几个文件 (1)修改hbase-env.sh的最后一行export HBASE_MANAGES_ZK=false(2)修原创 2014-07-06 19:25:38 · 505 阅读 · 0 评论 -
学习总结九:hdfs中的RPC
1.RPC1.1 RPC (remote procedure call)远程过程调用.远程过程指的是不是同一个进程。1.2 RPC至少有两个过程。调用方(client),被调用方(server)。1.3 client主动发起请求,调用指定ip和port的server中的方法,把调用结果返回给client。1.4 RPC是hadoop构建的基础。2. 通过例子获得的认识?转载 2014-07-03 11:54:00 · 691 阅读 · 0 评论 -
学习总结十二:Hadoop学习之SecondaryNameNode
在启动Hadoop时,NameNode节点上会默认启动一个SecondaryNameNode进程,使用JSP命令可以查看到。SecondaryNameNode光从字面上理解,很容易让人认为是NameNode的热备进程。其实不是,SecondaryNameNode是HDFS架构中的一个组成部分。它并不是元数据节点出现问题时的备用节点,它和元数据节点负责不同的事情。1、Secondar转载 2014-06-29 15:16:32 · 979 阅读 · 0 评论 -
学习总结二十:坑爹呀,hadoop2源码编译
做了几次,终于把源码编译好了。原来是内存分配小了。 安装步聚整理:1.安装CentOS在VMWare虚拟机,安装CentOS6.5版本,内存分配2GB,磁盘空间 分配20GB。内存太小,会比较慢;磁盘太小,编译时可能会出现空间不足的情况。注意一定要保持linux联网状态。(前面三次按装,两次是因为联网问题,安装失败,最后一次按装失败是因为内存分配过小)centos6.5下载原创 2014-06-29 13:40:18 · 535 阅读 · 0 评论 -
学习总结二十二:flume是分布式的日志收集系统
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling d转载 2014-07-07 12:43:56 · 653 阅读 · 0 评论 -
学习总结六:hadoop的集群安装
1.hadoop的分布式安装过程1.1 分布结构 主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker1.2 各节点重新产生ssh加密文件1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射转载 2014-07-03 12:01:28 · 423 阅读 · 0 评论 -
学习总结十一:linux常用命令
1.通过远程工具登陆到linux后,所在的位置是当前登录用户的家目录(home directory)。2.家目录的符号用~表示。3.linux的文件系统是一个树结构。 linux文件系统的树根成为根目录,使用符号"/"表示。 linux文件系统中使用符号".."表示上级目录。 linux文件系统中使用符号"."表示当前目录。 linux文件系统中,如果文件使用“.”转载 2014-07-03 11:49:15 · 369 阅读 · 0 评论 -
学习总结十:hadoop的伪分布安装
1.hadoop的伪分布安装1.1 设置ip地址执行命令 service network restart验证: ifconfig1.2 关闭防火墙执行命令 service iptables stop验证: service iptables status1.3 关闭防火墙的自动运行执行命令 chkconfig iptables off验证: chkconfig -转载 2014-07-03 11:50:57 · 506 阅读 · 0 评论 -
学习总结五:Hadoop中CombineFileInputFormat详解
本文转载自:http://blog.youkuaiyun.com/wawmg/article/details/17095125在MR实践中,会有很多小文件,单个文件产生一个mapper,资源比较浪费,后续没有reduce逻辑的话,会产生很多小文件,文件数量暴涨,对后续的hive job产生影响。所以需要在mapper中将多个文件合成一个split作为输入,CombineFileInputF转载 2014-07-03 16:25:35 · 780 阅读 · 0 评论 -
学习总结一:hdfs fs常用命令使用
-help [cmd] //显示命令的帮助信息-ls(r) //显示当前目录下所有文件-du(s) //显示目录中所有文件大小-count[-q] //显示目录中文件数量-mv //移动多个文件到目标目录-cp //复制多个文件到目标目录-rm(r) //删除文件(夹)-put //本地文件复制到hdfs-copyFromLocal //同put转载 2014-06-29 14:47:36 · 2126 阅读 · 0 评论 -
学习总结三:搭建ZooKeeper服务器集群
zookeeper原理图转载 2014-06-29 16:11:27 · 568 阅读 · 0 评论 -
学习总结七:Hadoop的数据类型
1.Hadoop的数据类型要求必须实现Writable接口。2.java基本类型与Hadoop常见基本类型的对照Long LongWritableInteger IntWritableBoolean BooleanWritableString Text问:java类型如何转化为hadoop基本类型?答:调用hadoop类型的构造方法,或者调用set()方法。转载 2014-07-03 11:57:28 · 544 阅读 · 0 评论 -
学习总结十六:hadoop安全模式
hadoop安全模式几种状态原创 2014-07-05 19:09:25 · 644 阅读 · 0 评论 -
学习总结十八:Hbase数据库介绍
Hbase是Hadoop中的数据库,属于NoSql数据库。原创 2014-07-06 15:11:41 · 495 阅读 · 0 评论 -
学习总结十三:Hadoop核心项目
HDFS: Hadoop Distributed File System 分布式文件系统 MapReduce:并行计算框架原创 2014-06-29 14:29:36 · 540 阅读 · 0 评论 -
学习总结八:在eclipse中的写的代码如何提交作业到JobTracker中的?
问:在eclipse中的写的代码如何提交作业到JobTracker中的哪?答:(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect();info = jobClient.submitJobInternal(conf);(2)在connect()方法中,实际上创建了一个JobClient对象。 在调用该对象的转载 2014-07-03 11:56:21 · 877 阅读 · 0 评论 -
学习总结十五:分布式实时计算系统storm简介
在大数据处理上,大家可能对hadoop中的mapredace原创 2014-06-29 18:39:02 · 774 阅读 · 0 评论 -
学习总结四:hadoop集群动态增加新节点及下架一个节点
安全模式出现的场合:i原创 2014-07-05 18:20:50 · 769 阅读 · 0 评论 -
学习总结二十三:深入学习hbase数据库
1.hbase的region块大小,是由hbase-site.xml文件中的原创 2014-07-09 16:21:00 · 718 阅读 · 0 评论