
hadoop
文章平均质量分 56
babydavic
这个作者很懒,什么都没留下…
展开
-
CAP理论温习
CAP:1 C: Consistency 一致性; 2. A: Availability 可用性(指的是快速获取数据); 3. P: Tolerance of network Partition 分区容忍性(分布式)。CAP理论:一个分布式系统不可能满足一致性,可用性和分区容错性这三个需求,最多只能同时满足两个。原创 2013-01-25 09:37:13 · 741 阅读 · 0 评论 -
Hadoop 的安全机制
1. 基于角色的授权(Role based authorization)确保职责的分离限制功能性的访问2. 管理和配置(Admin and Configuration)基于角色的管理可配置的节点和集群参数3. 身份认证框架(Authentication framework)认证节点认证客户端应用程序(为了访问集群和MapReduce任务)转载 2014-05-21 23:12:21 · 9343 阅读 · 0 评论 -
hive 客户端调用脚本无法处理中文问题
export LANG=en_US.UTF-8export LC_CTYPE=en_US.UTF-8export LC_NUMERIC=en_US.UTF-8export LC_TIME=en_US.UTF-8export LC_COLLATE=en_US.UTF-8export LC_MONETARY=en_US.UTF-8export LC_MESSAGES=en_US原创 2014-05-21 16:33:47 · 6438 阅读 · 0 评论 -
hive从查询中获取数据插入到表或动态分区
Hive的insert语句能够从查询语句中获取数据,并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees(雇员信息全量表),所属国家cnty和所属州st是该表的两个属性,我们做个试验将该表中的数据查询出来插入到另一个表employees中。INSERT OVERWRITE TABLE employeesPARTITION (country = '中国转载 2014-05-20 12:20:29 · 4666 阅读 · 0 评论 -
Hive 的 自定义 Inputformat
Hive默认创建的表字段分隔符为:\001(ctrl-A),也可以通过 ROW FORMAT DELIMITED FIELDS TERMINATED BY 指定其他字符,但是该语法只支持单个字符,如果你的分隔符是多个字符,则需要你自定义InputFormat来实现,本文就以简单的示例演示多个字符作为分隔符的实现。[一]、开发环境Hadoop 2.2.0Hive 0.12.0转载 2014-05-19 15:09:56 · 6363 阅读 · 0 评论 -
hive 的 简单操作语句
简单的创建表create table table_name ( id int, dtDontQuery string, name string) 创建有分区的表create table table_name ( id int, dtD转载 2014-05-15 17:51:21 · 5164 阅读 · 0 评论 -
Hadoop2 基本配置教程
本文为安装指导,在安装过程中,我们可以注意一下问题:1.当有多个HDFS集群同时工作时,用户如果不写集群名称,那么默认使用哪个?通过那个文件来进行配置?2.NameNode、DataNode、JournalNode等存放数据的默认公共目录在什么位置?3.那个文件可以配置ZooKeeper集群的地址和端口,配置过程中有限制?4.DataNode存储block的副本数量有没有数量限转载 2014-05-06 11:59:31 · 5834 阅读 · 0 评论 -
Hadoop 的命令笔记
bin/hadoop jar /home/***/secure_hadoop_project.jar package.OldInfoMerge /merges/old.txt /merges/tmp1 &查看根目录的列表bin/hadoop fs -lsr / 单节点启动5)重启namenodesudo -u hdfs /usr/lib/hadoo原创 2013-04-08 15:16:00 · 1989 阅读 · 0 评论 -
hadoop 引用 运行第三方的jar
在你的project里面建立一个lib文件夹,然后把所有的第三方jar包放到里面去,hadoop会自动加载lib依赖里面的jar。 http://www.blowide.com/2010/04/including-external-jars-in-a-hadoop-job/ 注意最后一段: Luckily, I bumped into a solution suggeste原创 2013-02-27 16:14:42 · 1701 阅读 · 0 评论 -
HTablePool 的使用方法
HTablePool可以解决HTable存在的线程不安全问题,同时通过维护固定数量的HTable对象,能够在程序运行期间复用这些HTable资源对象。Configuration conf = HBaseConfiguration.create();HTablePool pool = new HTablePool(conf, 10);1. HTablePool可以自动创建H原创 2013-02-21 15:14:32 · 2376 阅读 · 1 评论 -
Hadoop LZO 安装教程
1.安装 hadoop-gpl-compression1.1 wget http://hadoop-gpl-compression.apache-extras.org.codespot.com/files/hadoop-gpl-compression-0.1.0-rc0.tar.gz1.2 mv hadoop-gpl-compression-0.1.0/lib/native/Linux-a原创 2013-01-22 16:54:13 · 1995 阅读 · 0 评论 -
hadoop的安全问题处理
1.在namenode下,配置dfs.host,如生效将见到下面的结果 2013-01-17 12:11:34,043 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: dnRegistration = DatanodeRegistration(slave3:50010, storageID=, infoPort=50075,原创 2013-01-17 14:04:55 · 2736 阅读 · 0 评论 -
hadoop格式化失败原因 Format aborted in path
user6@das0 hadoop-0.20.203.0]$ bin/hadoop namenode -format12/02/20 14:05:17 INFO namenode.NameNode: STARTUP_MSG: Re-format filesystem in /data0/hadoop-name ? (Y or N) yFormat aborted in /d原创 2013-01-15 16:30:55 · 11014 阅读 · 0 评论 -
Hadoop 参数配置优化
主要参照官方给出的配置指南进行的。hadoop.tmp.dir默认值: /tmp说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。fs.trash.interval默认值: 0说明: 这个是开启原创 2013-01-14 15:52:08 · 5396 阅读 · 2 评论 -
hadoop 1.1.1 配置文件说明
2 常用的端口配置2.1 HDFS端口 参数描述默认配置文件例子值fs.default.name namenodenamenode RPC交互端口8020core-site.xmlhdfs://原创 2013-01-15 10:17:08 · 2353 阅读 · 0 评论 -
Hive 安装
1 、下载Hive-0.11.0http://apache.cs.utah.edu/hive/hive-0.11.0/2、解压安装 Hive原则上可以安装在集群上的任何一台机器上面,但是考虑到 master节点的负荷比较大,我们选择一台机器性能较好的datanode来安装hive。在我们的集群中选择cloud003来安装hive。另外,在我转载 2014-05-22 19:24:42 · 13004 阅读 · 0 评论