hadoop
文章平均质量分 57
xtqve
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
maps 和 reduces 的数量
原文:http://wiki.apache.org/hadoop/HowManyMapsAndReduces1、增加task的数量,一方面增加了系统的开销,另一方面增加了负载平衡和减少了任务失败产生的开销2、map task的数量控制是比较subtle,因为 mapred.map.tasks的参数值并不能直接控制map的数量,它只是给InputFormat一个提示。而InputFormat转载 2013-05-17 19:15:00 · 755 阅读 · 0 评论 -
Hive create external table partition关联数据文件
EXTERNAL 外部表 在建表的时候制定一个指向实际数据的路径(LOCATION)hive创建内部表时,会将数据移动到数据仓库指向的路径; 创建外部表时,仅记录数据所在的路径,不对数据的位置做任何改变,在删除表的时候: 内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。HDFS中已经导入了城市日期数据文转载 2013-12-27 14:53:13 · 3546 阅读 · 0 评论 -
HBase性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonSe转载 2013-12-18 16:44:40 · 539 阅读 · 0 评论 -
Hive与关系型数据的一些差别
1.更新,事务,索引,不支持,是全表扫描,但它支持通过partition和bucket来进行快速查询2.创建表的字段类型和java类型是对应的。区别在于它有tinyint代替char,只有0.10.0之后才支持日期类型,并新增了binary数据类型,提供转换为字符串类型的函数。3.查询语句中,不支持having,可写嵌套的select来解决;group by后只能是表的定义列名,不转载 2013-12-27 16:35:57 · 835 阅读 · 0 评论 -
Hive文件的导入与导出
官方提供两种导入数据的方式:1、从现在表中导入insert overwrite table TableName select * from original_tableName;另外一种,对多个表的插入:from TABLENAME1insert overwrite table TABLENAME2 select keyinsert overwrite ta原创 2013-12-27 20:38:38 · 1015 阅读 · 0 评论 -
Hive Sort by/Order By/Cluster By/Distribute By
Order by :它是对输入做全局排序,因此只有一个reducer(多个reducer无法保证佤有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。在hive.mapred.mode=strict模式下,强制必须添加limit限制,这么做的目的是减少reducer数据规模。例如,当限制limit 100时,如果map的个数为50,则reducer的输入规模为10转载 2013-12-27 17:20:57 · 854 阅读 · 0 评论 -
Hive 中一些特殊的HSQL
1、导入数据时,指定分隔符 CREATE TABLE new_table_name row format delimited fields terminated by '\t' stored by textfileas select id,name from table_name;原创 2013-12-30 16:37:03 · 1761 阅读 · 0 评论 -
如何查看HADOOP中经常提到的错误编号
https://issues.apache.org/jira/browse/HBASE-217后面的HBASE-271可以根据书面提到的错误码好查看原创 2013-12-28 17:48:10 · 635 阅读 · 0 评论 -
hadoop 相关功能源码介绍
1、hadoop实现二度人脉与好友推荐 https://github.com/intergret/snippet/blob/master/deg2friend.java原创 2013-10-30 15:54:55 · 682 阅读 · 0 评论 -
当Hadoop遇上小文件
1、什么是小文件?小文件就是指那些小于hdfs一个block大小的文件。2、这样的文件hadoop支持怎么样?小文件会给hadoop的扩展性和性能带来严重问题。小文件在hadoop中主要存在两个方面的问题,一个是hdfs存储,一个是mapreduce计算。hdfs中,任何block,文件或目录在内存中均以对象的方式存储,一个对象的大小是150kb,那么一千万个文件就需要2G的内存,原创 2013-08-27 11:31:28 · 692 阅读 · 0 评论 -
hbase默认配置说明
hbase.rootdir这个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 '/hbase'目录,namenode 运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认情况下H转载 2013-08-05 18:58:47 · 1135 阅读 · 0 评论 -
hadoop CLASSNAME的执行
官方帮助中提示,如果需要执行java类,只需要执行命令:hadoop CLASSNAME(如:hadoop org.apache.hadoop.test.HelloWorld)即可,但是,实际上真正运行,需要配置$HADOOP_CLASSPATH变量。举例说明:export /hadoop/hadoop/*.jar:$APP_HOME/binhadoop org.apache.hadoop原创 2013-07-18 19:47:48 · 956 阅读 · 0 评论 -
Hadoop 添加删除DataNode 和 TaskTracker
在配置 hadoop相关信息时,建议 datanode和tracker分开写独立的exclude文件,因为一个节点即可以同时是 datanode和tasktracker,也可以单独是datanode和tasktracker.1、删除datanode修改 namenode 上的hdfs-site.xmldfs.hosts/hadoop/hadoop/conf/datanode转载 2013-05-22 11:11:03 · 1223 阅读 · 0 评论 -
hadoop dfsadmin -safemode 详解
NameNode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(由hdfs-site.xml文件中dfs.safemode.threshold.pct决定,默认0.999f),则系统会一直处于安全模式状态即只读状态。dfs.safemode.threshold.pct表示HDFS启动的时候,如果DataNode上报的 block个数0.999倍才可以离开安全模原创 2013-05-21 18:04:21 · 1653 阅读 · 0 评论 -
HDFS dfsclient写文件过程 源码分析
原文出自:http://www.cnblogs.com/ggjucheng/archive/2013/02/19/2917020.htmlHDFS写入文件的重要概念HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk(默认512Byte)组成。Chunk是进行数据校转载 2015-04-03 14:36:26 · 701 阅读 · 0 评论
分享