
hive
太阳的味道
活泼开朗、适应力强、认真负责、吃苦耐劳,有良好的学习、沟通、协调能力,具备良好的团队合作精神,对工作积极严谨。平时爱好户外运动,喜欢打羽毛球。
展开
-
hive输出端小文件合并
文件数目过多,增加namenode的压力,hdfs的压力,同时需要更多map进程,影响处理效率。可以通过配置如下几个参数,合并Map和Reduce的结果文件,消除这些影响。控制每个任务合并小文件后的文件大小(默认256000000):hive.merge.size.per.task告诉hadoop什么样的文件属于小文件(默认16000000):hive.merge.smal转载 2013-04-16 10:00:36 · 2128 阅读 · 0 评论 -
hive 报错 "Too many connections"
是hive的元数据 mysql数据库的链接数太多了,通过增大max_connections解决。具体方法如下:/etc/my.conf 中的mysqld下面设置最多链接数,set-variable = max_connections=500 重启mysql : /etc/init.d/mysqld restart如果能直接登入mysql的话,直接用set max_c原创 2013-09-27 10:55:14 · 2202 阅读 · 0 评论 -
hive索引
索引是标准的数据库技术,hive 0.7版本之后支持索引。hive索引采用的不是'one size fites all'的索引实现方式,而是提供插入式接口,并且提供一个具体的索引实现作为参考。hive索引具有以下特点:1.索引key冗余存储,提供基于key的数据视图2.存储设计以优化查询&检索性能3.对于某些查询减少IO,从而提高性能。hive索引创建语句:转载 2013-06-19 20:10:36 · 779 阅读 · 0 评论 -
hive的join操作
Join的语法规则: join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LE转载 2013-06-04 17:28:29 · 727 阅读 · 0 评论 -
Hive – JOIN实现过程
Hive – JOIN实现过程准备数据语句SELECT a.uid,a.name,b.age FROM logs a JOIN users b ON (a.uid=b.uid);我们希望的结果是把users表join进来获取age字段。hive> SELECT * FROM logs;OKa 苹果 5a 橙子 3b 烧鸡 1 hive>转载 2013-06-03 16:18:15 · 1026 阅读 · 0 评论 -
Hive优化实例(一)
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时转载 2013-06-05 14:12:16 · 820 阅读 · 0 评论 -
HIVE中row_number函数的描述与使用场景
假设一个场景:存在表user_score,该表的数据如下 idratescore1'0-4'102'0-4'403'0-4'304'0-4'205'5-10'106'5-10'407'5-10'308'5-10'转载 2013-05-24 19:10:01 · 1973 阅读 · 0 评论 -
hive修改location
hive> alter table wms_c_wlsydmx set location '/user/hive/warehouse/zwpdb.db/wms_c_wlsydmx1' > ;FAILED: Error in metadata: /user/hive/warehouse/zwpdb.db/wms_c_wlsydmx1 is not absolu原创 2013-05-22 11:41:37 · 7697 阅读 · 1 评论 -
hive利用hbase实现更新
全过程:1. 建立hive表映射到hbase表(建表的时候不能建外表)2. 之后修改hive表属性,企图将内表改为外表,失败,不支持3. 向hive表插入数据,hive中有结果,hbase中也有结果4. 在hbase中插入数据,hbase中有结果,hive中也有结果5. 在hbase中更新数据,hbase中结果有变化,hive中结果也有变化6. 用hive插入hbas原创 2013-05-21 18:39:44 · 3583 阅读 · 0 评论 -
hive array、map、struct使用
hive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个group-》gid的kv对,gid的值可以通过M['group']来获取Arrays:array转载 2013-04-19 15:06:36 · 856 阅读 · 0 评论 -
空分区对hive执行的影响
如果一个分区表中有很多的空的分区(在hdfs上看仅仅一个空文件夹),那么对这样的分区表进行访问的时候,空的分区会带来性能的影响.我建了个表,做了测试,测试在有空分区和没有空分区的情况下,有什么区别.一,不包含空分区hive> SELECT count(*)> FROM sunwg_02> WHERE status=’enabled’> and hp_dw_e转载 2013-04-16 19:28:49 · 1707 阅读 · 0 评论 -
Hive调优实战
转自:Hive调优实战优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次转载 2013-04-16 20:19:10 · 812 阅读 · 0 评论 -
Hive函数之parse_url
详见:http://blog.youkuaiyun.com/xiaolang85/article/details/8823025转载 2014-04-28 14:58:19 · 1149 阅读 · 0 评论