
hive
文章平均质量分 63
aturbofly
小硕一枚,码农一个。酷爱编程。热爱互联网。目前主要从事自然语言处理,推荐方面的算法开发。
研究生期间的研究方向:推荐系统。
展开
-
手把手教你定义一个UDF
本文目的为告诉读者在如何通过java实现一个UDF—>在linux下如何将该UDF打包成一个jar—>在hive中如何引入这个jar—>以及在此基础上定义函数。相信读者读完本文,一定可以自己实际定义任何所需的UDF。 废话不多少,直接看实例。假设想定义一个能够根据人的生日来计算他的星座的函数。步骤一:准备一份样例数据,我们将其写入文件bigdata.txt中,并放在某个路径下(例如原创 2015-11-11 21:09:08 · 6559 阅读 · 0 评论 -
浅析hive严格模式(strict mode)
在hive中提供了一种“严格模式”的设置来阻止用户执行可能会带来未知不好影响的查询。 设置属性hive.mapred.mode 为strict能够阻止以下三种类型的查询:1、 除非在where语段中包含了分区过滤,否则不能查询分区了的表。这是因为分区表通常保存的数据量都比较大,没有限定分区查询会扫描所有分区,耗费很多资源。Table: logs(…) partitioned b原创 2016-02-25 18:23:36 · 4912 阅读 · 0 评论 -
Impala性能调优
一、给表分区这个都知道,默认一个表的数据都是放在一个目录下的,对表分区,能够创建一些子目录,查询的时候,指定相应的条件能够实现只去相应的分区下查找数据,。 那么,什么情况下应该对表分区呢? 1)表非常的大。读整表会耗时很久 2)对表的查询几乎总是要涉及到用来分区的行作为刷选条件。如果对该表的查询几乎都不会采用分区行来作为条件,对表分区就没多大意义了,有时甚至还会适得其反。原创 2016-10-06 16:10:43 · 9651 阅读 · 0 评论