
hive
clamaa
这个作者很懒,什么都没留下…
展开
-
Hive使用入门
Hive简介hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。建立Hive表hive中创建表时,默认情况下hive负责管原创 2017-04-11 09:52:17 · 257 阅读 · 0 评论 -
Hive中的用户自定义函数UDF
Hive中的自定义函数允许用户扩展HiveQL,是一个非常强大的功能。Hive中具有多种类型的用户自定义函数。show functions命令可以列举出当前Hive会话中的所加载进来的函数,包括内置的以及用户加载的函数。 函数都有自身的使用文档,使用describe function命令就可以展示对应函数基本介绍。 标准函数UDF用户自定义函数指的是一行数据中的一列或是多列原创 2017-04-11 09:52:44 · 1537 阅读 · 0 评论 -
hive默认分隔符引起的日志分割问题
Hive中的外部表对于Hive中的外部表来说,因为表是外部的,Hive认为其并不拥有这份数据,删除该表并不会真正删除其中的数据,其中的表描述元信息会被删除掉。 对数据进行分区后,对于管理表,可以将其显示在hdfs目录中,但是外部表目录中不会真正存在数据,只能通过show partitions命令来显示外部表的分区信息。 我们的外部表是通过dateid进行的partition,如原创 2017-04-11 09:56:45 · 3024 阅读 · 0 评论 -
Hive语句执行优化-简化UDF执行过程
Hive会将执行的SQL语句翻译成对应MapReduce任务,当SQL语句比较简单时,性能还是可能处于可接受的范围。但是如果涉及到非常复杂的业务逻辑,特别是通过程序的方式(一些模版语言生成)生成大量判断语句时,出现的问题就会比较多。 精简Hive使用的SQL 当前项目中如果打包的数量过多,是当前性能的最大瓶颈,在做SQL优化时,至少会存在一个这样的SQL,当打包数量上百甚至到1千后原创 2017-04-11 09:57:11 · 1242 阅读 · 0 评论 -
记一次数据处理效率优化过程
我们最原始的产品使用hive来进行数据分析和处理,由于我们的业务模型所限制,往往需要经过多轮的MR来完成任务,经过多轮的优化,虽然取得了一定的成果,但是执行速度还是不能满足产品的要求。 其实,当时考虑使用hive,是由于其基于SQL良好的扩展性为前提的,也就是说,以后我们在增加功能的时候,修改的部分很少,只需增加一些where,group by条件,就可以达成目的,hive也确实能够满足这原创 2017-04-11 09:57:38 · 607 阅读 · 0 评论