
Hive
#
NICEDAYSS
do one more thing
公众号:N个程序猿的日常 欢迎关注
展开
-
钻牛角尖系列(二)Hive调优与思考
写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.youkuaiyun.com/qq_35050438,让我们一起挖掘数据与.原创 2020-07-07 18:20:29 · 582 阅读 · 1 评论 -
Hive系列(六)Hive内置函数与自定义函数(总结)--自从有了UDF--我:就这??
文章目录Hive函数及其性能优化:Hive函数分类:`从输入输出角度分类:``从实现方式分类:`Hive内置函数:Hive的UDF:-user-defined functionJAVA操作过程:HiveUDAF:用户自定义聚合函数:-user-defined aggregate functionJAVA操作过程:HiveUDTF:用户自定义表生成函数:-user-defined aggregate functionJAVA操作过程:UDF | UDAF | UDTF 区别:Hive宏函数:Hive的事务处理原创 2020-06-24 01:26:42 · 560 阅读 · 0 评论 -
Hive系列(三)Hive分区后数据仍划分不均??Hive分桶教你怎么解决
文章目录Hive分桶:-Buckets一:为什么要分桶?:--对数据的垂直切分解决方案二:分桶有什么用?:三:分桶遵循什么原理?四:怎么分桶?:第一步:创建分桶表:第二步:设置分桶规则:第三步:必须用insert方式加载数据:(除非你把严格分桶模式关闭)五:都是为了提高查找效率,索引和分桶和分区?Hive分桶:-Buckets一:为什么要分桶?:–对数据的垂直切分解决方案问这个前提是因为我们已经有分区了,为什么又分桶呢?分区提供了一个隔离数据和优化查询的便利方式,不过并非所有的数据都可形成合理的分原创 2020-06-17 20:10:20 · 2341 阅读 · 0 评论 -
Hive系列(四)听说Hive分区能提高查找效率??快来试试-----各种姿势导表
文章目录一:Hive分区简介:分区的方式:分区的作用:分区的配置:二:分区的具体过程:创建分区:设置分区:向分区插入数据:一:Hive分区简介:分区的方式:动态分区静态分区分区的作用:分区主要用于提高性能没有分区的存在,那么每次查询Hive将会进行全表扫描分区列的值将表划分为segments(文件夹)查询时使用分区列和常规列类似查询Hive自动过滤不用于提高性能的分区主要是以缩小数据查询范围,提高查询速度和性能的分区的配置:-- Hive默认配置值-- 开启或原创 2020-06-17 17:46:36 · 1516 阅读 · 0 评论 -
Hive系列(五)客户需求千变万化。。我都晕了---sql行转列与列转行总结(Hive版)
文章目录sql列转行:sql行转列:sql列转行:核心思想:列值转列名:往往列值是几个类别不是数值型核心方法:case…when… | collect_list(列名)案例一:将上图列值将其转化为下图列名countrymalefemalechina2438通常情况下:列值多为类别型,转换为列名后需要记数法一:case…when…select sum(case when gender='Female' then 1 else 0 end) as原创 2020-06-17 08:30:14 · 1065 阅读 · 0 评论 -
Zeepelin系列(一)Zeepelin安装和配置以及对Hive的基本使用
Zeppelin安装:第一步:上传linux将tar包放到/opt目录下进行解压tar -zvxf zeppelin-0.8.1-bin-all.tgz mv zeppelin-0.8.1-bin-all /opt/soft/zeppelin081第二步:修改配置文件进入conf目录修改cd /opt/soft/zeppelin081/conf/cp zeppelin-site.xml.template zeppelin-site.xml修改端口号:默认是8080,为避免冲突原创 2020-06-16 01:02:19 · 904 阅读 · 0 评论 -
Hive:窗口函数(转载)
简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析(在线分析处理)。概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数...转载 2020-06-15 02:02:02 · 258 阅读 · 0 评论 -
Hive系列(一)Hive的安装与配置--全的不行!!
文章目录Hive安装:第一步:安装压缩包第二步:配置zookeeper第三步:配置hive第四步:启动HDFS--ZooKeeper--Hive第五步:启动Hive黑界面Hive安装:第一步:安装压缩包tar -zxf zookeeper-3.4.5-cdh5.14.2.tar.gztar -zxf hive-1.1.0-cdh5.14.2.tar.gzmv zookeeper-3.4.5-cdh5.14.2 soft/zk345mv hive-1.1.0-cdh5.14.2 soft/h原创 2020-06-11 01:05:10 · 316 阅读 · 0 评论 -
Hive系列(二)Hive的基本原理与操作--全的不行!!!
文章目录Hive的作用和优势:基于Hadoop的数据仓库解决方案优势:缺点:Hive的基本架构原理:1.用户接口:Client2.元数据:Metastore3.Hadoop4.驱动器:DriverHive的数据类型:Hive元数据结构:元数据管理:Hive的数据库和表操作:数据表:Hive安装:第一步:安装压缩包第二步:配置zookeeper第三步:配置hive第四步:启动HDFS--ZooKeeper--Hive第五步:启动Hive黑界面Hive基本命令:创建数据库:创建内部表:创建外部表:插入表数据:查原创 2020-06-10 16:54:30 · 1936 阅读 · 5 评论