hive
文章平均质量分 86
chad__chang
大数据开发高级工程师
优快云大数据领域优质创作者
阿里云专家博主
华为云大数据领域专家博主
[chad__chang大号](https://blog.youkuaiyun.com/u014645178?spm=1010.2135.3001.5421)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HIVE的Window functions窗口函数【二】
本文介绍了Hive窗口函数中的窗口表达式、窗口排序函数和窗口分析函数。窗口表达式通过rows between语法控制聚合范围,支持向前/向后指定行数。窗口排序函数包括row_number、rank、dense_rank和ntile,用于分组排序和TopN场景。窗口分析函数如lag、lead、first_value和last_value,可获取窗口内指定行的值。这些函数增强了Hive的数据分析能力,适用于复杂的分组计算场景。原创 2025-08-27 14:29:35 · 1017 阅读 · 0 评论 -
【Hadoop技术篇】hive的优化,经典面试
hive的优化,经典面试原创 2022-10-10 11:26:16 · 768 阅读 · 2 评论 -
HIVE创建UDF函数全流程
本文介绍了Hive UDF函数的开发与使用全过程,以姓名脱敏需求为例。主要内容包括:1)Maven工程配置,导入Hive3.1.2相关依赖;2)Java代码实现,继承GenericUDF类重写三个核心方法,处理不同长度姓名的脱敏规则;3)打包部署,将jar包上传至HDFS;4)Hive中注册函数并验证效果,实现单字报错、两字保留首字加*、多字保留首尾的功能。通过完整案例演示了自定义Hive函数的开发流程,为类似数据处理需求提供了参考方案。原创 2025-08-25 15:19:56 · 590 阅读 · 0 评论 -
HIVE的Window functions窗口函数【一】
摘要:本文介绍了SQL窗口函数的概念与应用,通过实例对比普通聚合函数与窗口函数的区别。窗口函数支持在保留原始行的同时进行聚合计算,使用OVER子句实现分组、排序和范围控制。文章详细讲解了窗口函数的语法结构,包括PARTITION BY、ORDER BY和窗口帧表达式,并提供了网站用户页面浏览分析的实战案例,演示了sum()函数在整表聚合、分组聚合及累积聚合中的不同用法。通过Hive SQL代码示例,展示了如何计算总PV、用户总PV和用户累积PV,帮助读者理解窗口函数在数据分析中的实际应用场景。原创 2025-08-27 11:40:31 · 1279 阅读 · 0 评论 -
Hive高阶函数之行转列&JSON数据解析
本文介绍了Hive中两种常见的数据处理场景:行转列和JSON解析。在行转列部分,展示了如何使用concat_ws和collect_set函数将多行数据合并为一列,实现部门ID分组后员工姓名拼接的效果。JSON解析部分提供了三种解决方案:get_json_object函数、json_tuple函数以及建表时使用JsonSerDe自动解析,并比较了它们的优缺点。文章通过具体示例演示了从数据准备到SQL实现的全过程,帮助读者掌握Hive中这些常用数据处理技巧。原创 2025-08-26 15:17:23 · 1046 阅读 · 0 评论 -
HIVE的高频面试UDTF函数
UDTF(表生成函数)是一类"一进多出"的函数,典型代表是explode函数,它能将数组或map类型数据展开为多行数据。通过案例演示如何将部门员工列表展开:首先创建包含数组类型的表并导入数据,使用explode函数时发现UDTF限制(不能与其他列同时查询),通过lateral view侧视图解决该问题。最终实现了将"部门ID|员工列表"转换为"部门ID-单个员工"的多行数据。对于字符串类型数据,可结合split函数处理。原创 2025-08-26 10:58:22 · 340 阅读 · 0 评论
分享