hive
文章平均质量分 69
Ziss94
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive-查询-Join
语法特点:使用JOIN或INNER JOIN关键字,表名后可加别名简化查询,如FROM emp e JOIN dept d或FROM emp AS e INNER JOIN dept AS d。定义:当表A(m行)和表B(n行)进行连接操作时,若没有有效连接条件,表A的每一行都会与表B的每一行进行组合,产生m×n行的结果集。注意事项:连接n个表至少需要n-1个连接条件,如连接三个表需要两个连接条件。应用场景:当分析需求需要同时使用多张表的数据时使用,如计算跨表指标。原创 2025-07-23 20:45:05 · 966 阅读 · 0 评论 -
Hive-基础查询
执行原理:在MapReduce框架下,先通过Map阶段读取数据,再通过Reduce阶段进行计数汇总。作用:将MapReduce任务运行在单个节点的单个进程中,提高小数据量测试效率。实现方法:使用select count(*) from omp统计总行数。特点:无论传入多少列,count统计的都是行数而非列数。语法:select count(*) from 表名。参数:可以传入星号*表示所有列,也可以指定特定列名。特点:聚合函数将多行数据汇总计算后返回单个值。作用:限制返回结果的行数。原创 2025-07-15 17:08:24 · 508 阅读 · 0 评论 -
Hive-查询-having
基本语法:SELECT job, count(*) FROM emp GROUP BY job;执行结果:返回每个job对应的count(*)值,如研发3人、行政4人等。新需求引出:需要筛选出员工人数≥2的岗位,这属于对分组结果的二次过滤。结果验证:最终只显示人数≥2的岗位记录(如研发3人、行政4人等)执行原理:先完成分组聚合计算,再将结果作为临时表进行条件过滤。语法要点:必须给子查询命名别名,否则会报语法错误。用于统计每个岗位的员工人数。原创 2025-07-17 20:28:47 · 395 阅读 · 0 评论 -
Hive架构原理
典型示例: 记录test表的存储路径为hdfs: / / namenode:8020 / user / hive /warehouse / test。管理内容: 存储数据库、表结构(字段名/类型)、表HDFS路径等元信息。协议支持: 同时兼容Java(JBDC)和其他语言(ODBC)客户端。生产推荐: MySQL关系型数据库(支持多会话并发访问)架构特点: 仅提供访问接口,不负责实际存储(解耦设计)默认存储: 使用嵌入式Derby数据库(单会话限制)功能定位: 专门提供元数据访问接口的服务组件。原创 2025-06-25 21:29:01 · 402 阅读 · 0 评论 -
了解一下什么是Hive
由Facebook开源,是基于Hadoop的数据仓库工具。可以将结构化数据文件映射为一张表,并提供类SQL查询功能。Hive是一个Hadoop客户端,用于将HQL(Hive SQL)转化为Mapreduce程序。主要用于海量数据的分析和计算。原创 2025-06-24 20:34:13 · 172 阅读 · 0 评论 -
Hive-查询-分组Group By
基本概念:Group By语句通常与聚合函数配合使用,按照一个或多个列对结果进行分组,然后对每个组执行聚合操作。结果特点:返回行数等于分组数量,每组对应一行结果。1. Group By语句。2. 分组聚合的注意事项。原创 2025-07-17 20:15:48 · 377 阅读 · 0 评论
分享