
Hive
文章平均质量分 84
大数据海中游泳的鱼
大数据海中游泳的鱼,对Spark、Hadoop、HDFS、Kafka、Hive、HQL、SQL都有兴趣。
展开
-
HQL中的JOIN操作
Hive支持多种JOIN方式将多个表连接起来,从而进行复杂的查询操作,包括INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN、CROSS JOIN和SELF JOIN等。在Hive中,可以使用SELF JOIN方式进行递归查询,从而查询出某个节点的所有子节点或父节点等信息。其中,子查询部分查询出初始条件下的员工信息,使用UNION ALL和JOIN子查询部分进行递归查询。查询结果中,包含每个下属员工的姓名和深度等信息,深度表示该员工相对于初始条件员工的层数。原创 2023-04-19 00:15:00 · 887 阅读 · 0 评论 -
HQL中ACID表
在Hive中,ACID(原子性、一致性、隔离性和持久性)表是指支持事务的表。ACID表在执行INSERT、UPDATE、DELETE等操作时,会自动创建一个事务,确保操作的原子性、一致性、隔离性和持久性。同时,ACID表还支持快照读取和多版本并发控制等功能,可以提高数据的访问效率和安全性。原创 2023-04-10 23:34:02 · 270 阅读 · 0 评论 -
HQL大杂烩
HQL(Hive Query Language)是Hive提供的一种类SQL的查询语言,用于在Hive中查询和处理数据。HQL语言类似于SQL语言,支持常用的SQL查询操作,比如SELECT、FROM、WHERE、GROUP BY、ORDER BY等,同时也支持Hive特有的查询操作,比如分区查询、桶排序等。Hive是一个基于Hadoop的数据仓库工具,可以将结构化数据映射到Hadoop分布式文件系统(HDFS)上,并提供类SQL查询接口,用户可以使用HQL语言查询和分析数据。原创 2023-04-10 23:28:31 · 373 阅读 · 0 评论 -
什么是HQL
Hadoop管理员:管理Hadoop集群的部署、维护和安全性,包括用户管理、数据源管理和HQL查询优化等,以保证Hadoop集群的正常运行和数据的安全性。数据分析师:使用HQL进行数据分析和可视化,包括数据的导入、清洗、转换、建模和报表设计等,以实现数据的探索和发现。优化查询语句:优化查询语句可以减少查询的响应时间,包括使用合适的查询条件、减少不必要的表连接和使用索引等。调整查询计划:调整查询计划可以优化查询性能,包括使用合适的分区、调整数据分布和使用合适的并行度等。原创 2023-04-06 22:37:07 · 2639 阅读 · 0 评论 -
大数据离线分析的完整流程
大数据分析大概流程,和对应的组件原创 2023-04-16 00:15:00 · 1772 阅读 · 0 评论 -
Hive数据倾斜
任务进度长时间维持在99%(100%),查看任务监控页面(通过HPM、HSJO、HSJD、HSJR等监控工具),发现只要少量(1个或几个)reduce子任务未完成。通常情况下,JOIN操作在Reduce阶段执行表连接,整个JOIN过程包含Map、Shuffle、Reduce三个阶段。(在大表和一个或多个小表JOIN的场景下,MAPJOIN会将您指定的小表全部加载到执行JOIN操作的程序的内存中,因此指定的表仅能为小表。Hive的默认Input Split是128MB(可配置),小文件可先合并成大文件。原创 2023-04-05 14:33:19 · 271 阅读 · 0 评论