
Hive
文章平均质量分 54
Hive
凌不了云
我家娃可爱不,哇咔咔!!!
展开
-
Group By Sets语法
是 SQL 中的一种分组扩展语法,它允许你在一个查询中指定多个不同的分组集合,将这些分组集合的结果合并在一起,就好像对每个分组集合分别执行GROUP BY操作后再将结果汇总。这种语法可以减少重复的 SQL 查询,提高查询效率。下面从语法结构、示例以及使用场景等方面详细介绍。需要注意的是,语法的支持情况可能因数据库系统而异,例如 MySQL 从 8.0.19 版本开始支持该语法,而在早期版本中不支持。在使用时,需要根据自己使用的数据库版本进行确认。()原创 2025-04-26 14:30:19 · 392 阅读 · 0 评论 -
orcfiledump
hive --orcfiledump -p hdfs://***/data__383154fc_6277_4f30_9577_c173e4f45ca9原创 2024-11-22 13:59:10 · 179 阅读 · 0 评论 -
hadoop 重启异常,找不到DN块文件
最后平滑重启NameNode,在重启异常的DataNode解决。允许ipc通讯最大的数据包为128MB,默认配置为64MB。原创 2024-10-15 13:37:51 · 330 阅读 · 0 评论 -
Spark task 数量超 10w 治理参数
通过调大 spark stage 中单个 task 读的 split 大小来减少 task 数量。原创 2024-09-19 17:21:18 · 248 阅读 · 0 评论 -
spark 数据膨胀
数据膨胀,不能改变其膨胀倍数本身,但是可以通过增加partitions来减少单个task的数据量。原创 2024-03-27 12:44:54 · 233 阅读 · 0 评论 -
clickhouse_driver
通过本教程,你应该对如何使用clickhouse_driver模块与ClickHouse数据库进行交互有了基本的了解。clickhouse_driver提供了强大的功能,使你能够方便地从Python程序中查询和分析ClickHouse中的数据。随着你的使用深入,你将能够更充分地利用这个库来满足你的数据分析需求。• 根据你的ClickHouse配置,可能需要调整连接参数(如主机、端口、用户名和密码)。• 在处理大量数据时,注意内存和性能的影响,可能需要调整查询或使用更高效的数据检索方法。原创 2024-08-20 20:47:08 · 1283 阅读 · 0 评论 -
hivesql -行转列 lateral view explode
b.再行转列(此时所有的字段都存放到一列中了,相当于求该列有值的情况下,哪个客户的记录数最多的问题了)tips:用户画像标签有500多个分散在30多个表中,即一个用户有500多个标签属性。例如有三张表a1,a2,a3,每张表的字段不同(但是客户数是一样的id)拿到一个需求:需要找出50个客户使得用户画像标签尽可能丰富(有值的)结果如下:得到每个id 对应的有值的字段。找出这三张表中标签字段最丰富的客户。a.先将要比较的字段拼接成一行。原创 2024-08-23 15:59:42 · 72 阅读 · 0 评论 -
大数据权限实践
原创 2024-04-19 15:30:50 · 90 阅读 · 0 评论 -
BitMap及其在ClickHouse中的应用
https://zhuanlan.zhihu.com/p/480345952转载 2024-09-04 16:45:17 · 226 阅读 · 0 评论 -
Hive bitmap udf
Hive bitmap udf - 简书转载 2024-09-04 16:42:23 · 392 阅读 · 0 评论 -
hive on spark 合并小文件
最近在做用户画像相关的数据开发,在hive中做行转列的过程中,每个标签即tag在写入hive表时,有大量的小文件生成,通过增加参数解决了小文件过多的问题,但是在完成特殊要求--(因后续需要同步ck,ck也有个为解决的问题,超过200M可能会丢失数据,故需要将hive在行转列的时候,合并的小文件在200M一下,方便后续ck数据同步)时,又产生了新的问题,通过hive合并小文件的参数,总是有些tag的数据生成的文件在200M以上;增加此参数,才会在hive on spark模式中进行小文件合并。原创 2024-09-04 09:32:12 · 928 阅读 · 0 评论 -
Spark应用 | Hive On Spark性能调优
我们公司yarn node节点的可用资源配置为:单台node节点可用资源数:核数33cores、内存110G。Hive on Spark任务的基础配置,主要配置对象包括:Executor和Driver内存,Executor配额,任务并行度。Spark系统架构。转载 2024-08-28 17:47:40 · 482 阅读 · 0 评论 -
metastore和hdfs事务一致性设计
解决高并发情况下,表删除和更改时,确保hive侧metastore和hdfs侧事务一致性原创 2024-04-02 15:35:16 · 827 阅读 · 0 评论 -
hive.exec.orc.default.stripe.size相关
1)因此在适当增大hive.exec.orc.default.stripe.size, "256*1024*1024"的值可提高效率,就像适当提高blocksize也可以加快效率原理类似.也就是对应的default设置值:hive.exec.orc.default.stripe.size, "256*1024*1024 " stripe的默认大小。适当加大hive.exec.orc.default.stripe.size配置,以及在orc表比较大的情况下使用BI策略可有效提高效率,原创 2023-12-26 09:52:12 · 924 阅读 · 1 评论 -
Spark Executor GC负载高
spark.driver.memory参数 向大调整(注意cgroup值也做相应调整)spark.dynamicAllocation.maxExecutors参数向大调整。spark.sql.shuffle.partitions 参数向大调整。如spark.executor.memory 参数一般向大调整。spark.driver.memory=$[目前值]*1.5。spark.driver.cores=$[目前值]*1.5。spark.executor.cores参数向小调整。1.调整内存相关的参数。原创 2023-11-27 19:47:54 · 330 阅读 · 0 评论 -
Spark Driver GC负载高
spark.driver.memory=$[目前值]*1.5。spark.driver.cores=$[目前值]*1.5。1.调整内存相关的参数。原创 2023-11-27 18:56:34 · 655 阅读 · 0 评论 -
mapjoin设置不合理
方案二:需要使用mapjoin,hive.mapjoin.smalltable.filesize与mapreduce.map.java.opts最低比例为 10M : 1.5G ,即hive.mapjoin.smalltable.filesize设置为10M 则mapreduce.map.java.opts 至少设置为1.5G。方案一:去掉mapjoin任务运行变化很小或者未触发mapjoin,建议关闭mapjoin。方案三:Spark任务设置了mapjoin hint,可增加参数。原创 2023-11-27 18:34:38 · 379 阅读 · 0 评论 -
MAPREDUCE GC频繁
问题描述:mapreduce.job.running.reduce.limit原创 2023-11-27 18:11:35 · 357 阅读 · 0 评论 -
Map Reduce并发不足
问题描述:mapreduce.job.running.map.limit原创 2023-11-27 18:08:21 · 64 阅读 · 0 评论 -
mapreduce.map.java.opts mapreduce.reduce.java.opts设置不合理
问题描述:当mapreduce.map.java.opts设置大于mapreduce.map.memory.mb的90%,则有问题,必须要留出15%以上的内存buffer。1、mapreduce.map.memory.mb和mapreduce.map.java.opts必须结对配置,不可只单独配置其中一项。原创 2023-11-27 18:05:54 · 318 阅读 · 0 评论 -
AM GC时间过长
包括container的申请、启动、kill、状态检查等。平台使用yarn做资源调度框架,其中AM(AppMaster)进程负责管理用户作业的资源控制,原创 2023-10-31 16:15:41 · 51 阅读 · 1 评论