
大数据开发
文章平均质量分 63
大数据开发相关内容,例如 HiveSQL,SparkSQL等大数据相关开发经验总结分享
鹏说大数据
大数据工程师,数据治理专家,数据治理项目负责人,多项目数据治理负责人,实际数据治理项目5年+经验,数据仓库数据开发方向10年+经验。科大讯飞集团技术明星,大数据方向技术明星,技术组长。
展开
-
SQL语句执行顺序及实际案例
本文主要是以MySQL数据库为例,介绍SQL语句执行顺序及其实际案例,为平时编写SQL时,会遇到的比较迷惑的问题,寻找底层思路。原创 2025-02-11 07:00:00 · 741 阅读 · 0 评论 -
SparkSQL大增量表取最新组织关系
表取最新用户组织关系,本身是个简单的逻辑,但是当数据量大到一定程度的时候,简单的关联已经太耗费资源,且不能满足执行速度的要求,我们可以通过拆分变化和不变的用户来优化。原创 2025-02-11 07:00:00 · 593 阅读 · 0 评论 -
scala-tools mavent 打包出错原因
scala-tools 打包出错问题原创 2022-07-24 14:35:24 · 542 阅读 · 0 评论 -
insert overwrite自我覆盖的spark替代语法
insert overwrite自我覆盖的spark替代语法1. 问题背景:当我们使用spark-sql的时候, 使用 insert overwrite table A select * from A 会报错2.解决办法:可以通过临时表的方式解决问题create temporary view TEMP_A asselect * from A;insert overwrite table Aselect * from TEMP_A; ...原创 2021-01-12 17:45:48 · 2467 阅读 · 0 评论 -
SparkSQL的UDF大数据量执行结果和HiveSQL的UDF不一致
因为Spark是线程不安全的,所以如果UDF使用了非线程安全的操作,那么就会导致不可预测行为,Hive是每个UDF在单独的JVM里执行,就会好很多。原创 2024-10-08 13:56:02 · 1073 阅读 · 0 评论 -
大表关联小表hint和explain的使用
spark中大表关联小表hint和explain的使用1. 问题背景:在工作中中遇到个问题,那就是一个 大表A left join 一个很小的表 B查询速度总是很慢, 就想着怎么去优化,于是就查了些资料,得到可以通过设置 broadcastjoin的方式来优化,但是呢,这种方法很多都是使用scala的语法去写dataframe的方式实现,但是这太大费周章了,于是找到了hint的方法2. spark关联方式的知识(broadcast join、shuffle hash join和sort merg原创 2021-01-12 15:55:17 · 859 阅读 · 0 评论 -
嘿!大数据 呵! 小文件,对小文件重拳出击!
大数据平台小文件解决办法1. 背景平时只是在大数据平台上写 sparksql 不关注大数据平台文件,今天看了下,发现每个表对应hdfs上的文件数量很对,而且大小不一我们知道这有两个影响:文件数量越多,查询扫描的效率越低文件大小不一,会导致数据倾斜,降低查询效率所以小文件越来越多的问题,急需解决2.解决办法由于我是采用写sparksql的方式生成这些表数据的,所以解决办法也是针对sql脚本的,如果是spark程序也是类似针对两个影响1)第一拳,减少小文件数量set spark.sql.原创 2021-03-30 19:50:00 · 131 阅读 · 0 评论 -
SparkSQL与Hive查询不一致问题
SparkSQL与Hive查询不一致问题原创 2024-10-08 11:30:23 · 792 阅读 · 0 评论 -
超大数据量UV类和PV类问题解方案
超大数据量UV类PV类问题解决方案背景技术使用:基于大数据平台的 spark-sql,有基础能力去处理百亿级数据表问题背景:随着大数据平台和数仓的建设,以及业务极大增加和日常积累,会让单表达到百亿级别这时候就会出现两个典型的场景,就是标题所说的UV场景和PV场景名词解释UV类问题UV 英文就是Unique visitor 即这个网站有多少个访问者,这里就有个用户去重的问题,多次访问需要去重拓展一下就是针对数据表维度进行 count(distinct ) 计算的一类场景,不只是限制在用原创 2021-01-11 20:02:08 · 1218 阅读 · 0 评论 -
Hive自定义函数简介及实践案例
本文概述了Hive自定义函数的简介及实践,阐述了自定义函数的功能与重要性。通过介绍UDF、UDAF和UDTF三种函数类型,并详细说明了它们的使用方式及作用。原创 2025-02-06 12:02:47 · 1075 阅读 · 0 评论 -
hive 内部表和外部表的区别
hive 内部表和外部表的区别内部表没有external 关键字内部表可以不指定 location关键字,当然hivesql执行外部表是也可以不指定,但是一般不这么用,sparksql,执行时不指定会报错内部表删除表时,直接删除元数据以及实际数据,外部表则只会删除元数据,hdfs上保留数据,这一条会衍生一些东西如果建立临时表,一般使用内部表,这样可以直接删除数据,不至于导致数据多余删除外部表时,再create table ,然后insert overwrite 时,会使数据重复一倍原创 2021-01-14 19:13:22 · 981 阅读 · 0 评论