
sql
文章平均质量分 61
Neon_Light
这个作者很懒,什么都没留下…
展开
-
spark sql mapjoin BROADCAST
spark 跑sql的时候一个小表想用mapjoin,在hive中开启mapjoin直接在sql查询时添加参数/*+ mapjoin(smalltable)*/,可参考LanguageManual Joins具体如下-- hive sqlselect /*+ mapjoin(b)*/ a.*from big_table ajoin small_table bon a.id=b.id但是在spark中这么跑没能开启mapjoin,任务计划图如下图1在spark的sql中开启mapj原创 2021-09-17 17:18:29 · 2821 阅读 · 5 评论 -
hive sql 转 presto sql 的 常见问题:presto instr
都是sql,基本逻辑是一样的,常常出现问题是因为两边都函数不同导致hivesql没法在presto引擎下执行。在我的使用场景中,一些常见的需要替换的函数,现记录下。主要参考资料还是官方文档:Presto 0.246 Documentation时间转换相关的函数:这里format的格式很奇怪,本来date_parse和date_format是一样的,** 但是我这用到的format却不一样,你们用的是那个格式的format?**-- presto# 时间字符串 转 时间戳select to_u原创 2021-02-05 13:35:00 · 3000 阅读 · 0 评论 -
用写sql的思路写 pyspark
文章目录初始化:1. 查询筛选1.1 新增字段1.2 字段为list,包含子项2. group by 聚合2.1 想自定义聚合函数,3. 对数据结果排序4. join关联6. 窗口函数7. 加rank和排序8. 取topN10. 展开一个字段到多行初始化:from pyspark import SparkConf, SparkContextfrom pyspark.sql import HiveContextfrom pyspark.sql.utils import AnalysisExceptio原创 2020-05-09 21:37:01 · 467 阅读 · 0 评论 -
用写sql的思路写dataframe:把sql语法转化成dataframe语法
查询表 a_table如下:classnameprojectscore一班张三语文80一班张三数学90二班李四语文80二班李四数学90查询筛选select name,scorefrom a_tablewhere class='一班' and project='语文'a_table = pd.DataFrame(.........原创 2020-01-03 16:59:51 · 1684 阅读 · 0 评论 -
pgsql解析text格式json串语法
pgsql用的不多,遇到解析json的问题,查了下文档,可以这么处理,记录如下。下次再遇见的时候想不起来也有的查。-- 下面两个sql是等价的select name, json(name)->'n' as n,json(name)->'m',json(name)->'k'->'s' as s from public.t_user where ct is null;...原创 2019-11-18 18:53:15 · 2975 阅读 · 0 评论 -
hive行转列和列转行问题的两个角度,两种表述
行转列和列转行表1:_c1_c2a1a2b1b2b3表2:_c1_c2a1,2b1,2,3表述1:表1变成表2,需要行转列,表2变成表1,需要列传行。换一种方式在来一次。表3:_c0_c1_c2_c3_c4user_1abcd表4:_c0...原创 2019-09-29 11:10:59 · 223 阅读 · 0 评论