马孔多居民-优快云博客

原创学习笔记—sql中常用的连接方式-left join、left anti join、inner join

sql中常用的连接方式1、left joinleft join 是sql 中使用频率最高的一种连接方式，但是也是比较容易出错的一种连接方式，最常见的出错方式便是因为关联条件出现多对多产生笛卡尔积，此外使用left join原则上并不会导致主表查询数据量缺失，但是如果在最后where条件中加入了join表后的一些字段和条件，就会导致主表数据缺失（此种在where里面加入join后限制条件的方式则等同于inner join）。select a.district_2, b.

2020-12-13 21:49:59 32939

原创记录Maven导入scala插件scala-maven-plugin报错java.rmi.ServerException: RemoteException occurred in server解决方案

第一：将jdk版本从1.8改为JDK17：但这个办法一般可能很多人不愿意用，因为目前企业级项目多数还是用1.8开发；

2024-06-14 00:25:30 745 4

原创 pandas中DataFrame常见操作

pandas中常见操作，过滤、分组聚合

2022-11-01 00:32:37 760

原创 hive-Fetch抓取

hive中fetch抓取模式的概念设置及三种模式的区别

2022-05-01 18:55:33 1823

原创 hive-本地模式设置

前言当在hive上提交mapreduce任务时，常见的管理引擎有yarn与local，默认使用集群模式yarn进行执行。当执行任务计算的文件大小与文件数相对较小时，可以开启本地模式进行执行，效率相对集群模式会更高。查看当前hive的本地模式情况查看本地模式是否开启：set hive.exec.mode.local.auto;查看启用本地模式允许的最大输入文件数：set hive.exec.mode.local.auto.input.files.max;查看启用本地模式允许的最大文件大小：set

2022-05-01 18:21:53 4763 1

原创 sql常见面试题目积累

1、求用户连续登陆最大天数select a.device_id, max(cnt)from( select device_id, date_new, count(1) as cnt from( select a.device_id,

2021-04-07 10:05:42 186

原创学习笔记—sql中如何使用短代码进行多维度聚合-不用union all

1、场景描述在进行多维度的数据查询时，有时候需要将维度按较细的颗粒度拆分，同时也需要按照较粗的颗粒度聚合，比如我们查询分城市的dau，同时也想知道所有城市的dau，通常来说多数人会这么写：select city_name, count(distinct uid) as daufrom xgchen_dw.dws_xgc_app_uid_topicwhere dp = '2021-04-05'group by

2021-04-07 09:51:46 933

原创学习笔记—使用python画帕累托分布图

##模块导入import numpy as np import pandas as pdimport matplotlib.pyplot as pltplt.rcParams["font.family"] = 'Arial Unicode MS'##防止在matplotlib中中文不显示##数据准备df = pd.read_csv('/Users/chenxiaogang/Desktop/data.csv',encoding = 'gb2312')data = pd.Series(df['s

2021-03-20 16:59:18 2880 2

原创学记笔记—sql中基础函数的使用

1、时间函数--当前系统时间：2020-12-13 22:21:43select getdate();--2020-12-13 22:21:43select substr(getdate(),1,10);--2020-12-13select dateadd(getdate(),10,'dd');--2020-12-23 22:39:02 加10天select dateadd(getdate(),-10,'dd');--2020-12-03 22:40:18 减10天select datedif

2020-12-13 23:28:11 309

weixin_44896621的博客