- 博客(24)
- 收藏
- 关注
原创 Matplotlib&Seaborn
觉得难、卡壳的点,可以是一个语法、一个设计、或一处易错逻辑。实际用这个技术做了什么:Demo、练手项目或脚本开发。
2025-07-10 22:37:37
520
原创 except、not exists和not in的区别和效率对比
NOT IN:如果子查询结果包含NULL,整个查询结果会返回空集。NULL的比较在 中是“未知”(Unknown),NOT IN无法判断NULL是否属于集合。-- table2 包含 NULL,导致结果为空NOT EXISTSNULL:关联子查询中,NULL不会影响逻辑判断。-- 即使 table2 包含 NULL,仍能正确返回 table1 中无匹配的行EXCEPTNULL:将NULL视为相等(两个NULL被视为同一值)。-- 即使包含 NULL,仍能正确返回差集EXCEPTNOT IN。
2025-06-11 14:12:50
856
原创 关于ODPS外部表和同步问题小结
1.性能差 外部表的数据不在 MaxCompute 本地,查询依赖网络与 OSS I/O,分析慢很多。在数据集成(同步)时,选择odps为sink,而不是oss,因为选择odps如果是外部表,默认会把数据放在oss中。而外部表的数据本质上是在 OSS 中(或其他外部源),MaxCompute 只是引用它们,不托管它们的物理数据。在数据集成(同步)之前,先在odps上创建外部表指定oss路径;具体的步骤就是,先在odps上创建外部表并设置好路径(oss),
2025-06-11 14:08:07
332
原创 SparkSQL相关知识总结!!!!!!!
以上就是今天的内容,本文介绍了SparkSQL的相关应用,这部分的知识是学习Spark并利用Spark来处理大数据相关问题的重中之重.
2023-07-26 11:00:00
606
1
原创 Python -- 闭包和装饰器,多任务编程,With语句和正则表达式
以上就是今天的内容,本文介绍了Python中闭包和装饰器的原理及使用,多任务编程的概念和应用,With语句和正则表达式的相关知识。
2023-07-25 08:00:00
449
原创 Hive函数 -- 总结
最初Hive函数分为 内置函数 和 用户自定义函数两大类, 其中用户自定义函数又被分为3类, 分别是:用户自定义函数:UDF: 全称叫 User Defined Functions, 普通函数, 即: 一进一出.例如: select * from stu;UDAF: 全称叫 User Defined Aggregation Functions, 聚合函数, 即: 多进一出.例如: select count(id) from stu;
2023-07-18 22:50:54
1309
1
原创 HiveSQL -- HQL(数据查询)语句
以上就是今天要讲的内容,本文简单介绍了数据查询语句, 主要是对 表数据进行查询操作的,而Hive SQL(HQL) 为数仓分析提供了极大的便利。
2023-07-18 22:32:21
1037
1
原创 数仓生态圈辅助工具 -- Hue Sqoop Oozie Presto
本文主要内容是关于大数据分析交互平台Hue,数据迁移工具Sqoop和工作流调度工具Oozie.掌握这些工具的使用有助于我们更好地学习大数据知识.
2023-07-12 22:50:30
556
1
原创 HiveSQL --- DML(数据操作)语句
本文简单介绍了HiveSQL中的DML语句,主要是用来操作表数据的, 对表数据进行 增删改操作.
2023-07-12 21:59:49
267
1
原创 Linux基础命令
本文简单介绍了Linux的基础和Shell相关命令的使用,而Linux命令是我们开发人员必备的基础技能,这对我们编程基础及其重要。
2023-07-10 16:41:06
558
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅