- 博客(17)
- 收藏
- 关注
原创 SQL理论知识第二部分
Hive sql中left semi join用法in和exists用法和区别drop、truncate和delete的用法和区别
2022-09-05 23:14:21
561
原创 SQL理论知识第一部分
1、hive sql中空字符串和null2、hive sql中order by、sort by、distribute by、cluster by用法3、连接查询中,on和where条件含义
2022-09-05 20:23:31
991
原创 常见的数据指标&定位其异常变化时原因
本文主要用于分析一般指标异常变化如何分析的套路,即首先确认指标真的异常,之后拆分指标下钻分析到一定程度,结合内外环境因素明确原因,最后由得到的分析原因,给到业务侧相应可落地的指导建议。实际工作中,对于具体数据指标,根据实际场景进行分析原因更为妥当。
2022-09-02 23:39:00
927
原创 数据分析思维与方法总结
目录ABtest实验漏斗分析用户画像辛普森悖论费米估计AARRR事件分析用户路径分析留存分析归因分析RFM模型ABtest实验数据分析——AB实验漏斗分析漏斗分析是指将某个业务场景中关联的事件,根据先后发生的顺序进行组织,从而系统性了解用户转化效率。漏斗分析不但可以整体性的反映用户在一定时间周期内,浏览网站或者APP中从起点到终点的转化率,而且还可以分析浏览过程中每一次跳转所产生的留存和流失,这样就能够直观地发现异常数据,从而通过分析根因找到问题所在,最后通过优化该环节来达到提升转化率的目标。漏
2022-05-06 23:53:33
547
原创 详细叙述MySQL中所有数据类型(以MySQL 8.0 为例)
数据类型数值型字符型日期/时间型MYSQL支持多种类型,大致分为三类,数值、日期/时间、字符串(字符)类型。数值型类型大小范围(有符号)范围(无符号)用途tinyint1 Bytes(-128,127)(0,255)小整数值smallint2 Bytes(-32768,32768)(0,65535)大整数值mediumint3 Bytes(-8 388 608,8 388 607)(0,16 777 215)大整数值int 或 int
2022-04-23 15:54:38
1034
原创 数据倾斜的原因及解决方案
数据倾斜数据倾斜定义数据倾斜表现数据倾斜原因数据倾斜解决方案1、group by导致数据倾斜2、count(distinct)特殊值较多3、join操作4、空值或数据类型不一致所致5、优化in/exists6、排序选择数据倾斜定义定义:对于集群系统,一般缓存是分布式的,即不同节点负责一定范围的缓存数据。我们把缓存数据分散度不够,导致大量的缓存数据集中到了一台或者几台服务节点上,称为数据倾斜。一般来说数据倾斜是由于负载均衡实施的效果不好引起的。举例:如果有10亿数据,一台电脑可能要10小时,现在集群有1
2022-04-19 00:02:06
8004
原创 二叉树的遍历
二叉树的遍历遍历规则先序遍历中序遍历后序遍历层序遍历总结由遍历确定二叉树遍历确定唯一二叉树遍历规则一颗二叉树由根节点、左子树和右子树三部分组成,遍历二叉树的方式主要记住这四种,先序遍历、中序遍历、后序遍历、层序遍历。先序遍历先序遍历也称前序遍历,首先根节点,然后左子树,最后右子树。(一棵树的根永远在左子树前面,左子树永远在右子树前面 )中序遍历中序遍历,首先是遍历左子树,然后根节点,最后右子树。(一棵树的左子树永远在根前面,根永远在右子树前面)后序遍历后序遍历,首先是遍历左子树,然后是右子树
2022-04-11 21:28:07
533
原创 西瓜书读书笔记
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工
2021-07-14 01:16:36
90
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人