- 博客(23)
- 资源 (4)
- 收藏
- 关注
原创 如何搭建一套完整的评分模型:从理论到实操
评分模型无论是在用户评分、商家评级中都会用到,本文详细介绍了搭建评分模型的基本方法、主权赋权/客观赋权法、核心的参考代码等。
2025-02-12 10:28:18
1690
1
原创 hive中进行复杂数据处理时必备函数--窗口函数、行转列列转行、groupingsets
数据分析工作中进行复杂数据处理时需要用到的函数,掌握这些函数能够大大提效,事半功倍:row_number排序窗口、lag/lead前后窗口、preceding滑动窗口、groupingsets、行转列collect_set/concat_ws、列转行explod/lateralview
2025-01-17 17:00:18
951
原创 三种不同形态的异常检测方法介绍
业务监控的核心目标之一是及时发现并响应异常情况,在实际工作中会发现,业务指标(例如每日销售额)的异常会呈现不同的形态,如突然间过高/低,或者趋势性下降,又或者波动规律改变,每种形态背后的业务场景、预示的潜在风险都不太一样,因此识别不同的形态对于异常原因推断也相当重要。下面基于最常见的时间序列数据类型,介绍一下三种不同类型的异常及其识别方法。
2024-12-07 22:23:50
565
原创 异动归因方案在实际业务应用中的难点及解决方案
自动化异动归因方案在实际业务应用时,面临着几个难点,首先是加法和除法指标分别用什么方法去定位根因维度更合理;第二单一维度归因结论不满足业务需要时,多维归因如何避免维度爆炸问题;第三维度归因和指标归因到底是什么,怎么理解等。回答好这几个问题,才能更好的将方案推广落地。
2024-04-11 17:19:36
2779
3
原创 归因分析中各种指标因子贡献度计算方法总结
在归因分析计算因子贡献度时,加法指标、乘法指标、除法指标由于指标类型的不同,所用的方法也不同,本文总结三种不同类型指标计算因子贡献度的方法,并进行具体的案例分析、公式推导、优缺点分析。
2024-03-29 17:49:31
22432
7
原创 AB实验核心知识点总结
本文较为全面的总结了AB实验涉及到的统计学知识、AB平台核心功能等,同时也给出AB不显著的分析思路,以及如何在sql中进行假设检验等,希望能够有帮助。
2023-08-10 16:24:01
2519
原创 因果推断--Uplift model的原理和python实操(三)
目前精细化运营已经普及到各行各业,如何把营销成本投入到真正被运营策略打动的用户身上,而不浪费在本身就会转化用户身上,是精准营销面临的重要课题,也是提高投入产出比的重要手段,业界成熟的解决方法是Uplift Model。本文主要介绍Uplift Model的应用背景、原理及建模细节、python中如何实现。
2023-07-18 11:00:03
7008
3
原创 因果推断--PSM的原理和应用(二)
上一篇介绍了DID,本文介绍和DID可一起搭配使用的一种因果推断方法PSM。在正式介绍PSM之前,先来简单回顾一下为什么需要因果推断以及如何做因果推断。我们都知道相关非因果,比起相关我们更希望知道两个事件之间的因果关系,有了确切的因果关系,才能知道对A如何操作才能引起B的变化。解决因果推断问题,目前主要有两种框架,Rubin虚拟事实模型和Pearl因果图模型。站在数据分析的角度上,Rubin虚拟事实模型更容易理解,其核心思想是寻找恰当的对照组。
2023-07-04 09:59:46
8631
8
原创 因果推断--双重差分法(DID)的原理和实际应用(一)
在精细化运营场景中,不方便或者不允许进行AB实验时来考察策的效果时,可以用因果推断中的双重差分法(DID)来进行策略效益评估。
2023-05-25 11:17:56
23333
3
原创 如何将数据指标异常监控和归因分析自动化
数据指标异常波动是产品运营以及数据分析相关岗位日常工作中较为常见的问题之一,及时监控核心指标异常波动并预警,有助于业务快速定位和发现问题(归因分析),或者捕捉业务异动信息,把握市场机会。建立完善的指标异常监控与归因方案,能够提高监控和归因的效率和准确性。本篇文章主要介绍指标异常监控和归因方案。...
2022-07-01 19:58:12
10883
10
原创 如何使用决策树来预测(1)--建树原理和剪枝
决策树是机器学习算法中的最好入手的算法之一,利用像树一样的图形来辅助决策,其可解释性强、能够转化为规则、计算速度快,应用非常广泛。在实际应用中,决策树常常作为组合算法的基模型,也被作为白盒模型,用来解释黑盒模型预测结果。本文介绍决策树的建树原理及剪枝方法。...
2022-06-12 17:10:36
3061
原创 如何使用决策树来预测(2)--sklearn建模实操
决策树是机器学习算法中的最好入手的算法之一,其可解释性强、能够转化为规则、计算速度快,应用非常广泛。在实际应用中,决策树常常作为组合算法的基模型,也被作为白盒模型,用来解释黑盒模型预测结果。本文详细讲解如何在sklearn中使用决策树来进行建模、可视化、模型评估。......
2022-06-12 17:00:34
4275
1
原创 时间序列建模--用prophet实现效应分解法
时间序列类型的数据是工作中最常见的一种数据类型,即指标随时间变化的情况,比如一个公司每日的订单量、交易额、活跃用户数等指标都是时间序列,这些指标的波动一般都会呈现一定的规律性。了解这个规律,我们可以提前对未来的走势进行预测;也可以基于预测来进行异常检测、运营干预效果评估等。本文主要介绍如何用prophet通过效应分解法实现预测。
2022-05-12 21:12:11
2462
原创 不同数据类型的相关性分析总结
在进行数据建模之前,我们一般会进行数据探索和描述性分析,发现数据规律及数据之间的相关性,本文主要从检验方法和可视化图形两个方面对不同数据类型的相关性分析方法进行总结,以加强对数据的了解和认识,为建模打下基础。
2022-05-07 17:02:05
23843
8
原创 多大样本量才能模拟出中心极限定理
我们在做AB测试时,需要用到很多的统计知识,如最小样本量、检验方法等,在这些方法之前有一个大的前提,构造检验的统计量要服从正态分布,然后才能进行接下来的统计量、p值、置信区间计算,加以判断是否统计显著。那么日常所做实验是否满足这个大前提,到底多大样本量能达到正态分布的这个大前提是本篇文章主要回答的问题。
2022-04-13 11:23:44
3220
原创 jupyter中超好用的10个快捷键
使用jupyer写python时,用好快捷键不仅能够提高效率,也能帮助学习,分享经常用的10个快捷键,你也可以用用哦~
2022-04-10 17:29:56
21603
2
原创 逻辑回归介绍及statsmodels、sklearn实操
本文分别介绍了statsmodel、sklearn中如何进行逻辑回归建模,并重点就sklearn中建模时遇到的样本不平衡问题、模型调优问题进行代码练习。
2022-04-09 21:39:02
5470
4
原创 线性回归建模及模型诊断
本文用statsmodels、sklearn中的linear_model模块进行线性回归案例实操,并对建模中遇到的问题进行了详细的说明,特别是相关性分析、残差分析、共线性问题解决等,希望能够有所帮助。
2022-04-04 11:31:48
2714
2
逻辑回归介绍及statsmodels、sklearn实操数据集--accepts.csv
2022-04-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人