- 博客(43)
- 收藏
- 关注
原创 数分思维12:SQL技巧与分析方法
分析之后不要着急写分析报告,先把一些关键数据和初步结论同步给业务方核心人员,约个时间一起看下。2)基于这些数据结论,准备如何落地,需要他们提前想方案。可以直接利用excel的相关性分析操作,主要看指标之间的相关性。看某个指标,将时序周期拉长,看数据趋势.一般是看留存。What:用户使用了什么功能,哪些行为更加重要。Why:为什么要这么做,用户是主动还是被动做的。Where:渠道分析,渠道入口,用户从哪里来。所有的分析都是基于用户的基础属性和行为属性。How:怎么做的,行为路径是什么。
2025-07-29 11:49:26
63
原创 数分思维10:用户增长
摩拜的用户增长怎么做?通过漏斗模型很容易发现引导页问题;身份证和押金的前后顺序是产品设计层面,本质上就是 A/B 测试转化率漏斗实际上很长,同时还要做各种维度拆解注册流程一定要简化再简化接下来就是留存和活跃,我们看摩拜是怎么做的产品的功能较为简单,比拼的就是运营,做的所有事情就是活动,对于活动运营分析,关键就是拉新、促活、传播这三件事。书中结尾的话:“所有的增长招式都越用越烂,效果越来越差,因此有效的方法每个人都藏私,凡是写到博客里的招式,都已经过时、不太好用了”。
2025-07-28 20:22:38
631
原创 数分思维09:活动分析
app里面有刷新有feeds流,发现一个广告。主要是点击中间的刷资讯按钮,跳转到另一个feeds流里面,用户通过点击资讯,获得现金收益。
2025-07-26 13:38:10
853
原创 统计学08:概率分布
随机变量是一个将映射到的数学函数,用于描述事件的结果。随机变量可以是的(如骰子)或的(如人的身高、体重)。1)概率质量函数PMF——离散随机变量P(X = x) = 对应于某个值 ( x 的概率)2)概率密度函数PDF——连续随机变量f(x) 描述随机变量在某点的概率密度。连续变量的概率在区间上求和:3)累计分布函数CDF:表示随机变量小于或等于某值的累计概率:F(x) 对离散变量是 PMF 的累加,对连续变量是 PDF 的积分。
2025-07-26 12:29:10
349
原创 统计学07:概率论基础
概率p代表事件发生的可能性大小,在0-1范围内ab测试中的p值,就代表一种概率(在零假设成立的前提下,观察当前数据或者比当前数据更加极端的数据的概率,p值越小,意味着在零假设成立的情况下,观察到当前结果的概率越小)
2025-07-26 10:57:48
294
原创 兴趣电商业务
,更能够反映用户实际做出购买决策的时间,直接体现出广告对于用户的吸引力,广告投放最主要的还是吸引用户做出下单决策,至于支付决策,会受到产品价格和性价比影响。推广位id+推广位名称:用户从什么渠道进入,可以分析出哪个页面的整体引流成交更强,为什么强,是否其他页面也可以复用,从而不断优化推广位对应的商品页面。分别是120s和119s。基于这些时间点,可以计算出每个行动之间的时间间隔,进而可以从转化速度上对产品和推广位的转化效能进行分析。拉长时间线,发现睡眠的决策时间最短,益生菌是后面两个月降低了决策时间。
2025-07-26 09:53:14
554
原创 数据思维08:竞品分析
什么才是竞品分析?首先是竞品的选择。并不是所有的头部产品都是你的竞品,而是要根据你做竞品分析的目的来选择分析什么点。就需要知道分析的背景,从而针对性切入。弄清楚leader想做什么。
2025-07-25 15:09:52
326
原创 数分思维06:流量分析
流量分析本质上就是解决用户从哪来,干了什么,带来了什么价值。渠道分析——渠道的整个过程和分析方法功能模块的价值分析——漏斗分析、功能常规性指标和功能价值性指标流量波动逻辑性分析——一定要有逻辑性,在过程非常严密的基础上得到正确的结果。
2025-07-24 15:37:10
454
原创 数分思维04:如何提升销售额
给定四张分析表:门店信息表、产品信息表、销售经理表、销售数据表对于一些原始需求较模糊的,需要先与业务方进行沟通,了解业务方在做什么,想做什么。
2025-07-24 12:59:12
531
原创 渭河SQL题库-- 来自渭河数据分析
笛卡尔积(Cartesian Product)是指对两个或多个表进行无条件连接,返回的结果是这些表中所有可能的组合。所有连接方式都会先生成临时笛卡尔积表笛卡尔积问题通常出现在以下场景:、没有明确指定连接条件的 JOIN 查询。当查询中忘记指定JOIN语句或忘记提供连接条件时,MySQL会默认执行笛卡尔积操作。这可能导致结果集迅速膨胀,产生大量不必要的数据。子查询中使用了不相关的表或视图,导致数据重复在数据仓库或 OLAP 系统中,使用多个维度表进行联接查询时,容易产生笛卡尔积。明确指定连接条件。
2025-07-15 14:30:00
651
原创 python之Scikit-learn章节
Scikit-learn是数据挖掘和数据分析的高效工具,可以实现数据预处理、分类、回归、降维、模型选择等操作。
2025-07-14 13:28:08
1055
原创 python之Seaborn章节
小提琴图可以表示数据的密度,数据的密度越大的区域越胖。“小提琴”形状表示数据的核密度估计,每个点的形状宽度表示该点的数据密度。Serborn是基于python的可视化库,基于Matplotlib库进行构建,提供了更高级别的界面和更好看的默认风格。在Seaborn中,设置图表标题可以使用plt.title()函数,这是基于Matplotlib库的函数。为数据中的变量名,用于区分不同分类对象的线,hue_order对hue变量的排序顺序。的图表时,可以设置分类对象的属性,例如类别标签的。
2025-07-10 10:48:55
848
原创 python之Matplotlib章节
如果要共用一个X坐标轴,Y坐标轴分别展示,可设置参数subplots=True,这样设置为共X坐标轴数据图。做多个数据系列折线图时默认是共用Y轴的,可以展示不同系列数据在时间趋势上的波动变化。包括坐标轴标题、轴显示、图表标题、图例等。
2025-07-09 17:58:34
810
2
原创 (二)如何着手开展分析
单品的展现量、点击数、点击率、加购率、平均点击成本、下单转化率、成交转化率、ROI,根据数据不断优化sku。看一下客服的聊天记录,看一下聊天有没有需要改善的地方,分析一下自己的客单价,客单价不同,转化率也是不同的。比如:曝光、点击率、访客、、成交人数、成交单量、成交金额、跳失率、平均浏览时长、加构率、推广金额。分析产品的引流是否精准,产品的转化率如何,产品的CPC多少,行业的ROI是多少。3) 流量渠道访客数,观察搜索、推鉴、活动、内容、付费不同渠道的访客数。分析自己的流量是否精准,图片是否有吸引力。
2025-07-08 21:02:31
261
原创 (一)电商行业指标及公式
GMV = 成交件数*件单价 = 客流量*转化率*客单价转化率 = 成交人数/访客数*100%UV价值 = 总销售额/总访客数点击转化率 = 成交人数/点击人数*100%毛利率 = (销售额-成本)/销售额*100%GPM(千次曝光成交额) = GMV/曝光数*1000退款率 = 退款订单数/订单总数*100%购买频次 = 订单数/购买人数人均件数 = 购买件数/购买人数客单价 = 销售额/购买人数笔单价 = 销售额/订单数件单价 = 销售额/购买件数笔件数 = 购买件数/订单数。
2025-07-08 20:49:10
331
原创 数据分析咖哥十话——实践篇——卷五:自传播
可以用机器学习实现增长模型,例如对用户A进行分类,落入每类群体的概率是0.1、0.5、0.2、0.2,那么认为A是促销响应者。通过机器学习方法求出每个用户对促销响应的概率,然后通过增量公式计算出该促销(即裂变)方案能够带来多大的增量。即是,通过设计新方法寻找、获得新用户并从用户身上学习,以优化用户定位、扩大用户群体并增加营销投入的效益。,而有没有促销活动都打算购买的用户,或者是无论如何促销都不会购买的用户,都不是目标人群。收入增长、利润增长、规模增长、流量增长等,所有增长都是建立在。
2025-07-08 11:21:06
768
原创 数据分析咖哥十话——实践篇——卷四:变现
给出一个区间范围[a,b],然后说区间的置信水平是95%,即在所有的数据中,大概有95%的数据都会落到这个区间内,则[a,b]被称为置信水平为95%的置信区间。犯第一类错误的概率就是α(原假设为真时,还拒绝原假设的概率),犯第二类错误的概率是β(原假设为假,却未拒绝原假设的概率)。如果要为用户A推荐商品,先找到与A类似的用户B和用户C,将B和C喜欢的商品且A还没有购买过的推荐给用户A。例如,在Google+的测试中,Google在一开始期望全屏式广告的导流效果比小的广告横幅更好,这是。
2025-07-07 09:21:12
655
原创 数据分析咖哥十话——实践篇——卷三:留存
聚焦于留存》如何提高LTV》如何开发出优质产品》如何提升企业长期核心价值聚焦于流失》用户为何不在使用产品》如何挽回用户》运营策略评估流失分为:1)响应式流失:对特定的负面事件或体验做出反应,突然停止之前使用的产品或服务2)预期式流失:是渐进的、缓慢发生的、无特定触发因素驱动的流失降低流失:重视用户的感受、和用户保持沟通、与用户维系好关系(用户思维)1)我们通过Lifelines库,为分析了目前江里捞用户留存的现状,以及未来需要注意的重点。
2025-07-04 10:30:37
644
原创 数据分析咖哥十话——实践篇——卷一:获客
监督学习:数据集中存在的标签(例如高价值用户),即我们要预测的结果字段,其他的字段称为特征(RFM值、层级),机器学习就是通过对特征的学习,找出能够正确预测标签的模型的过程。衡量投入产出比ROI。基于历史数据,通过用户的特征和行为数据对用户进行细分,从而了解用户,有的放矢的促销用户获客、用户管理等活动。形成同期群》》追踪一段时间后的活跃程度,留存率和流失率》》推出用户的粘性、忠诚度,评价获客,促销工作的效率。通过现有数据找到一个模型预测出,用户的生命周期价值,指导获客成本的多少才能盈利。
2025-06-30 17:04:16
616
原创 数据分析咖哥十话——基础篇
又称为海盗模型,是用户增长的经典模型,将数据指标归并至五大阶段:获客、激活、留存、变现、自传播。这5个阶段并没有严格的顺序和界限,例如pdd将结合起来。各阶段的数据指标:(1)不同商业模式关注的指标不同,电商平台关注转化率,UGC内容平台关注用户活跃,内容输出;(2)同一公司在不同阶段关注的指标()也不同,早期关注,积累一定用户到稳定期关注营收。
2025-06-24 21:12:26
1017
原创 数分常见面试问题(持续更新)
例如某内容产品,考虑业务场景,将用户分为创作者和阅读者,猜想与变动指标相关的场景(例如5s完播率),通过拆解维度定位用户群观察是否有共性,进而拆解相关指标,例如是否引起其它相关指标(播放频率)也下降。如果频率没有下降,说明推荐内容不合适,进一步观察是内容不足(用户找不到想要的)还是推荐算法的问题(推荐内容不是用户喜欢的),排除周期(是否有季节性或周期性因素)、外部(相关政策和竞对会活动)、其他指标是否变动(交易量、活跃用户数)>>分析用户行为路径,加购—>支付环节转化率。针对可能的归因,进行数据验证。
2025-06-23 12:30:15
308
转载 SQL如何防止数据倾斜(来自: 渭河数据分析社区)
在Hive这类分布式计算框架里,数据分布不均匀,导致某些节点处理的数据量远大于其他节点,进而影响整体性能。例如,就像10个人分100个苹果,其中9个人各拿1个苹果,剩下1个人要拿91个。这时候拿91个的人会花很长时间,等他吃完其他人才开始吃,最后整体完成时间完全取决于这个最慢的人。习惯1:写SQL前先做「数据体检」FROM tableLIMIT 10;-- 看TOP10的数据量是否均衡看空值:用SUM(CASE WHEN column IS NULL THEN 1 ELSE 0 END)统计空值比例。
2025-06-21 21:32:14
31
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人