夜雨声烦yyy-优快云博客

原创数据分析方法论

how——怎么做：前期准备一个月的时间，整个推广策划大概需要7天时间，宣传视频策划制作、前期活动准备同步进行，大致需要20天时间，留下3天做推广上线前的调整时间。：上海有500万机动车，一辆车10天加一次油，一次加油5分钟，加油时间为8：00-22：00，14个小时，一个加油站默认有2个加油桩，加油桩利用率50%虽然商业模式不同，变现的方式不同，但是有一个概念需要重视，那就是夹点（pinch point），它指的是损失潜在收益的地方。改善本公司的弱点，想出挑战机会的方法。2. 与商场合作，开设试驾点。

2025-11-08 15:36:27 796

原创 SQL高频面试题

表：orders (order_id、user_id、province、order_amount、order_date)问题：存在表orders（order_id、user_id、order_date、status、amount）数据量很大，查询语句。问题：查询电商app 6月各省份top10消费金额的用户id及对应的订单数、消费金额。表 user_login_events (user_id、login_date)表：user_login_events（user_id、login_date）

2025-11-04 11:57:47 396

原创统计学14：方差分析

ANOVA，变异数分析。用于两个及以上样本均数差别的显著性检验。ab测试可以用来比较两组的差异，但是需要对比多个组时，ab测试就很低效，需要用到方差分析由于各种因素的影响，实验所得数据呈现波动，造成波动的原因分两类：一种是随机因素导致的波动，另一种就是实验中施加的干预对结果形成影响的可控因素；核心目标是通过分析组间和组内的方差，判断是否存在显著差异。

2025-11-03 15:17:09 685

原创统计学13：聚类分析

数据特点是大样本，实际场景如用户消费行为分群可以处理任意形状的数据，还能识别噪声点，可用于异常交易检测。

2025-11-03 10:55:33 547

原创常见sql索引问题（持续更新...）

select * from order limit 9999,10 (优化前)select * from order where id>9999 limit 10(优化后)

2025-09-03 10:51:27 243

原创数据仓库知识

维度建模：按照事实表、维度表来构建数据仓库模型的方法，根据维度表与事实表之间的链接方式完成数据表开发。数据域/主题域：数据域对当前业务场景或业务sop进行拆分完成建设，主题域则是通过业务使用场景去做事实表设计：围绕着业务过程来设计，通过获取描述业务过程的度量来表达业务过程，包含了引用的维度和与业务过程有关的度量；维度：对当前场景分析角度描述及补充颗粒度：数据域下场景用户再细分（买家和卖家），基于MECE法则，拆到不可拆分状态度量值：对场景下数值类型的数据记录。

2025-08-08 16:39:17 2104 1

原创怎么进行专项分析项目？

申报时，要写出项目带来什么价值（金钱/技术/商业能力），对于项目等级划分，可以量化到具体的金钱或价值，比如优化这个模型可以提升多少效率。项目的价值在于，别人愿不愿意拿着你的结论去干活，付出资源付出劳动。

2025-08-07 20:29:42 938

原创分析案例汇总

考察方向：结构化归因问题思路：1）定位问题：订单波动到底是高了还是低了，波动的水平（同环比、年度峰值）哪个时间短波动，单独某项波动还是整个大盘都在波动合理衡量波动情况，例如历史同时也下降了10%，那么实际只有10%收到影响2）问题归因：参考异动模型根据业务拆分指标，量化指标波动对订单的影响筛选出对结果影响最大的几个指标，指标组合定位问题（A渠道，高活跃减少）3）策略提出这个问题以前是否出现过，有没有相应策略。如果有以前的策略，是不是监控不及时，要增加监控指标；

2025-08-05 20:14:02 943

原创统计学12：假设检验

通俗就是：这次产品的功能上线之后效果是好的（+10%点击率），然后对测试结果进行统计，发现【不好是小概率事件】，也就是【拒绝了原假设】注意：拒绝了原假设也不代表100%接受备择假设，只能提供“统计学证据”来反驳零假设的合理性，存在第一类错误的风险。核心是构造一个服从特定分布的统计量（将分布的均值作为一个标准分布）。定义：用于通过样本数据对总体参数的某种假设进行验证的方法。Z检验统计量（已知总体方差或n>=30）H1：B组比例更大（单侧检验）H0：A组和B组比例相等。

2025-08-05 14:15:32 538

原创统计学11：中心极限定理CTL

回答了样本量如何选择，如何对转化率等其他分布进行假设检验（t检验要求总体符合正态分布，很多数据总体并不符合，还是靠中心定理出来的）例如转化率提升（二分类问题：购买未购买），单个用户服从伯努利分布（0-1分布），但是分析大量用户的平均转化率时，中心极限定理生效，使转化率的分布趋近正态分布。例如，拿出用户购买金额的分布（一般是幂分布，少数用户贡献巨额交易），每次抽取1000用户计算平均客单价，重复1000次，会发现样本的均值服从正态分布。实验组（B组）：100,000用户，转化人数1,400人 → =1.4%

2025-08-05 12:03:45 352

原创统计学10：大数法则

（无法拒绝零假设的错误）发生的概率。并且当你的总体很大的时候，样本占总体比例很小的时候，样本均值与总体均值之间的误差也会较大。根据大数法则，随着样本量的增加，误差的大小会减少，但并非无限增加样本量就能得到无限精确的估计。定义：随着试验次数增加，样本量的均值趋近于总体的期望，随着样本量的增加，样本均值将越来越接近该分布的数学期望。另外，当样本量过小的时候，即使你用公式算出一个100个样本量就够的实验，你最后真用100个样本，你还是会增加。同理，你设置的置信区间的宽度，以及假设误差，都会影响样本量的结果。

2025-08-05 11:49:09 558

原创统计学09：贝叶斯公式

朴素贝叶斯的核心假设是，给定类别 C，所有特征是相互独立的。通俗来说，贝叶斯公式是在求给定X的情况下参数是多少，也就是当用户消费X元以后流失的概率。通俗解释：一个用户点击广告后流失，那么流失用户中（假设100个），有10个人点击了广告，那么条件概率就是10%这个公式是很多分类模型的基础，包括朴素贝叶斯分类器，或者是在一些机器学习的建模过程中使用加权贝叶斯模型。：对于连续型特征，通常假设这些特征在每个类别下服从某种概率分布，最常见的是假设这些特征在每个类别下服从。：在事件B发生的情况下，事件A发生的概率。

2025-08-05 11:16:52 598

原创数分思维14：用户研究与数据分析

可以从哪些方面进行用户研究。头部玩家重大的问题是没有的，拼的就是细节那么什么时候做用户研究呢？其实用户研究贯穿整个项目周期。用户研究在项目启动前就应该开展，并且要快于其他业务方。如果等到那个项目都启动了，实际上该做的也做了，你这个时候再去启动，一个月之后出报告，价值不大，所以这非常考验用户研究人员的先见性和实操性。

2025-08-05 09:54:05 413

原创数分思维13：AB测试

有两组随机均匀的样本A，B，通过单变量控制法，A组保持不变，B组施加某种策略，实验后分析两组数据，通过显著性检验，判断这个策略对于核心指标的提升是否有显著的影响。

2025-08-04 16:22:12 1042 1

原创数分思维12：SQL技巧与分析方法

分析之后不要着急写分析报告，先把一些关键数据和初步结论同步给业务方核心人员，约个时间一起看下。2）基于这些数据结论，准备如何落地，需要他们提前想方案。可以直接利用excel的相关性分析操作，主要看指标之间的相关性。看某个指标，将时序周期拉长，看数据趋势.一般是看留存。What：用户使用了什么功能，哪些行为更加重要。Why：为什么要这么做，用户是主动还是被动做的。Where：渠道分析，渠道入口，用户从哪里来。所有的分析都是基于用户的基础属性和行为属性。How：怎么做的，行为路径是什么。

2025-07-29 11:49:26 224

原创数分思维11：业务问题拆解

首先，对于业务方的诸多需求，需要找到需求的本质是什么，在此基础上按照逻辑树拆解。

2025-07-29 11:15:41 433

原创数分思维10：用户增长

摩拜的用户增长怎么做？通过漏斗模型很容易发现引导页问题；身份证和押金的前后顺序是产品设计层面，本质上就是 A/B 测试转化率漏斗实际上很长，同时还要做各种维度拆解注册流程一定要简化再简化接下来就是留存和活跃，我们看摩拜是怎么做的产品的功能较为简单，比拼的就是运营，做的所有事情就是活动，对于活动运营分析，关键就是拉新、促活、传播这三件事。书中结尾的话：“所有的增长招式都越用越烂，效果越来越差，因此有效的方法每个人都藏私，凡是写到博客里的招式，都已经过时、不太好用了”。

2025-07-28 20:22:38 957

原创数分思维09：活动分析

app里面有刷新有feeds流，发现一个广告。主要是点击中间的刷资讯按钮，跳转到另一个feeds流里面，用户通过点击资讯，获得现金收益。

2025-07-26 13:38:10 933

原创统计学08：概率分布

随机变量是一个将映射到的数学函数，用于描述事件的结果。随机变量可以是的（如骰子）或的（如人的身高、体重）。1）概率质量函数PMF——离散随机变量P(X = x) = 对应于某个值 ( x 的概率）2）概率密度函数PDF——连续随机变量f(x) 描述随机变量在某点的概率密度。连续变量的概率在区间上求和：3）累计分布函数CDF：表示随机变量小于或等于某值的累计概率：F(x) 对离散变量是 PMF 的累加，对连续变量是 PDF 的积分。

2025-07-26 12:29:10 500

原创统计学07：概率论基础

概率p代表事件发生的可能性大小，在0-1范围内ab测试中的p值，就代表一种概率（在零假设成立的前提下，观察当前数据或者比当前数据更加极端的数据的概率，p值越小，意味着在零假设成立的情况下，观察到当前结果的概率越小）

2025-07-26 10:57:48 536

原创兴趣电商业务

，更能够反映用户实际做出购买决策的时间，直接体现出广告对于用户的吸引力，广告投放最主要的还是吸引用户做出下单决策，至于支付决策，会受到产品价格和性价比影响。推广位id+推广位名称：用户从什么渠道进入，可以分析出哪个页面的整体引流成交更强，为什么强，是否其他页面也可以复用，从而不断优化推广位对应的商品页面。分别是120s和119s。基于这些时间点，可以计算出每个行动之间的时间间隔，进而可以从转化速度上对产品和推广位的转化效能进行分析。拉长时间线，发现睡眠的决策时间最短，益生菌是后面两个月降低了决策时间。

2025-07-26 09:53:14 613

原创数据思维08：竞品分析

什么才是竞品分析？首先是竞品的选择。并不是所有的头部产品都是你的竞品，而是要根据你做竞品分析的目的来选择分析什么点。就需要知道分析的背景，从而针对性切入。弄清楚leader想做什么。

2025-07-25 15:09:52 443

原创数分思维07：路径分析

路径分析是基于底层的日志来做的，一般是key-value形式。

2025-07-25 14:24:44 380

原创数分思维06：流量分析

流量分析本质上就是解决用户从哪来，干了什么，带来了什么价值。渠道分析——渠道的整个过程和分析方法功能模块的价值分析——漏斗分析、功能常规性指标和功能价值性指标流量波动逻辑性分析——一定要有逻辑性，在过程非常严密的基础上得到正确的结果。

2025-07-24 15:37:10 516

原创数分思维05：指标体系搭建

指标体系是在业务不同阶段，分析师牵头业务方协助，制定的一套从各维度去反映业务现状的待实施框架。

2025-07-24 13:37:24 971

原创数分思维04：如何提升销售额

给定四张分析表：门店信息表、产品信息表、销售经理表、销售数据表对于一些原始需求较模糊的，需要先与业务方进行沟通，了解业务方在做什么，想做什么。

2025-07-24 12:59:12 594

原创数分思维03：ROI和付费率的计算

重点目标：让用户晚点流失，延长生命周期价值——流失分析让活跃用户多变现——商业分析。

2025-07-24 09:48:45 403

原创统计学06：回归分析——多元线性回归模型

更多是用来判断或量化指标之间的相关关系，相关并不代表着因果。

2025-07-23 11:18:36 612

原创统计学05：回归分析——简单线性回归

简单线性回归模型

2025-07-22 14:30:38 972

原创统计学04：时间序列

时间序列可能用于回答业务在不同时间段的波动等问题

2025-07-22 11:28:08 947

原创统计学03、统计量和统计指标

统计量和统计指标，以及统计指标实际运用

2025-07-21 12:50:48 955

原创数分思维：02——京东app产品分析

app简单分析

2025-07-17 14:03:04 1033

原创数分思维：01——多元思维模型

多元 = 中观 + 微观 + 宏观。

2025-07-17 11:27:49 250

原创渭河SQL题库-- 来自渭河数据分析

笛卡尔积（Cartesian Product）是指对两个或多个表进行无条件连接，返回的结果是这些表中所有可能的组合。所有连接方式都会先生成临时笛卡尔积表笛卡尔积问题通常出现在以下场景：、没有明确指定连接条件的 JOIN 查询。当查询中忘记指定JOIN语句或忘记提供连接条件时，MySQL会默认执行笛卡尔积操作。这可能导致结果集迅速膨胀，产生大量不必要的数据。子查询中使用了不相关的表或视图，导致数据重复在数据仓库或 OLAP 系统中，使用多个维度表进行联接查询时，容易产生笛卡尔积。明确指定连接条件。

2025-07-15 14:30:00 691

原创统计学02、抽样方法和数据获取

常规的抽样方法和如何数据获取

2025-07-15 11:49:41 555

原创统计学01、总体与样本

总体与样本

2025-07-15 10:24:18 435

原创 python之Scikit-learn章节

Scikit-learn是数据挖掘和数据分析的高效工具，可以实现数据预处理、分类、回归、降维、模型选择等操作。

2025-07-14 13:28:08 1841

原创 python之Seaborn章节

小提琴图可以表示数据的密度，数据的密度越大的区域越胖。“小提琴”形状表示数据的核密度估计，每个点的形状宽度表示该点的数据密度。Serborn是基于python的可视化库，基于Matplotlib库进行构建，提供了更高级别的界面和更好看的默认风格。在Seaborn中，设置图表标题可以使用plt.title()函数，这是基于Matplotlib库的函数。为数据中的变量名，用于区分不同分类对象的线，hue_order对hue变量的排序顺序。的图表时，可以设置分类对象的属性，例如类别标签的。

2025-07-10 10:48:55 1245

原创 python之Matplotlib章节

如果要共用一个X坐标轴，Y坐标轴分别展示，可设置参数subplots=True，这样设置为共X坐标轴数据图。做多个数据系列折线图时默认是共用Y轴的,可以展示不同系列数据在时间趋势上的波动变化。包括坐标轴标题、轴显示、图表标题、图例等。

2025-07-09 17:58:34 1024 2

原创（二）如何着手开展分析

单品的展现量、点击数、点击率、加购率、平均点击成本、下单转化率、成交转化率、ROI，根据数据不断优化sku。看一下客服的聊天记录，看一下聊天有没有需要改善的地方，分析一下自己的客单价，客单价不同，转化率也是不同的。比如:曝光、点击率、访客、、成交人数、成交单量、成交金额、跳失率、平均浏览时长、加构率、推广金额。分析产品的引流是否精准，产品的转化率如何，产品的CPC多少，行业的ROI是多少。3) 流量渠道访客数，观察搜索、推鉴、活动、内容、付费不同渠道的访客数。分析自己的流量是否精准，图片是否有吸引力。

2025-07-08 21:02:31 309

空空如也

空空如也