
数据分析
数星星的小贝壳
这个作者很懒,什么都没留下…
展开
-
【数据分析】概率/条件概率
例子:A在办公室概率0.75,B在办公室概率0.25,A一周穿红衣服2次,B一周穿红衣服3次,当看到一个穿红衣服的人,那么这个人是谁?(按一天工作5天算)是A且穿红衣概率:0.75* (2/5)是B且穿红衣概率:0.25*(3/5)有人穿红衣的概率:0.75*(2/5)+0.25*(3/5)穿红衣且是A的概率:P(A)=( 0.75* (2/5))/ (0.75*(2/5)+0.25*(3/5))= 67%同理求出穿红衣且是B的概率:P(B)= 33%...原创 2020-05-17 03:54:42 · 399 阅读 · 0 评论 -
【数据分析】统计学--期望和均值的区别
假设某一离散变量X的取值范围来自于集合A,A={X1,X2,X3,X4,...XN},对集合A进行可放回抽样M次(参考上节),产生容量为M的抽样数据集S,数据集S的离散变量X的取值为:{X(1),X(2),X(3),...X(M)},X(K)表示第K次可放回抽样的值。变量X期望E(X):抽样数据集S的变量X的均值:期望:变量所有可能取值与其出现概率乘积之和。均值:所有抽样数据变量之和的平均值。辛钦大数定理:辛钦大数定理证明了,若抽样数据的样本量足够大,那么变.原创 2020-05-11 18:06:02 · 2416 阅读 · 0 评论 -
NOTE【数据分析】分析问题可以从哪些维度来拆解
目的:通过不同维度分析同一组数据,从而观察数据波动背后的原因。分析思路:1. 指标构成2. 业务流程例子:小红书分析团队在研究不同用户留存的时候发现来自信息流等渠道的用户留存很低,他们有一个特点,就是低龄,大多是看过一篇或者点过一篇笔记就走了,留存很差。问题:为什么低龄用户的留存低?(1)从指标构成拆解分析维度1: 不同低龄用户的表现是否有差异(这里的低龄用户定义为...原创 2019-07-02 01:54:56 · 1132 阅读 · 0 评论 -
NOTE【数据分析】描述统计学
描述统计通俗来说就是对大量信息进行归纳,找出相应的指标对此进行描述。也就是将复杂的数据简化为能起到描述性的数字(可衡量的指标)。常用描述数据集整体情况的指标有:1. 平均值描述整体情况,但当有异常值或特殊值干扰时则不准确。2. 中位数-四分位数可避免异常值干扰,用箱线图描述。Q3(上四分位)Q2(中位数)Q1(下四分位)用Turkey‘...原创 2019-07-07 20:48:34 · 318 阅读 · 0 评论 -
NOTE【数据分析】如何避免统计偏差
1.样本偏差以偏(小样本)概全(统计)。避免方法:样本越大结论越可靠。2. 幸存者偏差只关注显而易见的样本,而没有关注没有机会出现的样本。人们普遍相信事情会往好的方向发展。避免方法:从多角度发现问题,使用逆向定理思维3. 概率偏见避免方法:用统计数学方法来判断4. 信息茧房个性化推荐(看到的大部分都是自己感兴趣的信息)...原创 2019-07-19 00:38:59 · 1448 阅读 · 0 评论 -
NOTE【数据分析】使用样本对整体进行估计
样本数量:从总体中抽取了几个样本样本大小:这个样本中包含了多少个数据1. 用样本来估计总体平均值中心极限定理:任何样本的平均值约等于总体的平均值。(前提是样本大小达到30%)无论总体是什么分布,所有样本的平均值会在总体平均值周围呈现正态分布,样本大小越大就越接近于正态分布。演示中心极限定理的游戏:http://onlinestatbook.com/stat_sim/s...原创 2019-07-18 00:33:58 · 1572 阅读 · 0 评论 -
NOTE【数据分析】置信水平/置信区间
置信水平(概率):置信区间包含整体平均值的概率是多大。P(a<样本平均值<b) = Y%置信区间(误差范围):【a,b】如果有100个样本,每个样本的平均值都有一个置信区间(误差范围),如果置信水平为95%,那么就会有95个样本的置信区间包含整体平均值。也就是说,如果只做一次抽样,那么样本平均值包含整体平均值的概率是95%。即真实值落在实验值置信区间内的...原创 2019-07-25 00:09:53 · 2343 阅读 · 0 评论 -
【数据分析】指标体系
指标体系:由一系列相互联系的指标组成的整体。统计指标体系从其功能和作用可分为:1. 描述统计指标体系:通常由对系统描述的基本指标组成。2. 评价统计指标体系:对结果进行比较、评估、考核,以检查综合效益的统计指标组成。3. 预警统计指标体系:对系统进行检测,并对指标值的变化,预报不平衡状态、突发事件或某些障碍。如何搭建指标体系定目标、分指标、找数据、搭体系。...原创 2019-08-12 01:54:46 · 2428 阅读 · 0 评论 -
NOTE【数据分析】变量间的关系
1. 不相关:相互间没有线性关系。随机变量 X 和 Y 的相关系数 r(X,Y)=0。2. 独立:若同时发生等于各自发生的乘积,即满足P(AB) = P(A)P(B), 那么A B 互相独立。独立一定不相关,但不相关不一定独立。3. 互不相容:若不能同时发生,则不相容,A∩B= Φ。4. 对立:在互不相容的基础上再加上一个条件,P(A)+P(B)=1,则为对立。有你...原创 2019-09-30 16:19:42 · 763 阅读 · 0 评论