统计学
文章平均质量分 51
是谁注册了我的2052
给我2052
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ABTest结果验证
ABTest结果验证一:函数介绍pdf:概率密度函数 ——注意和正态分布函数不一样ppf:分位点函数(CDF的逆)——即根据给定概率求临界点的值,注意这里的概率是从左侧开始算的。cdf:累计分布函数 ——即pdf曲线下方面积,也即概率,是从左侧开始计算的,所以可以看到x越大,cdf的值越大二:cdf(x,μ,σ) 参数介绍:2.1 cdf(x) 默认 服从 μ=0,σ=1 的正态分布,结果表示 x 在 正态分布N(0,1)中左侧检验的结果概率P值2.2 cdf(x , 2 , 3) 表示: x原创 2021-08-06 17:13:39 · 336 阅读 · 0 评论 -
ABTtest样本量计算
ABTtest样本量计算一:两个总体只差的样本量计算目的:测试组比对照组提升30%的活跃度(DAU均值)H0: μ0 - μ1<=30%H1:μ0 - μ1>30%计算公式:nA=knB and nB=(1+1k)(σz1−α/2 +z1−βμA−μB)2n_A = kn_B\ and\ n_B = (1 + \frac{1}{k})(\sigma\frac{z_{1- \alpha/2} \ \ \ + z_{1-\beta原创 2021-08-04 16:44:22 · 777 阅读 · 0 评论 -
python常用的检验方法
一:Z检验#数据: price_earnings_ratio 利率import pandas as pdimport numpy as npimport statsmodels.stats.weightstats as swz_mean = data['price_earnings_ratio'].fillna(0).mean() print('均值:',z_mean)z_std = data['price_earnings_ratio'].fillna(0).std()print('标准原创 2021-08-03 13:24:22 · 1049 阅读 · 0 评论 -
过拟合和欠拟合
拟合实际就是数学模型一:过拟合训练集表现好,但是测试集表现不佳,即泛化性能差(泛化误差)原因:1.样本单一2.正负样本比例不协调3.异常点太多4.模型越来越复杂解决方式:1.如果是样本单一,可以增加训练的数据集2.如果是正负样本不协调,可以通过配比权重解决如何防止过拟合:1.最根本的可以通过扩大数据量2.nlp拆解语句组成新的数据集3.控制模型复杂度 3.1 随机森林可以控制树的复杂度 3.2 正则化/集成学习 3.3 减少训练次数,早点结束训练二:欠拟合原创 2021-07-29 21:13:37 · 218 阅读 · 0 评论 -
假设检验方法选择
假设检验方法选择一:判断统计量应该选择什么分布判断流程:1.样本量是否大于30,小于30则为小样本2.能否通过正态检验3.是否可以增加样本二:单样本分布三:多总体原创 2021-07-22 22:48:14 · 684 阅读 · 0 评论 -
统计学基础
统计学一:基础统计1.1描述统计 统计学本质:通过抽样样本(使用统计方法)推断总体参数(均值/比例/方差/相关)是否成立的概率1.1.1测量尺度分类变量: 定类:分类(性别) 定序:分类+排序(对定类变量进行排序:比如电影类型排序)连续变量: 定距:分类+排序+加减(比如评分0-10 / 温度),没有绝对0点,即0也有意义 定比:分类+排序+加减+乘除(身高,体重,收入) 分类变量:只能用频次统计 连续变量:可以使用频次和均值标准差等1.1.2均值 算术均值:求原创 2021-07-09 22:03:00 · 4157 阅读 · 0 评论 -
异常值判定
对于异常值判断一般有两种方式:一:z分数法前提:样本需要复合正态分布Z分数 = (原始取值-均值)/(标准差)表示的是每个取值距离均值多少个标准差单位结论:99.7%的数据都会落到均值3倍标准差之内的范围,所以正常值取值范围:均值 ± 3*标准差二:上下限法-箱线图上限 = Q3 + 1.5*(Q3 - Q1)下限 = Q1 - 1.5*(Q3 - Q1)Q1 表示四分之一分位数Q3 表示四分之三分位数...原创 2021-06-16 22:38:21 · 758 阅读 · 0 评论
分享