4.1 统计分析基础
4.1.1 统计分析框架
总体分析的流程。

关联是指xy之间的因果关系,这里不代表相关系数。



4.1.2 样本与总体
什么时样本与总体:研究个体的全部为总体(大数据研究),研究部分个体组合的样本为样本(非大数据研究)。
总体全部研究为大数据。



正态分布、泊松分布、伽马分布、对数正态分布。 
泊松分布:总体量无线大,概率比较小。
伽马分布:计算理赔额度等。
对数正态分布:收入,一般为正太分布的积分累计,收益率与收入。
最主要考核:线性回归、逻辑回归。
重点:


4.1.3 参数估计

点估计

区间估计
记住几个标准差对应的置信区间。


选定参数

选定统计量

抽样分布

矩估计

题例:

极大似然估计

总结

4.2 假设性检验
4.2.1 假设检验示例

4.2.2 假设检验的基本概念




4.2.3 假设检验中的两种错误

4.2.4 假设检验与区间估计的联系

4.2.5 假设检验的基本步骤


只做双边



4.2.6 配对样本T检验
4.2.7 AB测试



总结

博客围绕机器学习中的统计分析和假设性检验展开。统计分析基础部分介绍了分析框架、样本与总体概念,以及参数估计方法,如点估计、区间估计等。假设性检验部分阐述了基本概念、两种错误、与区间估计的联系,还提及配对样本T检验和AB测试等内容。

1万+

被折叠的 条评论
为什么被折叠?



