我的数据科学路-未解之题

为什么我要知道统计学,最小描述长度,最大似然估计,最小二乘估计,大数定律,贝叶斯,信息熵,辛普森悖论,假设检验,混淆矩阵,F1值,p值,置信区间,基尼系数,数据分布,自由度,方差。经典逻辑,量子计算。

这些概念,帮助我,从纷繁复杂的表象中获得真相,从不确定中获得确定的规律。

问题是,这么多要学的东西,我先学哪个,最实用?

先列问题:

1、为什么L1、L2正则化,可以降低模型的过拟合?

2、做a/b test,达到95%的置信度,需要多少样本?

3、最大似然估计,最小二乘估计;是什么?

4、t检验的,自由度,是什么?

5、怎么样检验模型,得到的是,最准确且稳定的模型?

6、各个模型的使用场景,以及背后的原理是什么?xgboost原理是什么?

7、熵是什么,交叉熵是什么?

8、相关性是如何计算的?

我觉着,需要找本李航的,统计机器学习,来看一下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值