第二课:概率论

本文探讨了判别模型与生成模型的区别,强调了在数据不平衡时使用ROC曲线进行模型评估的重要性。同时,介绍了离散与连续变量的概率理解,以及COV、COR等线性相关表征量的概念。此外,还涉及了蒙特卡罗方法的基本思想和信息论中的熵、KLDIVERGENCE及互信息等关键概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、生成模型 与 判别模型的区别


判别模型 is better than 生成模型;

二、评估模型表现的指标 ROC

当数据label不平衡时,无法用“准确率”来评估模型表现,此时,可以用ROC,评估模型表现:

ROC曲线绘制步骤:分别取若干比重的data计算TPR和FPR,每个比重的data均可得到一个point,将这些point连线即为ROC曲线。
得到ROC曲线,即可根据AUC(area under curve)来评估模型表现的优劣,AUC越接近1,其表现越好,越接近0.5,表明其prediction为random 行为,表现很差。值得注意的是:当AUC接近0时,也可以说模型表现很好,因为只要把prediction的label对调,其准确率就会很高。

除用ROC评估模型表现外,也可以用recall-precision 曲线来评估模型表现,同样的,曲线面积越大,说明模型表现越好,如下图所示:

三、离散变量和连续变量 P(x)=0是不是一定不可能发生?

对于“离散变量”,P(x)=0是一定不可能发生的;
但是,对于“连续变量”,P(x)=0是可能发生的;

四、COV 和 COR 都是线性相关的 表征量


五、蒙特卡罗 方法

基本思想:当所求解问题是某种随机事件出现的概率,或者是某个随机变量的期望值时,通过某种“实验”的方法,以这种事件出现的频率估计这一随机事件的概率,或者得到这个随机变量的某些数字特征,并将其作为问题的解。

六、信息论


  • KL DIVERGENCE
  • 互信息
    互信息可以表征两个特征的相关性,当互信息=0,说明两个特征互相独立。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sarah ฅʕ•̫͡•ʔฅ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值