机器学习
文章平均质量分 72
蘑菇桑巴
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习——集成学习(model ensemble)
集成学习是通过构建并结合多个模型的结果完成最后的预测。在进行集成时,一个重要的准则是,个体模型需要保证“准确性”和“多样性”。能够看到,图(b)是只“好”而“同”,这样的集成并没有发挥不同个体模型的作用,图(c)是只“异”而“差”,这样集成只会使最后预测更差。 基于这一准则,目前集成学习大致分为两类: ①个体模型之间存在强依赖关系,必须串行生成的序列化方法。例如:Boosting ②个体模型之间不存在强依赖关系,可以并行化生成。例如...原创 2021-09-30 15:15:42 · 1246 阅读 · 0 评论 -
机器学习——贝叶斯分类器
以下理论都是基于西瓜书中对贝叶斯分类器章节的个人理解与整理,如果有问题,也欢迎大家一起进行讨论。一、贝叶斯决策论 对于贝叶斯决策论而言,我们希望可以得到一个使总体风险最小化的决策。那么对于风险的定义,有如下公式表示:公式样本被分类成的条件风险,而表示真实标记为的输入样本被误分类成的损失,表示后验概率,是输入样本总数。那么贝叶斯分类器的优化目标就是使条件风险最小化。 在这样一种情况下,如何获取后验概率即是机器学习模型需要学习到的东西。一般来说,这里有两种获取模式...原创 2021-09-29 21:07:10 · 305 阅读 · 0 评论 -
【置信度校准】几种经典概率校准方法(Platt scaling、 histogram binning、 isotonic regression、 temperature scaling)
1. Platt scalingPlatt scaling本质上是对模型sigmoid输出的分数做概率变化。在此基础上引入了两个参数a, b,假设输入样本为$X_i$,模型输出分数为$f(X_i)$,则最终输出概率计算公式变为a, b参数优化通过最大化似然函数(最小化对数损失函数)的方法可以求得2. histogram binning对于所有输出未校准预测概率$p_i$,将其划分成$M$个bin,对于每个bin设置一个校准分数$theta_m$,如果预测概率$p_i$若如区间$.原创 2021-09-27 11:17:44 · 9925 阅读 · 0 评论 -
熵、KL散度、交叉熵公式及通俗理解
熵根据香农信息论中对于熵的定义,给定一个字符集,假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码(哈夫曼编码)平均需要的比特数等于这个字符集的熵。如果字符集中字符概率越趋于平均,说明某个字符被预测的不确定性最大,只有最后我们知道了某一可能性确实发生了,才得到最大的信息量,因此它的熵就越大。而如果字符集中字符概率分布差异越大,则认为我们知道某一字符出现的可能性比其他类更大,这个字符集包含的信息量很小,因此它的熵越小。KL散度KL散度用于计算两个随机变量的差异程度。相.原创 2021-08-10 17:59:40 · 559 阅读 · 0 评论
分享