
机器学习算法
文章平均质量分 95
Code_LT
以斗争求团结则团结成
公司网络限制,无法进行私信沟通
展开
-
【史上最全】一文搞定机器学习的模型评估
MSE1n∑i1nfxi−yi2n为样本量MSE=\frac{1}{n}\sum_{i=1}^{n}(f(\boldsymbol x_i)-y_i)^2,n为样本量MSEn1i1∑nfxi−yi2n为样本量MSE即预测误差的数学期望,是最常用的一个性能度量方法。原创 2024-08-30 20:52:50 · 995 阅读 · 0 评论 -
直观解读Kullback-Leibler Divergence (KL 散度)的数学概念
我们知道,现实世界里的任何观察都可以看成表示成信息和数据,一般来说,我们无法获取数据的总体,我们只能拿到数据的部分样本,根据数据的部分样本,我们会对数据的整体做一个近似的估计,而数据整体本身有一个真实的分布(我们可能永远无法知道),那么近似估计的概率分布和数据整体真实的概率分布的相似度,或者说差异程度,可以用 KL 散度来表示。因此,其中失败的次数为 n-k,对应失败的概率为 (1-p)。实际上,如果你显示输出我们的选择周围小 Δ 数量的 KL 散度值,你会看到我们选择的成功概率的 KL 散度最小。转载 2023-06-09 09:17:41 · 1931 阅读 · 1 评论 -
机器学习预备知识
维度灾难是指随着数据维度变大(即特征变多),需要的数据就越多,才能使算法起作用。单位超球体体积 vn=(2π/n)vn−1v_n=(2\pi/n)v_{n-1}vn=(2π/n)vn−1 ,n位球体维度可见,随着维度变大,单位球体体积趋近0,也就是说距离对数据的影响越来越小,这就使得维度高时,只有大量的数据,才能帮助算法更好地生效一个形象的比喻:训练集:学生的课本,学生根据课本中的内容来掌握知识;验证集:作业,通过作业可以知道学生的学习情况、进步快慢;测试集:考试,考题都是平时没见过的,考察学生举一原创 2022-07-30 11:59:21 · 589 阅读 · 0 评论 -
PLA算法
PLA全称是Perceptron Linear Algorithm,即线性感知机算法。PLA的求解算法要求问题是线性可分的,即可以找到一条线,或者超平面去分开是和不是的两堆数据。如果不是线性可分,可以通过后来的Pocket改正算法,类似贪心的法则找到一个最适合的。...原创 2019-10-12 16:17:10 · 402 阅读 · 0 评论 -
从决策树到GBDT
首先,决策树分为分类树和回归树。GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。以下罗列了比较好的学习资源,看完就可以掌握GBDT了————————————————决策树参考:https://blog.youkuaiyun.com/weixin_36586536/article/details/80468426https://www.cnblogs.co...原创 2019-10-12 11:29:53 · 292 阅读 · 0 评论 -
加权随机抽样算法
1. 基于均匀分布概率的算法 例如,3等奖抽中的概率是70%,2等奖是20%,1等奖是10%,这样,大部分人都只能中3等奖,小部分人是二等奖,而只有特别少的人才可能拿到一等奖。产生0-100之间的均匀分布的随机数,当随机数在0-70时,就获得3等奖,70-90是2等奖,90-100是一等奖。 另一个例子:按权重均一化后,编号3被抽中的概率要求是70%,5出现的概率为25%,0出现的...原创 2019-02-18 16:17:24 · 11216 阅读 · 0 评论 -
Kmeans聚类K值选择Parametric Bootstrap方法,以及数据重抽样方法Bootstrapping
常用的K值选择方法是通过寻找“拐点”确认,或者下游业务需求确定。下文介绍了另一种选择方法。 评论:原始该K值选择法只有在数据为“gaussian-like”时才有效。如果数据为其他分布,可尝试修改bootstrap simulation过程以及重新定义95%概率值。 下文转自:https://blog.youkuaiyun.com/xbinworld/article/d...转载 2019-02-18 16:19:02 · 2573 阅读 · 0 评论