
机器学习
文章平均质量分 84
Xiaofei@IDO
这个作者很懒,什么都没留下…
展开
-
理解分类模型的评价指标
前言众所周知,机器学习分类模型常用评价指标有Accuracy, Precision, Recall和F1-score,而回归模型最常用指标有MAE和RMSE。但是我们真正了解这些评价指标的意义吗?在具体场景(如不均衡多分类)中到底应该以哪种指标为主要参考呢?多分类模型和二分类模型的评价指标有啥区别?多分类问题中,为什么Accuracy = micro precision = micro recall = micro F1-score? 什么时候用macro, weighted, micro precis原创 2022-04-14 20:43:01 · 428 阅读 · 0 评论 -
拓扑数据分析-Topological data analysis
一、拓扑概念拓扑主要研究的对象为几何图形或空间结构,探究在连续改变形状后还能保持不变的一些性质。它只考虑物体间的位置关系而不考虑它们的形状和大小。简单的描述为:一些特殊的几何性质,在图形连续改变形状后还能继续保持不变。二、拓扑数据分析拓扑学研究的是一些特殊的几何性质,这些性质在图形连续改变形状后还能继续保持不变,称为“拓扑性质”。而在复杂的高维数据内部也存在着类似的结构性质,我们可以形象地称之为数据的形状(特征)。拓扑数据分析(Topological data analysis, TDA),顾名思义原创 2022-01-07 22:41:32 · 8665 阅读 · 3 评论 -
机器学习:回归模型的评价指标
1. 概述对于回归而言,模型性能的好坏主要体现在拟合的曲线与真实曲线的误差。主要的评价指标包括:拟合优度/R-Squared,校正决定系数(Adjusted R-square),均方误差(MSE),均方根误差(RMSE),误差平方和(SSE),平均绝对误差(MAE),平均绝对百分比误差(MAPE)。1. 均方误差(Mean Squared Error,MSE):观测值与真值偏差的平方和与观测次数的比值:要点:MSE相当于模型中的损失函数,线性回归过程中尽量让该损失函数最小。模型之间的对比也原创 2021-06-14 16:30:08 · 9494 阅读 · 2 评论 -
一个经典的ROC曲线绘制
一个故事江湖传闻,ROC曲线最早被用于检测敌军的雷达信号,后来不知怎么的,被应用到心理学,影像学和医学等等。举个例子,一位医生有两组受试者,一组为正常对照组,一组为病例组,他们的疾病状态分别由目前的金标准所诊断(比如说通过病理活检或临床诊断等等)。同时,这位医生对血液中的某个指标非常感兴趣,想研究这个指标是否可以用于疾病的早期诊断,并且想要评估它的敏感度(Sensitivity)和特异度(Specificity)等参数。最后,想要画出一个ROC曲线帮助更好的评估这项指标的诊断能力。如果你是这位医生,.原创 2021-06-04 10:59:24 · 4532 阅读 · 0 评论 -
如何加理解(两个模型)准确率(ACC)和AUC变化不一致
1. 问题当我们建立两个模型都是二分类的,并应用常见的Logistic回归模型得到结果如下:模型A的正确率为85%,AUC为0.98;模型B的正确率为93%,AUC为0.92。那么选择哪个模型呢?很多朋友首先应该会质疑方法使用的正确性,不过出现这个问题的可能性很小,我们假设方法是正确的,主要探讨AUC和正确率矛盾的问题。查阅文献,发现不少朋友也遇到同样的问题,更巧的是已有学者通过模拟研究证实矛盾的存在。下面图表中的最后一列展示的正是AUC和正确率结论的一致比例,较低可达93.5%。2. 解释接着原创 2021-04-27 10:10:14 · 4261 阅读 · 0 评论 -
通俗易懂的决策树信息准则:信息,熵,信息增益率,基尼系数
我们来回顾学习一下这些概念一、信息信息是指能消除随机不确定性的内容,换句话说,告诉你一个想都不用想的事实,就不叫信息了。比如数据分析师基于大数据想发现一些有用的信息,有一天上班你告诉上级,基于数据中我们发现我们的用户性别有男有女。。。(这不废话吗?)这不叫信息但是如果你告诉上级,女性用户的登录频次、加购率,浏览商品数量远高于男性,且年龄段在25岁~30岁的女性用户消费金额最多,15-20岁最少,那么我相信你老大会眼前一亮的!!!如何衡量信息量?1948年有一位科学家香农从热力学中的熵概念,引原创 2021-03-31 20:36:39 · 438 阅读 · 2 评论 -
你如何看待不平衡数据
1. 不平衡数据的定义在分类问题中,类别之间的分布不均匀导致数据的不平衡。比如,针对二分类问题,target取值为0和1,当其中一方(如y=1)的占比远小于另一方(y=0)的时候,就构成了不平衡数据。那么到底是需要差异多少,才算是失衡呢,根本Google Developer的说法,我们一般可以 把失衡程度分为3个级别 :轻度:20-40%中度:1-20%极度:<1%一般来说,失衡样本在构建模型时难以发现问题,甚至可以得到很高的accuracy,为什么呢?假设我们有一个极度失衡的样本原创 2020-11-18 13:08:26 · 1387 阅读 · 0 评论 -
线性判别分析(LDA)-白话讲解
LDA前言基本思想python 实现前言 线性判别分析(Linear Discriminant Analysis,LDA)是一种经典的线性分类方法。而机器学习中还有一种用于NLP主题模型建模的潜在狄利克雷分布(Latent Dirichlet Allocation)也简称为LDA,大家在学习的时候注意区分。不同于PCA降维使用最大化方差的思想,LDA的基本思想是将数据投影到低维空间后,使得同一类数据尽可能接近,不同类数据尽可能疏远。所以,LDA是一种有监督的线性分类算法。基本思想 下图描原创 2020-06-17 21:40:29 · 946 阅读 · 1 评论