
Machine Learning
qq280929090
这个作者很懒,什么都没留下…
展开
-
【机器学习】准确率、召回率、F1
在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式:  ...转载 2017-04-23 12:54:05 · 1072 阅读 · 0 评论 -
【机器学习】损失函数:Hinge Loss(max margin)
Hinge Loss简介Hinge Loss是一种目标函数(或者说损失函数)的名称,有的时候又叫做max-margin objective。其最著名的应用是作为SVM的目标函数。其二分类情况下,公式如下: l(y)=max(0,1−t⋅y)其中,y是预测值(-1到1之间),t为目标值(±1)。其含义为,y的值在-1到1之间就可以了,并不鼓励|y|>1,即并不鼓励分类器过度自信,让某个可以正确...转载 2018-01-28 11:25:06 · 1319 阅读 · 0 评论 -
【机器学习】多类分类性能评价之宏平均(macro-average)与微平均(micro-average)
通常,我们在评价classifier的性能时使用的是accuracy考虑在多类分类的背景下accuracy = (分类正确的样本个数) / (分类的所有样本个数)这样做其实看上去也挺不错的,不过可能会出现一个很严重的问题:例如某一个不透明的袋子里面装了1000台手机,其中有600台iphone6, 300台galaxy s6, 50台华为mate7,50台mx4(当然,这些信息分类器是不...转载 2017-04-24 15:44:28 · 20604 阅读 · 9 评论 -
【机器学习】多分类问题中查全率和查准率的理解(Precision-Recall)
查全率查准率是从信息检索来的,那么我们就得先看看原来的是怎么定义的: 查全率——它是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。 查准率——它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。 使用泛指性较强的检索语言(如上位类、上位主题词)能提高查全率,但查准率下降。 使用专指性较强的检索语言(如下位类、下位主题词)...转载 2017-04-24 15:12:00 · 13315 阅读 · 3 评论 -
【机器学习】k-折交叉验证(k-fold cross-validation)
k-重交叉验证(k-fold crossValidation):在机器学习中,将数据集A 分为训练集(training set)B和测试集(testset)C,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集A随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练。在matlab中,可以利用:indices=crossvalind(‘Kf...转载 2017-05-04 10:54:53 · 3997 阅读 · 0 评论 -
【机器学习】深入理解--信息熵(Information Entropy)
信息信息是我们一直在谈论的东西,但信息这个概念本身依然比较抽象。在百度百科中的定义:信息,泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。信息可不可以被量化,怎样量化?人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。起码直觉上而言是可以的,不然怎么可能我们觉得有些人说的废话特别多,“没什么信息量”,有些人一语...原创 2017-09-29 16:50:16 · 15866 阅读 · 1 评论