
机器学习
文章平均质量分 56
coolboygym
这个作者很懒,什么都没留下…
展开
-
机器学习备忘录 | AUC值的含义与计算方法
引言在机器学习领域,AUC值经常用来评价一个二分类模型的训练效果,对于许多机器学习或者数据挖掘的从业者或在校学生来说,AUC值的概念也经常被提起,但由于大多数时候我们都是借助一些软件包来训练机器学习模型,模型评价指标的计算往往被软件包所封装,因此我们常常会忽略了它们的具体意义,这在有些时候会让我们对于手头正在进行的任务感到困惑。笔者也曾遇到类似的问题,因此希望借由本文来梳理下AUC值的意义与计...原创 2018-04-12 00:04:06 · 7497 阅读 · 1 评论 -
在XGBoost中通过Early Stop避免过拟合
本文翻译自Avoid Overfitting By Early Stopping With XGBoost In Python,讲述如何在使用XGBoost建模时通过Early Stop手段来避免过拟合。全文系作者原创,仅供学习参考使用,转载授权请私信联系,否则将视为侵权行为。码字不易,感谢支持。以下为全文内容:过拟合问题是在使用复杂的非线性学习算法时会经常碰到的,比如gradient bo...翻译 2018-12-15 22:10:58 · 8862 阅读 · 0 评论 -
使用Python计算bootstrap置信区间
bootstrap置信区间假设总体的分布F未知,但有一个容量为n的来自分布F的数据样本,自这一样本按有放回抽样的方法抽取一个容量为n的样本,这种样本称为bootstrap样本。相继地、独立地自原始样本中抽取很多个bootstrap样本,利用这些样本对总体F进行统计推断,这种方法成为非参数bootstrap方法,又称自助法。使用bootstrap方法可以求得变量(参数)的置信区间,称作boot...原创 2018-12-02 17:53:07 · 10344 阅读 · 0 评论 -
使用SQL计算AUC值
背景在开发一些机器学习应用时,经常需要展示模型的ROC曲线以及AUC值。我们固然可以在代码中编写函数或者直接调用已有的软件包来计算,但在某些场景下当面临的数据量很大时,网络的传输可能会影响系统的性能。这种情况下可以考虑直接在SQL语句中计算,而不需要将数据传回到客户端,从而提升效率和稳定性。实现计算AUC值需要两个参数:模型的输出值和样本真实的标签。我们可以假设数据库中有一个表用来保存这两个...原创 2018-12-02 17:07:00 · 3848 阅读 · 1 评论 -
【已解决】tensorflow官网无法访问
问题描述想看一下tensorflow的官方文档,却无法访问 https://www.tensorflow.org解决方案官网地址已经改变!现在的地址是 https://tensorflow.google.cn ,直接访问即可!令人疑惑的是,不知道为什么Google出来的结果包括github上文档给的官方地址还是https://www.tensorflow.org,有了解的朋友可以...原创 2018-06-18 08:49:58 · 5372 阅读 · 1 评论 -
交叉验证的原理与用法
引言在机器学习中,交叉验证(cross validation)是一种用来做模型选择的方法。如果给定的样本数据充足,我们可以随机地将数据集切分成训练集、验证集和测试集,训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对方法进行评估。然而实际情况中数据往往是不够充分的,为了更好地选择模型,可以使用交叉验证的方法。原理具体而言,当我们开始一个机器学习的建模工作时,首先会将数...原创 2018-06-23 09:31:04 · 8618 阅读 · 0 评论 -
Scikit-Learn 中文文档完整目录
Scikit-learn是一个开源的机器学习工具包,集成了各种常用的机器学习算法和数据预处理工具。Apachecn是一个专注于优秀的开源项目维护的开源组织,在热心网友的共同努力下,对Scikit-learn的文档进行了中文翻译,详情见scikit-learn中文文档。本文按照个人的阅读偏好对该文档做了一个目录,便于使用时的检索。全文系作者原创,仅供学习参考使用,转载授权请私信联系,否则将视为侵权行...原创 2018-06-13 09:36:10 · 2307 阅读 · 2 评论 -
机器学习备忘录 | 二分类模型常用评价指标汇总
有很多指标可以衡量机器学习模型的效果,不同的任务使用的评价指标也不尽相同。本文对二分类任务的评价指标加以总结。全文系作者原创,仅供学习参考使用,转载授权请私信联系,否则将视为侵权行为。码字不易,感谢支持。在二分类问题中,数据的标签通常用(0/1)来表示,在模型训练完成后进行测试时,会对测试集的每个样本计算一个介于0~1之间的概率,表征模型认为该样本为阳性的概率,我们可以选定一个阈值,将模型...原创 2018-06-12 22:04:43 · 3517 阅读 · 0 评论 -
gensim计算文档相似度
gensim是一个基于Python语言的开源工具集,用于处理向量空间模型(vector space modeling)和话题模型(topic modeling)的相关问题。本文分享如何使用gensim工具来计算两篇中文文档的相似度。首先我们要生成一些中文文档。下面的代码生成一个名为documents的文档列表,由于是演示,这里的每个文档中只有几个词语。关于如何对原始的字符串做分词操作,可以...原创 2018-04-23 23:50:30 · 2585 阅读 · 0 评论 -
Pandas必知必会 | 检测数据集中的异常值
在数据集中如果某一个观察值不寻常地大于或者小于该数据集中的其他数据,我们则称之为疑似异常值。疑似异常值的存在,会对随后的计算结果产生不适当的影响,检测疑似异常值并加以适当的处理是十分必要的。一种经典的计算数据集中疑似异常值的方法是Tukey method。该方法先计算出数据集的四分之一分位数(Q1)和四分之三分位数(Q3),从而计算出四分位数间距(IQR),然后将小于Q1 - 1.5IQR或者大...原创 2019-02-02 15:34:12 · 7244 阅读 · 0 评论