
机器学习
峰峰jack
这个作者很懒,什么都没留下…
展开
-
12 机器学习系统 机器学习数据
训练数据量决定效果上限:有的时候,使用什么算法并无关紧要,关键是使用了多大的数据量进行训练。如下图所示的nlp预测场景,四种算法随着训练数据量的增加,其准确率相应增加。而不同算法尽管有一些差异,但远没有数据量的影响那么大。除了训练数据量是否足够,另一个重要方面是特征信息是否充分。一个有用的测试是:在给定的特征之下,人类专家能否有信心给出正确的预测?如果可以,那说明我们提供的特征信息足够充分;否则,说明我们提供的特征数据不够。特征信息充分,模型才可能做出正确预测;不充分,人类都无法做出正确预测,则大概率原创 2021-08-25 20:00:44 · 608 阅读 · 0 评论 -
理解机器学习中的偏差与方差
所谓高偏差,意思是训练集误差(train error)和验证集误差(cv error)都很大。高偏差意味着模型太简单了,不足以准确描述实际的数据分布,对应“欠拟合”(underfit)。这时,即便增大训练数据集的量,也不会带来训练误差的减小。高偏差对应下图左侧的简单模型,d=1表示只有一维特征。而高方差时,训练集误差小,但验证集误差很大。模型在训练集和验证集上的表现不一致,对应“过拟合”(overfit)。高方差意味着模型足够复杂,但学习得过头了,让一些噪声数据过度影响模型分布,使得模型反而不能反映实原创 2021-08-22 17:58:40 · 463 阅读 · 0 评论 -
吴恩达机器学习笔记1:手写linear regression
最近手写了linear regression,有以下几点收获:不做归一化,线性模型的训练就无法收敛吗?也可以收敛,但前提是学习率alpha要选得适当,而由于不同特征的量级差异很大,alpha要选得合适并不容易为何要做特征归一化?倒不一定是收敛速度慢,而是很难选择到合适的学习率alpha。一旦alpha选择得不合理,模型就可能无法收敛归一化的时候,要注意记录相应的均值和方差,后续对新样本做预测时也需要使用这两个参数,对特征做归一化这里就体现出手写模型的必要性,不手写很难理解为什么要做特征归一化注意原创 2021-01-18 20:32:05 · 762 阅读 · 2 评论 -
ROC曲线和AUC
ROC全称Receiver Operating Curve,最早应用于二战时的雷达探测,以评价信号侦测模型的优劣。在机器学习领域,ROC曲线同样用于模型效果的评价。ROC曲线样例如下图所示,其横坐标为假正率(FPR),纵坐标为真正率(TPR),曲线上的点对应不同阈值下的模型(FPR,TPR)。ROC理解的难点就在于阈值的变化,能够造成FPR和TPR的变化,从而形成曲线。当判断正负样本的阈值为极端小...原创 2018-04-17 11:21:32 · 775 阅读 · 0 评论 -
embedding与word2vec
embedding是指将目标向量化,常用于自然语言处理(如:Word2Vec)。这种思想的意义在于,可以将语义问题转换为数值计算问题,从而使计算机能够便捷处理自然语言问题。如果采用传统的One-hot编码,每个单词之间相互独立,此时词向量之间相互正交,编码无法反映单词之间的关联关系。而embedding可以理解为是将One-hot编码的高维向量,降维到一个较低维度的空间,在这个空间中不同单词之间能...原创 2018-04-24 11:09:42 · 1706 阅读 · 0 评论 -
spark:ML和MLlib的区别
ML和MLlib的区别如下ML是升级版的MLlib,最新的Spark版本优先支持ML。ML支持DataFrame数据结构和Pipelines,而MLlib仅支持RDD数据结构。ML明确区分了分类模型和回归模型,而MLlib并未在顶层做此类区分。ML通过DataFrame元数据来区分连续和分类变量。ML中的随机森林支持更多的功能:包括重要度、预测概率输出等,而MLlib不支持。以下是官方文档原文Th...原创 2018-05-17 20:25:24 · 3678 阅读 · 0 评论