
算法
光英的记忆
新世界,新创造
展开
-
统计学习方法知识索引
声明:本文所有内容及其链接内容均来自于统计学习方法,只为了本人学习使用,不做任何商业用途,特此声明,如有违规,可以联系我。 1,统计学习2,监督学习3,统计三要素4,模型评估与模型选择5,正则化和交叉验证6,泛化能力7,生成模型与判别模型8,分类问题9,标注问题 10,回归问题 感知机,感知机模型,感知机学习策略,感知机学习算法,算法的收敛性,感知机学习方法,感知机学习算法的对偶形式, ...原创 2019-03-19 21:54:37 · 252 阅读 · 0 评论 -
在模型评估过程中,有哪些主要的验证方法,他们的优缺点是什么?在自助法的采样过程中,对N个样本进行N次自助采样,当N区域无穷大时最终有多少个数据从未被选择过?
Holdout检验:Holdot检验是最简单也是最直接的验证方法,它将原始的样本集合随机划分成训练集和验证集2部分。比方说,对于一个点击率预测模型,我们把样本按照70%-30%的比例分成2部分,70%的样本用于模型训练。30%用于模型验证,包括绘制ROC曲线,计算精确率和召回率等指标来评估模型性能。holdout检验的缺点很明显:即在验证集上计算出来的最后评估指标和原始分组有很大的...原创 2019-03-23 15:10:48 · 4282 阅读 · 2 评论 -
超参数有哪些调优方法?
为了进行超参数调优,我们一般会采用网格搜索,随机搜索,贝叶斯优化等算法。在具体介绍算法之前,需要明确超参数搜索算法一般包括哪几个要素。一时目标函数,即算法需要最大化。最小化的目标。二十搜索范围,一般通过上限和下限来确定。三十算法的其他参数,如搜索步长。网格搜索:网格搜索可能是最简单,应用最广泛的超参数搜索算法,他通过查找搜索范围内的所以的点来确定最优值。如果采用较大的搜索范围及较小的步...原创 2019-03-23 16:10:02 · 6328 阅读 · 1 评论 -
在模型评估过程中,过拟合和欠拟合具体指什么现象?能否说出几种降低过拟合和欠拟合风险的方法?
在模型评估过程中,过拟合和欠拟合具体指什么现象?过拟合是指模型在训练数据拟合呈过当的情况,反应到评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上的表现很差。欠拟合指的是模型在训练和预测时都不好的情况。能否说出几种降低过拟合和欠拟合风险的方法?降低过拟合风险的方法:1.从数据入手,获得更多的训练数据。使用更多的训练数据是解决过拟合问题最有效的手段,因为更多的样本能...原创 2019-03-23 16:52:13 · 5586 阅读 · 0 评论 -
逻辑回归相比于线性回归,有何异同?
首先逻辑回归处理的是分类问题,线性回归处理的是回归问题,这是两者最本质的区别。原创 2019-03-23 18:24:20 · 2101 阅读 · 0 评论 -
以聚类问题为例,假设没有外部标签数据,如何评估两个聚类算法的优劣?
相比于监督学习,非监督学习通常没有标注数据,模型,算法的设计直接影响最终的输出和模型的性能。为了评估不同聚类算法的性能优劣,我们需要了解常见的数据簇的特点。以中心定义的数据簇;这类数据集合倾向于球形分布,通常中心被定义为质心,即此数据簇所有店的平均值。集合中的数据到中心的距离相比到其他簇中心的距离更近。以密度定义的数据簇:这类数据集合呈现和周围数据簇明显不同的密度,或稠密或稀疏。当数据簇不...原创 2019-03-26 23:11:52 · 3705 阅读 · 1 评论 -
决策树有哪些常用的启发函数?
首先我们回顾一下这几种决策树构造时使用的准则。ID3-最大信息增益原创 2019-03-23 21:53:10 · 2399 阅读 · 0 评论 -
PAC最大方差理论。如何定义主成分?从这种定义出发,如何设计目标函数使得降维达到提取主成分的目的?针对这个目标函数,如何对PAC问题进行求解?
场景描述:在机器学习领域中,我们对于原始数据进行特征提取,有时会得到比较高维的向量。在这些向量所处的高维空间中,包含很多的冗余和噪声。我们希望通过降维的方式来寻找数据内部的特征,从而提升特征的表达能力,降低训练复杂度。主成分分析(Principai Components Analysis,PAC)作为降维中最经典的方法,至今已经有100多年历史。他属于一种线性,非监督,全局的降维算法。如何...原创 2019-03-23 22:37:45 · 832 阅读 · 0 评论 -
PAC最小平方误差理论。PAC求解的其实是最佳投影方向,即一条直线,这与数学中线性回归问题的目标不谋而合,能否从回归的角度定义PAC的目标并相应的求解问题呢?
PAC求解的其实是最佳投影方向,即一条直线,这与数学中线性回归问题的目标不谋而合,能否从回归的角度定义PAC的目标并相应的求解问题呢?我们还是考虑二维空间的样本点。PAC最大方差理论,求得到一条直线使得样本点投影到该直线上的方差最大。从求解直线思路出发,很容易联想到数学的线性回归问题,其目标也是求解一个线性函数使得对应直线能够更好的拟合样本点集合。如果我们从这个角度定义PAC的目标,那么问题就...原创 2019-03-23 22:54:18 · 419 阅读 · 0 评论 -
线性判别分析。对于具有类别标签的数据,应当如何设计目标函数使得降维过程中不损失类别信息?在这种目标下,应当如何进行求解?
线性判别分析首先是为分类服务的,因此只要找到一个投影方向w,使得投影后的样本尽可能按照原始类别分开。线性判别分析中心思想,最大化类间距离和最小化类内距离。省略推导过程,,,后续补充。。。...原创 2019-03-23 23:17:44 · 381 阅读 · 0 评论 -
线性判别分析LDA和主成分分析PAC。LDA和PAC作为经典的降维算法,如何从应用的角度分析其原理的异同?从数学推导的角度,两种降维算法在目标函数上有何去区别和联系?
场景分析:同样作为线性降维算法,PAC是非监督的降维方法,而LDA线性判别分析是有监督的降维算法。问题解答:首先将线性判别分析LDA扩展到高维的情况。假设有n个类别,并需要将特征降维至d维,因此我们需要找到以恶搞d维的投影超平面,使得投影后的样本满足线性判别分析LDA的目标,最大化类间距离和最小化类内距离。推导过程暂时省略。。。。。。从主成分分析PAC和线性判别分析...原创 2019-03-24 00:06:20 · 1033 阅读 · 2 评论 -
k均值聚类。简述K均值聚类算法的具体步骤。K均值算法的优缺点是什么?如何对其进行调优?
k均值聚类支持向量机,逻辑回归,决策树等经典的机器学习算法主要用于分类问题,即根据一些已经给定的类别的样本,训练某种分类器,使得他能够对类别未知的样本进行分类。与分类问题不同,聚类是事先并不知道任何样本标签的情况下,通过数据之间的内在关系吧样本划分维若干类别,使得同类别样本之间相似度高,不同类别样本之间的相似度低。分类问题属于监督学习范畴,而聚类则属于非监督学习。k均值聚类(K-mea...原创 2019-03-24 13:53:06 · 16458 阅读 · 1 评论 -
候选采样技术
原创 2019-05-06 22:25:16 · 342 阅读 · 0 评论 -
维特比算法浅析,如何理解时序的动态规划
Csdn懂个锤子 还不是IT内容!!!在汉中,即使知道了读音,也就是我们小学学的拼音,要找到准确的对应的汉字还有一些困难,因为汉语中平均一个读音对应十几个汉字,即使你的四声读音非常准,耳朵也听得非常准(南方人其实常常做不到这一点),一个标上了四声声调的读音也对应了六个国标汉字。一音多字这个问题,在语音识别上会产生指数爆炸的灾难性后果。比如一个音对应6个字,从理论上讲,两个音的组合就可能对应3...原创 2019-10-10 17:18:13 · 1030 阅读 · 0 评论 -
代码实现bp算法示例
# encoding:utf-8import numpy as npimport randomclass Network(object): def __init__(self, sizes): self.num_layers = len(sizes) print("self.num_layers", self.num_layers) ...原创 2019-06-26 20:24:27 · 1470 阅读 · 1 评论 -
机器学习 - 竞赛网站
数据竞赛类网站https://blog.youkuaiyun.com/zk_j1994/article/details/76019650 Kagglehttps://www.kaggle.com/competitions 阿里巴巴天池大数据比赛https://tianchi.shuju.aliyun.com/ DataCastlehttps://www.pkbigdata....原创 2019-07-13 20:48:52 · 272 阅读 · 0 评论 -
A/B测试的陷阱。在对模型进行过充分的离线评估之后,为什么还要进行在线A/B测试?如何进行线上A/B测试?如何划分实验组和对照组?
场景描述:在户两位公司中,A/B测试是验证新模块,新功能,新产品是否有效,新算法,新模型的效果是否有提升,新设计是否受到用户欢迎,新更改是否影响用户体验的主要测试方法。在机器学习领域中A/B测试是验证模型最终效果的主要手段。在对模型进行过充分的离线评估之后,为什么还要进行在线A/B测试?需要进行在线A/B测试原因如下一:离线评估无法完全消除模型过拟合的影响,因此得出的离线评估结果无...原创 2019-03-23 12:53:48 · 1360 阅读 · 0 评论 -
余弦距离是否是一个严格定义的距离?
1余弦距离妈祖正定性和对称性,不满足三角不等式。可以举一个反例证明 A=(1,0) B=(1,1) C=(0,1)计算三角不等式不成立。...原创 2019-03-23 11:25:16 · 866 阅读 · 1 评论 -
在对数据进行预处理时,应该怎样处理类别型特征?
类别型主要指性别,血型等只有在有限选项内取值的特征。类别型特征原始输入通常是字符串形式,除了决策树等少量模型能直接处理字符串形式的输入,对于逻辑回归,支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。在对数据进行预处理时,应该怎样处理类别型特征?序号编码 Ordinal Encoding 序号编码通常处理类别间具有大小关系的数据。例如成绩,可以分为低,中...原创 2019-03-19 22:44:53 · 3285 阅读 · 0 评论 -
如何处理高纬度组合特征?什么是组合特征?
什么是组合特征?为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散 特征两两组合,构成高阶组合特征。如何处理高纬度组合特征?假设用户数量M 和物品数量N为组合特征,那么学习的参数就是m*n,然而m和n 可能是千万级别的数量级,几乎无法学习m*n数量级的规模的参数。在这种情况下一种有效的方法就是对m,和n分别用k维的低纬向量来表示。那么学习的参数将从m*n,变成k*m+n...原创 2019-03-19 23:12:09 · 1813 阅读 · 0 评论 -
怎样有效的找到组合特征?
1原创 2019-03-20 08:39:52 · 960 阅读 · 0 评论 -
有哪些文本表示模型?它们各有什么优缺点?
1.词袋模型 和 N-gram模型词袋模型最基础的文本表示模型是词袋模型。顾名思义,就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。就是将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应得权重则则反映了这个词在原文章的重要程度。 常用TF-IDF来计算权重,公式为: ...原创 2019-03-20 21:00:09 · 5007 阅读 · 1 评论 -
高斯混合模型。高斯混合模型的核心思想是什么?他是如何迭代计算的?
高斯混合模型也是一种常见的聚类算法,与K均值聚类算法类似,同样使用了EM算法进行迭代计算。高斯混合模型假设每个簇的数据都符合高斯分布(又叫正太分布)的,当前数据呈现的分布就是各个簇的高斯分布的叠加在一起的结果。高斯分布模型即用多个高斯分布函数的线性组合来对数据分布进行拟合。理论上高斯混合模型可以拟合出任意类型的分布。说起高斯分布,大家都不陌生,通常身高,分数等都大致符合高斯分布。因此,当我...原创 2019-03-24 23:11:28 · 1913 阅读 · 0 评论 -
Word2vec是如何工作的?它和LDA有什么区别和联系?
Word2vec是目前最常用的词嵌入模型之一。是一种浅层的神经网络模型,他有2种网络结构,分别是CBOW(continues bag of words)和 skip-gram.Word2vec 隐狄利克雷模型(LDA),CBOW,Skip-gramWord2vec是如何工作的?CBOW的目标是根据上下文出现的词语来预测当前词的生成概率:Skip-gram模型是根据当前词来...原创 2019-03-21 23:19:57 · 2535 阅读 · 0 评论 -
在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?
知识点:迁移学习(Transfer Learning),生成对抗网络,图像处理,上采样技术,数据扩充一个模型所能提供的信息一般来源于2个方面,一是训练数据中蕴含的信息,二是在模型的形成过程中(包括构造,学习,推理等),人们提供的先验信息。当训练数据不足时,说明模型从原始数据中获取的信息比较少,这种情况下要保证模型的效果,就需要更多的先验信息。先验信息可以作用在模型上,例如让模型...原创 2019-03-22 00:00:13 · 8955 阅读 · 0 评论 -
准确率Accuracy的局限性
前提问题分析:Hulu的奢侈品用户广告主们希望把广告定向投放给奢侈品用户。Hulu通过第三方数据平台(DMP)拿到了一部分奢侈品用户的数据,并以此为训练集合测试集,训练和测试奢侈品用户的分类模型。该模型的分类准确率超过了95%,但在实际广告投放过程中,该模型还是把大部分广告投给了非奢侈品用户,还肯能是什么原因造成的?准确率的局限性准确率是指分类正确的样本占总样本的比例:Accuar...原创 2019-03-22 12:01:42 · 2941 阅读 · 0 评论 -
精确率和召回率的权衡
问题描述:Hulu提供视频的模糊搜索功能,搜索排序模型返回的top5的精确率非常高,但在实际应用中,用户还是找不到自己想要的视频,特别是一些比较冷门的剧集,这可能是哪个环节出了问题?精确率和召回率的权衡精确率:是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。召回率:是指分类正确的正样本个数占真正的正样本个数的比例。在排序问题中通常没有一个确定的阈值把得到的结...原创 2019-03-22 15:01:13 · 3320 阅读 · 0 评论 -
自组织映射神经网络。自组织映射神经网络是如何工作的,它与k均值算法有何区别?怎样设计自组织映射神经网络并设定网络训练参数?
场景描述:自组织映射神经网络是 无监督学习方法中一类重要方法,可以用作聚类,高维可视化,数据压缩,特征提取等多种用途。在深度学习神经网络大为流行的今天,谈及自组织映射神经网络依然是一件非常有意义的事情,这主要是由于自组织映射神经网络中融入了大量人脑神经元的信号处理机制,有着独特的结构特点。自组织映射神经网络是如何工作的,它与k均值算法有何区别?生物研究表明,在人脑的感知通道上,神经元组...原创 2019-03-26 22:45:02 · 1078 阅读 · 0 评论 -
RMSE平方根误差的意外?
RMSE(Root mean square error)问题描述:一家流媒体公司,拥有众多的美剧资源,预测每部美剧的流量趋势对于广告投放,用户增长都非常重要。我们希望构建一个回归模型来预测某部美剧的流量趋势,但无论采用哪种回归模型,得到的RMSE指标都非常高。然后事实是,模型在95%的时间区间内预测误差都小于1%,取得了相当不错的预测结果。那么造成RMSE指标居高不小的最可能的原因是什...原创 2019-03-22 17:02:22 · 1896 阅读 · 0 评论 -
什么是ROC曲线?如何绘制ROC曲线?如何计算AUC?ROC曲线相对P-R曲线有什么特点?
场景问题描述:二值分类器(Binary Classifier)是机器学校领域中最常见也是应用最广泛的分类器。评价二值分类器的指标很多,比如precision,recall,F1 score P-R曲线等。但这些指标或多或少只能反映模型在某一方面的性能。相比而言,ROC曲线则有更多的优点,经常作为评估二值分类器最重要的指标之一。什么是ROC曲线?ROC曲线是Receeiver Op...原创 2019-03-22 19:48:10 · 3517 阅读 · 2 评论 -
机器学习算法总结知识点索引
百面机器学习算法总结索引(声明:以下所有内容及其链接内容来自于百面机器学习一书,仅供自己方便学习和复习,不做任何商业用途,所有链接内容继承本声明) 第一节:特征归一化 1.为什么需要对数值类型的特征做归一化? 2.在对数据进行预处理时,应该怎样处理类别型特征? 3.如何处理高纬度组合特征?什么是组合特征? 4. 5.有哪些文本表示模型?它们各有什么优缺点?...原创 2019-03-19 12:34:39 · 426 阅读 · 0 评论 -
1.为什么需要对数值类型的特征做归一化?
对数值类型的特征做归一化可以将所以的特征都统一到一个大致相等的数值区间内。比如x1的范围是[0,10],x2的范围是[0,100]。 两者的量纲是不等的,可想而知相比于x1,x2需要更多的迭代步数才能收敛到最佳值,从而使最后的结果更青睐于x2特征。而当归一化后,x1,x2的量纲相等,不仅能减少迭代步数,还能使两种特征对最后的结果影响相同。最常用的方法有2种(1)线性函数归一化:...原创 2019-03-19 12:52:49 · 1802 阅读 · 1 评论 -
结合你的学习和研究经历,探讨一下为什么一些场景中使用余弦相似度而不是欧氏距离?
场景描述:在机器学习问题中,通常将特征表示为向量的像是,所以在分析两个特征向量之间的相似性时,常用余弦相似度来表示。余弦相似度的取值范围是【-1,1】,相同的2个向量之间的相似度为1.如果希望得到类似于距离的表示,将1-减去余弦相似度即位余弦距离,余弦距离的取值范围【0,2】,2个相同的向量的余弦距离为0.结合你的学习和研究经历,探讨一下为什么一些场景中使用余弦相似度而不是欧氏距离?...原创 2019-03-22 20:59:23 · 2598 阅读 · 0 评论 -
机器学习项目地址总结汇总
Tensorflow2.0教程 电影推荐系统案例 - 在线小说搜索引擎 中文聊天机器人 利用网络上公开的数据构建一个小型的证券知识图谱/知识库 深度学习入门书籍和资源 TensorFlow API Versions 2.0 tensorflow2.0安装成功的博文 tensorflow中文社区 tenforflow API Keras: 基于 Python...原创 2019-07-22 20:48:07 · 256 阅读 · 0 评论