
机器学习
空城不空99
耐得住寂寞,守得住繁华!
展开
-
机器学习面试题库:141-150题(15day)
机器学习面试题库:141-150题(15day)线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。感知器准则函数:代价函数J=-(W*X+w0),分类的准则是最小化代价函数。感知器是神经网络(NN)的基础,网上有很多介绍。SVM:支持向量机也是很经典的算法,优化目标是最大化间隔(margin),又称最大间隔分类器,是一种典型的线性分类器。(使用核函数可解决非线性问题)Fisher准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线原创 2020-08-23 18:29:19 · 1098 阅读 · 0 评论 -
机器学习面试题库:131-140题(14day)
机器学习面试题库:131-140题(14day)如果我们没有足够的数据来训练我们的算法,我们应该通过重复随机采样增加训练集合的大小。决策树还可以用在数据中的聚类分析,但是聚类常常生成自然集群,并且不依赖于任何目标函数。神经网络可以逼近方式拟合任意函数, 所以以上图都可能由神经网络通过监督学习训练得到决策边界。Fisher线性判别函数是将多维空间中的特征矢量投影到一条直线上,也就是把维数压缩到一维。寻找这条最优直线的准则是Fisher准则:两类样本在一维空间的投影满足类内尽可能密集,类间尽可原创 2020-08-22 18:42:21 · 370 阅读 · 0 评论 -
机器学习面试题库:121-130题(13day)
机器学习面试题库:121-130题(13day)常采用特征选择方法。常见的六种特征选择方法:1)DF(Document Frequency) 文档频率DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性2)MI(Mutual Information) 互信息法互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向"低频"的特征词。相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。3)(Info原创 2020-08-22 18:19:29 · 449 阅读 · 0 评论 -
机器学习面试题库:111-120题(12day)
机器学习面试题库:111-120题(12day)KNN算法肯定不是线性的边界,所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类,所以边界一定是坑坑洼洼的。利群点要着重考虑, 第一点是对的,不是必须的,当然, 如果是正态分布, 训练效果会更好,有少量的多重线性相关性是可以的, 但是我们要尽量避免。Var1和Var2相关系数是负的, 所以这是多重线性相关, 我们可以考虑去除其中一个。一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的。相关性系数范围应原创 2020-08-22 18:01:15 · 300 阅读 · 0 评论 -
机器学习面试题库:101-110题(11day)
机器学习面试题库:101-110题(11day)SVM核函数有四种:1.线性核函数 2.多项式核函数 3.sigmoid核函数 4.高斯径向基核函数KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙。最简单的神经网络, 感知器, 其实就是线性回归的训练,我们可以用一层的神经网络,构造对数几率回归。这个说法是错误的, 首先, “不依赖”和”不相关”是两回事, 其次, 转化过的特征, 也可能是相关的。链接:https://www.nowcode原创 2020-08-22 17:32:33 · 352 阅读 · 0 评论 -
机器学习面试题库:91-100题(10ay)
机器学习面试题库:91-100题(10ay)当导出回归参数时,我们做出以上全部4种假设,缺少任何一种,模型都会出错。变量间的相关系数为0.9说明了变量间的较强关系;另一方面,p-value和t统计量仅仅衡量了非零联系的证据有多强。在数据足够多的情况下,哪怕弱影响都可能是显著的。以上这些都是评价回归模型的指标。1.小训练数据集更容易找到过拟合训练数据的假设。2.从偏差和方差的权衡中可以看出,假设区间小,偏差更大,方差更小。所以在小假设区间的情况下,不太可能找到欠拟合数据的假设。不是必要原创 2020-08-19 15:40:08 · 404 阅读 · 0 评论 -
机器学习面试题库:81-90题(9ay)
机器学习面试题库:81-90题(9ay)选择正确的多项式次数在回归拟合中扮演重要角色,如果选择的次数太高,过拟合的可能性将大大提高。假设有三个类(123),1:23、2:13、3:12共三种分法。有n个类就有n个1:rest模型。Sigmoid函数用于转换输出结果,使之落在逻辑回归区间[0,1]内。残差总是为正的,BD不正确。因此回归的残差之和一般情况总是大于为零,故而平均值也大于零。因为模型很少情况下做到完全拟合,A不正确。单单R方不能表示变量显著性,因为每次加入一个特征值,R方都会原创 2020-08-19 15:23:32 · 583 阅读 · 0 评论 -
机器学习面试题库:71-80题(8ay)
机器学习面试题库:71-80题(8ay)原创 2020-08-13 22:12:07 · 245 阅读 · 0 评论 -
机器学习面试题库:61-70题(7ay)
机器学习面试题库:61-70题(7ay)原创 2020-08-10 22:15:51 · 259 阅读 · 0 评论 -
机器学习面试题库:51-60题(6day)
机器学习面试题库:51-60题(6day)原创 2020-08-10 22:06:37 · 329 阅读 · 0 评论 -
机器学习面试题库:41-50题(5day)
机器学习面试题库:41-50题(5day)原创 2020-08-09 19:27:58 · 1026 阅读 · 0 评论 -
机器学习面试题库:31-40题(4day)
机器学习面试题库:31-40题(4day)SVM广泛应用于实际问题中,包括回归,聚类,手写数字识别等。SVM(支持向量机)主要用于分类问题,主要的应用场景有字符识别、面部识别、行人检测、文本分类等领域。通常SVM用于二元分类问题,对于多元分类通常将其分解为多个二元分类问题,再进行分类。有时绘制较小维数据非常有用,可以使用前两个主要分量,然后使用散点图可视化数据。所有算法都是降维算法的例子。降低数据维数将花费更少的时间来训练模型。如果列的缺失值太多(例如99%),那么可以删除这些列原创 2020-08-09 19:17:54 · 936 阅读 · 0 评论 -
机器学习面试题库:21-30题(3day)
机器学习面试题库:11-20题(2day)支持向量是那些最接近分离超平面的数据点。原创 2020-08-09 18:48:21 · 1090 阅读 · 0 评论 -
机器学习面试题库:11-20题(2day)
机器学习面试题库:11-20题(2day)势函数:主要用于确定分类平面,其思想源于物理。特征降维方法主要有:主成分分析:PCA线性判别分析:LDA矩阵奇异值分解:SVD,SVD和PCA类似,也可以看成一种降维方法LASSO:通过参数缩减达到降维的目的小波分析:有一些变换的操作降低其他干扰可以看做是降维拉普拉斯:请看这个http://f.dataguru.cn/thread-287243-1-1.htmlA: 对数几率回归其实是设计用来解决分类问题的B: 对数几率回归可以用来检验模型原创 2020-08-09 18:35:43 · 1323 阅读 · 0 评论 -
机器学习面试题库:1-10题(1day)
机器学习面试:1-100题(1day)A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误B. Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的分离超平面,应该属于结构风险最小化。D. SVM:训练好的模型的算法复杂度是由支持向量的个数决定的,而不是由数据的维度决定的,所以SV原创 2020-08-09 18:04:24 · 3188 阅读 · 1 评论 -
机器学习-基本术语
机器学习-基本术语术语解释数据 (data)经验模型 (model)全局性结果(一棵决策树);学习器(learner)模式局部性结果(一条规则)数据集(data set)D{x1,x2,…,xn}样本 (sample)示例;特征向量:xi=(xi1,xi2,…,xid),d维样本空间(样本xi的维数)属性值(attribute valu...原创 2019-11-21 11:55:13 · 261 阅读 · 0 评论