机器学习面试题准备
LZXandTM
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
集成学习
一.集成学习的概念 通过构建并结合多个学习器来完成学习任务,先产生一组"个体学习器",再用某种策略将它们结合起来,个体学习器通常由一个现有的算法从训练数据中产生,例如C4.5决策树算法、BP神经网络算法等,此时集成中只包含同种类型的个体学习器,例如"决策树集成"中全是决策树,“神经网络集成”中全是神经网络,这样的集成是同质的,其中的个体学习器亦称基学习器;集成也可以包含不同类型的个体学习器,例...原创 2017-12-08 20:56:50 · 1568 阅读 · 0 评论 -
华为编程题
老师想知道从某某同学当中,分数最高的是多少,现在请你编程模拟老师的询问。当然,老师有时候需要更新某位同学的成绩. 输入描述:输入包括多组测试数据。每组输入第一行是两个正整数N和M(0 < N <= 30000,0 < M < 5000),分别代表学生的数目和操作的数目。学生ID编号从1编到N。第二行包含N个整数,代表这N个学生的初始成绩,其中第i个数代表ID为i的学生...原创 2018-03-07 12:04:31 · 1113 阅读 · 0 评论 -
C++基础问题
C++内存管理机制:· 栈区(stack)— 由编译器自动分配释放 ,存放函数的参数值,局部变量的值等,其操作方式类似于数据结构中的栈。· 堆区(heap) — 一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS回收,注意它与数据结构中的堆是两回事,分配方式类似于链表。· 全局区(静态区)(static)—全局变量和静态变量的存储是放在一块的,初始化的全局变量和静态变量在一块区域, 未初...原创 2018-03-15 16:37:06 · 374 阅读 · 0 评论 -
梯度下降法
1.原理推导2.注意事项2.1 学习率的调整2.2 随机梯度下降法批量梯度下降法(Batch Gradient Descent,简称BGD)是梯度下降法最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行更新,也就是方程(1)中的m表示样本的所有个数。优点:全局最优解;易于并行实现;缺点:当样本数目很多时,训练过程会很慢。随机梯度下降法:它的具体思路是在更新每一参数时都使用一个样本来...原创 2018-03-05 10:54:43 · 310 阅读 · 0 评论 -
回归与分类
1.logistic 回归2.softmax 回归原创 2018-03-05 15:46:15 · 392 阅读 · 0 评论 -
SVM
1.loss function红色这条线就是Square Loss的表现,与黑色的理想loss曲线比较,当x很大是,将会取得很大的值,这是不合理的,既然如此,我们再试一下Square Loss+cross entropy。蓝色这条线就是Sigmoid+Square loss,但是实际上,Square的performance并不好,用cross entropy更合理,就是绿色那条线,当横坐标趋近无穷...原创 2018-03-05 17:25:15 · 320 阅读 · 0 评论 -
网易编程题
题目描述有 n 个学生站成一排,每个学生有一个能力值,牛牛想从这 n 个学生中按照顺序选取 k 名学生,要求相邻两个学生的位置编号的差不超过 d,使得这 k 个学生的能力值的乘积最大,你能返回最大的乘积吗?输入描述:每个输入包含 1 个测试用例。每个测试数据的第一行包含一个整数 n (1 <= n <= 50),表示学生的个数,接下来的一行,包含 n 个整数,按顺序表示每个学生的能力值...原创 2018-03-14 11:20:12 · 769 阅读 · 0 评论 -
过拟合的解决方法
随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集, 对训练集外的数据却不work, 这称之为泛化(generalization)性能不好。泛化性能是训练的效果评价中的首要目标,没有良好的泛化,就等于南辕北辙, 一切都是无用功。发生overfitting 的主要原因是:(1)使用过于复...原创 2018-03-24 19:46:25 · 792 阅读 · 0 评论 -
LR和SVM、线性回归的联系与区别
LR和SVM的联系:都是监督的分类算法都是线性分类方法 (不考虑核函数时)都是判别模型 判别模型和生成模型是两个相对应的模型。 判别模型是直接生成一个表示P(Y|X)P(Y|X)或者Y=f(X)Y=f(X)的判别函数(或预测模型) 生成模型是先计算联合概率分布P(Y,X)P(Y,X)然后通过贝叶斯公式转化为条件概率。 SVM和LR,KNN,决策树都是判别模型,而朴素贝叶斯,隐马尔可夫模型是生成模型...原创 2018-03-24 20:45:16 · 10945 阅读 · 0 评论 -
生成模型和判别模型
监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出,这一模型的一般形式为决策函数Y=f(x)或者条件概率分布P(Y|X)监督学习方法有可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型生成方法由数据学习联合分布概率P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型:P(Y|X) = P(X,Y)/P(X)典型的生成模型:朴素贝叶斯方法、隐马尔可夫模型...原创 2018-03-24 21:19:31 · 248 阅读 · 0 评论 -
深度学习之损失函数
1.tf.nn.l2_losstf.nn.l2_loss(t, name=None)L2 Loss.Computes halfthe L2 normofa tensorwithoutthesqrt:这个函数的作用是利用 L2 范数来计算张量的误差值,但是没有开方并且只取 L2 范数的值的一半output =sum(t **2) /2A原创 2018-01-04 10:27:01 · 6581 阅读 · 0 评论 -
典型CNN神经网络结构
LeNet-5,用来识别数字的卷积网络 C1层是一个卷积层,由6个特征图Feature Map构成。特征图中每个神经元与输入为5*5的邻域相连。特征图的大小为28*28,这样能防止输入的连接掉到边界之外(32-5+1=28)。C1有156个可训练参数(每个滤波器5*5=25个unit参数和一个bias参数,一共6个滤波器,共(5*5+1)*6=156个参数),共156*(28*原创 2017-12-19 16:42:39 · 2814 阅读 · 0 评论 -
LSA和PLSA
1.词袋模型 词袋模型(BOW, Bag-of-Words) 模型是NLP领域中的一个基本假设,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分,存在缺陷: 稀疏性: 对于大词典,尤其是包括了生僻字的词典,文档稀疏性不可避免; 多义词: BOW模型只统计单词出现的次数,而忽略了一个词可能存在多种含义,一词多义; 同义原创 2017-12-11 11:17:14 · 4812 阅读 · 3 评论 -
简要介绍下tensorflow的计算图
1.请简要介绍下tensorflow的计算图,深度学习 DL框架 中@寒小阳&AntZ:Tensorflow是一个通过计算图的形式来表述计算的编程系统,计算图也叫数据流图,可以把计算图看做是一种有向图,Tensorflow中的每一个节点都是计算图上的一个Tensor, 也就是张量,而节点之间的边描述了计算之间的依赖关系(定义时)和数学操作(运算时)。原创 2017-12-21 09:51:24 · 5535 阅读 · 1 评论 -
欧几里得距离和曼哈顿距离
在k-means或kNN,我们常用欧氏距离来计算最近的邻居之间的距离,有时也用曼哈顿距离,请对比下这两种距离的差别。欧式距离曼哈顿距离可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离,也就是在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和图中红线代表曼哈顿距离,绿色代表欧氏距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离原创 2017-12-21 11:38:50 · 12133 阅读 · 0 评论 -
有监督学习和无监督学习的区别
1.监督学习 对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。 监督学习是训练神经网络和决策树的最常见技术。这两种技术(神经网络和决策树)高度依赖于事先确定的分类系统给出的信息。 分类、回归都是监督学习的内容。原创 2017-12-05 13:27:57 · 2911 阅读 · 0 评论 -
随机森林模型的泛化能力为什么好
决策树是广泛应用的一种分类算法,它是一种树状分类器,在每个内部节点选择最优的分裂属性进行分类,每个叶节点是具有同一个类别的数据。当输入待分类样本时,决策树确定一条由根节点到叶节点的唯一路径,该路径的叶节点的类别就是待分类样本的所属类别。决策树是一种简单且快速的非参数分类方法,一般情况下,还具有很好的准确率,然而当数据复杂或者存在噪声时,决策树容易出现过拟合问题,使得分类精度下降。 随机原创 2017-12-06 11:30:24 · 13606 阅读 · 0 评论 -
决策树如何防止过拟合
一.什么是过度拟合数据? 过度拟合(overfitting)的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟原创 2017-12-06 20:02:33 · 24367 阅读 · 1 评论 -
归一化
1、归一化为什么能提高梯度下降法求解最优解的速度?函数z=f(x,y)在点p(x,y)的梯度的方向与过点p的等高线f(x,y)=c在这点的法线一个方向相同。梯度的方向与等高线切线方向垂直。梯度是函数值变化最快的方向。梯度下降法找到的方向对所在的那个点来说,这个方向是下降最快的蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区原创 2018-01-02 21:23:04 · 3417 阅读 · 0 评论 -
深度学习之参数优化方法
优化问题:给定目标函数f(x),我们需要找到一组参数x,使得f(x)的值最小1.Vanilla updatex += - learning_rate * dx对于训练数据集,我们首先将其分成n个batch,每个batch包含m个样本。我们每次更新都利用一个batch的数据,而非整个训练集。即:好处在于:当训练数据太多时,利用整个数据集更新往往时间上不显示。batch原创 2018-01-03 20:37:50 · 12963 阅读 · 2 评论 -
深度学习之卷积网络的层级结构
数据输入层/ Input layer有3种常见的图像数据处理方式去均值 把输入数据各个维度都中心化到0归一化 幅度归一化到同样的范围PCA/白化 用PCA 降维 白化是对数据每个特征轴上的幅度归一化卷积计算层/ CONV layer局部关联。每个神经元看做一个filter。窗口(rec原创 2017-12-19 13:21:05 · 3461 阅读 · 0 评论 -
正则项
0范数,向量中非零元素的个数。1范数,为绝对值之和。2范数,就是通常意义上的模。L0和L1范数让W向量中项的个数最小化L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的正则项||W||2最小,可以使得W的每个元素都很小,都接近于0(考虑稳定)但与L1范数不同,它不会让它等于0,而是接近于0。防止过拟合https://www.zhihu.com/question/20924039...原创 2018-04-02 09:56:35 · 980 阅读 · 0 评论
分享