
面试
文章平均质量分 81
西电校草
一个即将很牛的人
展开
-
机器学习总结(四):朴素贝叶斯(Naive Bayes)
(1)基本思想:基于贝叶斯定理与特征条件独立假设的分类方法;首先基于特征条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。(2)为什么叫“朴素”:对条件概率分布作了条件独立性的假设,因为这是一个较强的假设。条件独立性假设:根据贝叶斯定理推导:(3)为什么要后验概率最大化:等价于期原创 2017-03-29 16:41:10 · 1857 阅读 · 0 评论 -
中兴蓝剑计划机试题(FIFO缓存)
题目描述:在操作系统中,有一种虚拟内存管理技术是先进先出(FIFO)缓存。当所请求的存储页面不在缓存而缓存已满时,应该从缓存中移除持续时间最长的页面,以腾出空间给请求的页面。如果缓存未满,那么可以简单地将请求的页面添加到缓存,给定的页面应当在缓存中最多出现一次。当请求某个页面而在缓存中未找到此页面时发生缓存未命中。给定缓存的最大尺寸和页面请求列表,计算缓存未命中数。输入函数原创 2017-05-16 20:25:22 · 1922 阅读 · 0 评论 -
机器学习总结(六):集成学习(Boosting,Bagging,组合策略)
(也是面试常考)主要思想:利用一定的手段学习出多个分类器,而且这多个分类器要求是弱分类器,然后将多个分类器进行组合公共预测。核心思想就是如何训练处多个弱分类器以及如何将这些弱分类器进行组合,个体分类器应该“好而不同”。弱分类器如何选择:一般采用弱分类器的原因在于将误差进行均衡,因为一旦某个分类器太强了就会造成后面的结果受其影响太大,严重的会导致后面的分类器无法进行分类,,常用的弱分类器可以原创 2017-03-30 12:43:01 · 9226 阅读 · 0 评论 -
机器学习总结(十):常用聚类算法(Kmeans、密度聚类、层次聚类)及常见问题
任务:将数据集中的样本划分成若干个通常不相交的子集。性能度量:类内相似度高,类间相似度低。两大类:1.有参考标签,外部指标;2.无参照,内部指标。距离计算:非负性,同一性(与自身距离为0),对称性,直递性(三角不等式)。包括欧式距离,曼哈顿距离等等。(1) K均值聚类步骤:1.随机选择k个样本作为初始均值向量;2.计算样本到各均值向量的距离,把它划到距离最小的簇;3.计算新的均值原创 2017-05-06 10:48:02 · 7866 阅读 · 0 评论 -
机器学习总结(九):梯度消失(vanishing gradient)与梯度爆炸(exploding gradient)问题
(1)梯度不稳定问题:什么是梯度不稳定问题:深度神经网络中的梯度不稳定性,前面层中的梯度或会消失,或会爆炸。原因:前面层上的梯度是来自于后面层上梯度的乘乘积。当存在过多的层次时,就出现了内在本质上的不稳定场景,如梯度消失和梯度爆炸。(2)梯度消失(vanishing gradient problem):原因:例如三个隐层、单神经元网络:则可以得到:原创 2017-04-01 10:07:05 · 67873 阅读 · 19 评论 -
机器学习总结(八):常用机器学习算法优缺点对比、适用条件
这个面试的时候也经常会问,让你比较某几个算法的适用条件,数据、特征量到什么规模时选用哪种算法。(1)决策树适用条件:数据不同类边界是非线性的,并且通过不断将特征空间切分为矩阵来模拟。特征之间有一定的相关性。特征取值的数目应该差不多,因为信息增益偏向于更多数值的特征。优点:1.直观的决策规则;2.可以处理非线性特征;3.考虑了变量之间的相互作用。缺点:1.容易过拟合(随机森林);原创 2017-03-31 10:05:50 · 4610 阅读 · 1 评论 -
机器学习总结(七):基本神经网络、BP算法、常用激活函数对比
1. 神经网络(1)为什么要用神经网络?对于非线性分类问题,如果用多元线性回归进行分类,需要构造许多高次项,导致特征特多学习参数过多,从而复杂度太高。(2)常用的激活函数及其优缺点阶跃函数sgn(x)(理想,但不连续,不光滑);Sigmoid函数(下图左):优点:能够把输入的连续实值压缩到0到1之间;缺点:(1)容原创 2017-03-31 09:45:33 · 23399 阅读 · 2 评论 -
Java和C++ 笔试常用输入输出方法
C++:1.输入数组长度n,然后再输入数字,一维数组: (1)vector a(m); a.push_back(5/6); a[0];(2) int n;cin>>n;int *a=new int[n];for(int i=0;i{cin>>a[i];}.... d原创 2017-03-29 12:10:45 · 1123 阅读 · 0 评论 -
机器学习总结(五):基本的决策树算法
(1) 特征选择a. 信息增益:特征A对训练数据集D的信息增益g(D,A),定义为D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即g(D,A)= H(D)- H(D|A):b.信息增益比:信息增益g(D,A)与训练数据集D个关于特征A的值的熵HA(D)之比,其中HA(D)为(2)ID3算法基本思想:以信息增益度量属原创 2017-03-30 12:40:47 · 969 阅读 · 0 评论 -
常用排序算法总结(插入、冒泡、快速,堆、选择、希尔、归并)
对科研中常见的几种排序方法做个总结,方便日后查看与回顾。(对本人认为比较简单易懂的排序方法过程比较简略,对比较复杂的排序方法过程就比较详细)编程语言:C++(经过本人验证,可以正常运行)。一、直接插入排序(稳定):思想:“一趟一个“地将待排序记录插入到已经排好序的部分记录的适当位置中,使其成为一个新的有序序列,直到所有待排序记录全部插入完毕。分析:空间:仅需使用一个辅助单元。故原创 2017-05-19 19:20:20 · 1414 阅读 · 0 评论