
机器学习
文章平均质量分 92
西电校草
一个即将很牛的人
展开
-
机器学习总结(三):SVM支持向量机(面试必考)
基本思想:试图寻找一个超平面来对样本分割,把样本中的正例和反例用超平面分开,并尽可能的使正例和反例之间的间隔最大。算法推导过程:(1)代价函数:假设正类样本y =wTx+ b>=+1,负类样本y =wTx+ b1右边,负类样本位于H2左边,所以原始的代价函数就为:函数间隔(functional margin):几何间隔(geometric margi原创 2017-03-29 10:19:21 · 16469 阅读 · 2 评论 -
机器学习总结(八):常用机器学习算法优缺点对比、适用条件
这个面试的时候也经常会问,让你比较某几个算法的适用条件,数据、特征量到什么规模时选用哪种算法。(1)决策树适用条件:数据不同类边界是非线性的,并且通过不断将特征空间切分为矩阵来模拟。特征之间有一定的相关性。特征取值的数目应该差不多,因为信息增益偏向于更多数值的特征。优点:1.直观的决策规则;2.可以处理非线性特征;3.考虑了变量之间的相互作用。缺点:1.容易过拟合(随机森林);原创 2017-03-31 10:05:50 · 4610 阅读 · 1 评论 -
机器学习总结(九):梯度消失(vanishing gradient)与梯度爆炸(exploding gradient)问题
(1)梯度不稳定问题:什么是梯度不稳定问题:深度神经网络中的梯度不稳定性,前面层中的梯度或会消失,或会爆炸。原因:前面层上的梯度是来自于后面层上梯度的乘乘积。当存在过多的层次时,就出现了内在本质上的不稳定场景,如梯度消失和梯度爆炸。(2)梯度消失(vanishing gradient problem):原因:例如三个隐层、单神经元网络:则可以得到:原创 2017-04-01 10:07:05 · 67873 阅读 · 19 评论 -
机器学习总结(十):常用聚类算法(Kmeans、密度聚类、层次聚类)及常见问题
任务:将数据集中的样本划分成若干个通常不相交的子集。性能度量:类内相似度高,类间相似度低。两大类:1.有参考标签,外部指标;2.无参照,内部指标。距离计算:非负性,同一性(与自身距离为0),对称性,直递性(三角不等式)。包括欧式距离,曼哈顿距离等等。(1) K均值聚类步骤:1.随机选择k个样本作为初始均值向量;2.计算样本到各均值向量的距离,把它划到距离最小的簇;3.计算新的均值原创 2017-05-06 10:48:02 · 7867 阅读 · 0 评论 -
机器学习总结(十一):深度学习算法(CNN,SAE,等)及常见问题总结
(1)CNN层级结构:输入层->卷积层->激励层->卷积层->激励层。。。数据输入层(数据预处理):三种方法:去均值(即0均值化,CNN常用,训练集所有像素值减去均值,把输入数据各个维度中心化到0,测试集也减相同的均值);归一化(幅度归一化到同样的范围);PCA/白化(降维,白化是对数据每个特征轴上的幅度归一化)。去均值的目的:(1)数据有过大的均值可能导致参数的梯度过大,在梯度回原创 2017-05-06 10:54:48 · 15641 阅读 · 2 评论 -
数据挖掘一般流程(数据清洗,特征提取,建模,调参)
最近一直在实习,好长时间没更新博客了。哎,懒惰之心不可有啊!!实习的岗位是数据挖掘相关的,所以正好把到目前为止实习期间遇到的一些问题、学到的一些东西总结一下,并参考了一些博客,自我提升。嘿嘿嘿~数据挖掘的一般流程:1.问题定义:属于分类问题还是回归问题2.数据获取:根据数据挖掘任务的具体要求,从相关数据源中抽取相关数据集。(以前在实验室的时候用到的都是现成的数据,直接拿过来用就行了原创 2017-08-07 11:57:48 · 26190 阅读 · 1 评论 -
Python实现:利用GBDT产生新特征(GBDT+Linear Regression)
Python实现:利用GBDT产生新特征(GBDT+Linear Regression)最近实习接了个任务,利用GBDT产生新特征,加入到已有特征中,再训练线性模型,预测价格。算法思想:训练集上,用已有特征训练GBDT模型,然后利用GBDT模型学习到的树来构造新特征,最后把这些新特征加入原有特征一起训练模型。构造的新特征向量是取值0/1的,向量的每个元素对应于GBDT模原创 2017-08-15 14:11:50 · 9255 阅读 · 3 评论