
机器学习相关
suv1234
这个作者很懒,什么都没留下…
展开
-
信息熵、gini、信息增益
样本集合的不确定性描述:信息熵、gini信息熵在x=1处一阶泰勒展开就是基尼指数熵 ginif(x)=lnx=ln[1+(x-1)]=(x-1)-1/2(x-1)^2+1/3(x-1)^3-1/5(x-1)^5忽略掉高次项,可以得到f(x)≈x-1。这样 -pklogpk≈pk(1-pk)了,就更可以看到基尼指数与熵很近似了。原创 2017-05-19 22:30:52 · 2280 阅读 · 0 评论 -
介绍svm
“支持向量机”(1) “机” —— Classification Machine,本质上,这就是一个分类器,并且是二类分类器。。(2) “支持向量” —— 在maximum margin上的这些点就叫支持向量,为啥这些点就叫支持向量,因为最后的classification machine的表达式里只含用这些“支持向量”的信息,而与其他数据点无关:<img src=原创 2017-05-24 01:29:45 · 436 阅读 · 0 评论 -
svm
1) 不等式约束一直是优化问题中的难题,求解对偶问题可以将支持向量机原问题约束中的不等式约束转化为等式约束;2) 支持向量机中用到了高维映射,但是映射函数的具体形式几乎完全不可确定,而求解对偶问题之后,可以使用核函数来解决这个问题。原创 2017-05-24 01:37:16 · 366 阅读 · 0 评论 -
核函数
核函数svm的学习是需要计算相似度的,而又以余弦相似度最常用,就是大家说的内积,svm中低维下线性不可分的情况可以通过把它映射到高维上实现线性可分。核函数就是距离函数,可以计算两个向量的相似度,也可以看作高维度向量的内积。原创 2017-05-24 10:31:25 · 468 阅读 · 0 评论 -
pca
参考http://www.cnblogs.com/pinard/p/6239403.html转载 2017-05-25 01:07:00 · 689 阅读 · 0 评论 -
特征选择
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自转载 2017-05-25 01:35:01 · 1512 阅读 · 0 评论 -
auc
import numpy as np 8 from sklearn import metrics 9 y = np.array( [1, 0, 0, 1, 1, 1, 0, 1, 1, 1]) 10 pred = np.array([0.9, 0.9,0.8, 0.8, 0.7,0.7,0.7,0.6,0.5,0.4]) 11 fpr, tpr, thre原创 2017-05-25 10:23:04 · 283 阅读 · 0 评论 -
LR对数损失
逻辑回归模型是:在模型的数学形式确定后,剩下的就是如何去求解模型中的参数θ。而在已知模型和一定样本的情况下,估计模型的参数,在统计学中常用的是极大似然估计方法。即找到一组参数θ,使得在这组参数下,样本数据的似然度(概率)最大。似然函数可以写成: 对数似然函数则为:我们经常使用损失函数来衡量模型预测的好坏。其中对数损失在单个数据点上的定义为: 这个对数损失函数与上原创 2017-05-25 20:03:42 · 562 阅读 · 0 评论 -
推荐系统
推荐系统的基本任务是联系用户与物品,核心是面对信息过载问题(1)推荐系统能够在用户没有明确目的的时候帮助他们发现感兴趣的新内容 (2)推荐系统可以更好地发掘物品的长尾推荐算法的本质是通过一定的方式将用户与物品联系起来,大致有三种方式: (1)社会化推荐 (2)基于内容的推荐 (3)基于协同过滤的推荐评测指标1用户满意度2预测准确度(3)评原创 2017-05-27 10:44:38 · 435 阅读 · 0 评论 -
epoch、 iteration和batchsize
(1)batchsize:批大小。在深度学习中,一般采用SGD训练,即每次训练在训练集中取batchsize个样本训练;(2)iteration:1个iteration等于使用batchsize个样本训练一次;(3)epoch:1个epoch等于使用训练集中的全部样本训练一次;举个例子,训练集有1000个样本,batchsize=10,那么:训练完整个样本集需要:100次iteration,1次e原创 2017-05-31 20:47:47 · 214 阅读 · 0 评论 -
文本主题模型之潜在语义索引(LSI)
在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。1. 文本主题模型的问题特点 在数据分析中,我们经常会进行非监督学习的聚类算法,它可以对我们的特征数据进行非监督的聚类。而主题模型也是非监督的算法,目的是得到文本按照主题的概率分布。从这个方面来说,主题模型和普转载 2017-06-03 12:03:29 · 2256 阅读 · 0 评论 -
L1,L2
L1范数是指向量中各个元素的绝对值之和。选择特征、特征解释性好L2范数是指向量各元素的平方和然后开方。最小化loss的同时,让w也最小化,L1可能会有部分w为0,L2会让部分w很小但不是为0L1 regularization(lasso)在原始的代价函数后面加上一个L1正则化项,即所有权重w的绝对值的和,乘以λ/n原创 2017-05-24 00:46:13 · 335 阅读 · 0 评论 -
正则化项
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。正则化的目的:避免出现过拟合(over-fitting)regularize规则化:向你的模型加入某些规则,加入先验,缩小解空间,减小求出错误解的可能性。你要把你的知识数学化告诉这个模型,对代价函数来说,就是加原创 2017-05-23 23:54:57 · 914 阅读 · 0 评论 -
LR与SVM的异同
LR与SVM的相同点:*LR和SVM都是分类算法*如果不考虑核函数,LR和SVM都是线性分类算法,模型求解的就是一个超平面。*LR和SVM都是监督学习算法*LR和SVM都是判别模型 –判别模型会生成一个表示p(y|x)的判别函数或直接学习决策函数f(x), –生成模型先计算联合p(y,x)然后通过贝叶斯公式转化为条件概率。 –常见的判别模式:KNN、SVM、LR,常见的生成模型原创 2017-05-23 22:19:51 · 765 阅读 · 0 评论 -
标称型、数值型
标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)原创 2017-05-19 22:34:17 · 5065 阅读 · 0 评论 -
决策树
决策树:判别模型学习策略:正则化的极大似然估计学习的损失函数:对数似然损失学习算法:特征选择,生成,剪枝决策树的损失函数定义:其中|T|为树T的叶节点个数,t是数T的叶节点,该叶节点上有Nt个样本,其中k类的样本有Ntk个。Ht(T)就是叶节点t上的经验熵:剪枝的总体思路如下:1.由完全树T0开始,剪枝部分结点得到T1,再次剪枝部分结原创 2017-05-19 23:50:57 · 267 阅读 · 0 评论 -
CART回归树的构建
回归树的运行流程与分类树基本类似,但有以下两点不同之处: 1.回归树的每个节点得到的是一个预测值而非分类树式的样本计数. 2.第二,在分枝节点的选取上,回归树使用了最小化均方差from numpy import *def loadDataSet(fileName): #general function to parse tab原创 2017-05-20 20:13:51 · 1067 阅读 · 1 评论 -
GBDT算法的优缺点
优点:预测精度高适合低维数据能处理非线性数据缺点:并行麻烦(因为上下两棵树有联系)如果数据维度较高时会加大算法的计算复杂度原创 2017-05-20 21:24:14 · 21022 阅读 · 2 评论 -
GBDT
GBDT(Gradient Boosting Decision Tree)是一种基于迭代所构造的决策树算法,GBDT由很多回归树构成,每一棵新回归树f(x)都是建立在之前迭代的强分类器的损失函数梯度降低的方向。GBDT主要由三个概念组成:Regression Decistion Tree、Gradient Boosting与Shrinkage. 1.GBDT之Regression原创 2017-05-20 21:44:52 · 2471 阅读 · 0 评论 -
GBDT调参
1.根据要解决的问题选择损失函数2.n_estimators尽可能大(如3000)3.通过grid search方法对max_depth, learning_rate, min_samples_leaf, 及max_features进行寻优4.增加n_estimators,保持其它参数不变,再次对learning_rate调优转载 2017-05-21 19:19:11 · 1851 阅读 · 0 评论 -
logistic Regression & Regularization
Logistic回归的主要用途:寻找危险因素:寻找某一疾病的危险因素等;预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;自变量既可以是连续的,也可以是分类的。常规步骤寻找h函数(即hypothesis):需要找的分类函数,它用来预测输入数据的判断结果;构造Cost函数(损失函数):该函数表示预测的输出(h)与训练数据类别(y原创 2017-05-22 16:35:22 · 430 阅读 · 0 评论 -
LR连续特征离散化
1主要目的是获得指数级的表示能力。假如一个n维的连续向量,即使采用最简单的每一维二值化,也会得到2^n种特征组合。这种表示方法对LR这种线性分类器是十分关键的。在超高维的特征空间中,很多问题就都变为线性可分问题,从而可以极大提高分类器的能力。总之就是增强了特征的表达能力,或者说更容易线性可分。2离散特征的增加和减少都很容易,模型也不需要调整,相比贝叶斯推断方法或者树模型方法易于模型的快速迭代;原创 2017-05-22 19:24:30 · 3362 阅读 · 1 评论 -
特征组合可以提高LR分类效果
LR模型本质是对数线性模型,使用的特征比较好解释,预测输出在0与1之间契合概率模型。但是,线性模型对于非线性关系缺乏准确刻画,特征组合正好可以加入非线性表达,增强模型的表达能力。基本特征可以认为是用于全局建模,组合特征更加精细,是个性化建模,所以基本特征+组合特征兼顾了全局和个性化。比如特征向量中,有用户A,B,C,物品E,F,G。基本的特征A,B.C.E.F.G对应的权重,对应的是每个对象的偏置原创 2017-05-22 19:33:47 · 3486 阅读 · 0 评论 -
机器学习中为什么需要对数据进行归一化?
1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度。1 归一化为什么能提高梯度下降法求解最优解的速度? 如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是[1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很转载 2017-05-22 19:51:41 · 491 阅读 · 0 评论 -
推荐技术资料
相关推荐技术博客微博推荐 : http://www.wbrecom.com/美团技术博客 : http://tech.meituan.com/世纪佳缘技术博客: https://breezedeus.github.io/ spark 相关资料:基础知识: http://databricks.gitbooks.io/databricks-spark-knowledge-ba转载 2017-07-06 17:55:09 · 322 阅读 · 0 评论