
kaggle
取个程序猿的名字
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
统计学习方法——EM算法
EM算法三硬币模型我们定义y是观测到的硬币值,也就是B(A为正)或者C(A为负)的正面或者反面,值为0或者1z是不能观测的硬币值,也就是A为正或者A为负所以由这里我难以理解θ,感觉哪里又加哪里又不加。于是自己推导P(Y)=∑P(Y/Z)P(Z)全概率公式当Z=0时当Z=1时EM算法的参数估计对上述式子求解,仅能用迭代的方法求解。推导省略,接下来看怎么解。首先10次硬币...原创 2019-11-24 18:04:14 · 212 阅读 · 0 评论 -
美团机器学习——特征工程
和几位同学交流了一下,也结合我这半个月学习机器学习原理的体会,我感觉我确实学不了机器学习,真的是太TM难!!!!痛定思痛,我决定舍弃机器学习了,转做开发去了。所以这应该是kaggle系列最后一篇博文了!特征工程更多的数据胜于聪明的算法,而好的数据胜于多的数据在机器学习应用中,我们大多数时间都在进行特征工程和数据清洗,而算法和模型的优化仅仅占了一小部分数值特征1:截断。对于连续型数值特征,...原创 2019-11-21 20:16:15 · 554 阅读 · 0 评论 -
美团机器学习——问题建模(评估指标,数据预处理,验证方法)
问题建模特征工程模型选择模型融合问题建模:评估指标 样本选择 交叉验证评估指标:精准率和召回率:可以看到,如果定义蓝色部分为B,红色部分为R,交叉部分为N精准率=N/B即交叉部分在蓝色部分的占比召回率=N/R即交叉部分在红色部分的占比通常精准率和召回率都越大越好即两个部分重叠部分越大越好,最好是完全重叠但是实际情况是精准率和召回率呈现反比当B=1时,精准率为百分之百,召回...原创 2019-11-21 16:38:32 · 669 阅读 · 0 评论 -
统计学习方法——第八章:提升方法
提升方法强可学习和弱可学习:因为在现实生活中,弱分类器是很好找的。所以考虑将多个弱分类器进行提升得到一个强分类器提升方法即将弱可学习法提升为强可学习法有两个问题需要回答:1:如何改变训练数据的权值或概率方法:提高分类错的权值而减少分类正确的权值2:如何将弱分类器合成一个强分类器方法:加大分类误差率小的模型而减少分类误差率大的模型AdaBoostAdaboost算法分为三大步...原创 2019-11-17 11:21:40 · 454 阅读 · 0 评论 -
统计学习方法——第七章:支持向量机(part1)
线性可分支持向量机首先前面的概念和感知器的相同就不说了函数间隔描述了分类的可信程度所以这一点的函数间隔为而超平面的关于数据集的函数间隔定义为所有点的函数间隔的最小值几何间隔所以优化上述函数间隔,得到同样定义超平面的关于数据集的几何间隔定义为所有点的几何间隔的最小值间隔最大化即我们要求得超平面是 关于数据集的几何间隔最大化的超平面...原创 2019-11-15 11:11:18 · 222 阅读 · 0 评论 -
第六章——逻辑斯蒂回归和最大熵模型
逻辑斯蒂分布(logistic distribution)根据函数表达式,中心对称与(u,1/2)二项逻辑斯蒂回归模型因为事件Y=1发生的几率是x的线性函数,所以x越大事件发生的几率越大。当x趋近于正无穷,事件发生的几率是1.负无穷,事件发生的几率是0参数估计利用极大似然法:K项逻辑斯蒂回归模型最大熵模型首先用一个例子介绍一个思想:最大熵的思想:当你要猜一个概率分...原创 2019-11-11 16:19:48 · 223 阅读 · 0 评论 -
统计学习方法——第五章:决策树
决策树顾名思义。决策树由结点和分支组成,结点分为叶子节点和分支节点,分支节点代表的是分类的标准。叶子节点代表的是分类类别特征选择选取对数据具有分类能力的特征基础知识:自信息X如果可以取三个值:x1,x2,x3,概率分别为p1,p2,p3。那么-log(p1),-log(p2),-log(p3)相应称为x1,x2,x3的自信息,代表了它们各自的不确定性信息熵随机变量的不确定性。只...原创 2019-11-10 17:52:30 · 934 阅读 · 0 评论 -
统计学习方法——第四章:朴素贝叶斯
朴素贝叶斯(1)该算法的理论核心是贝叶斯定理;(2)它是基于条件独立性假设这个强假设之下的,这也是该算法为什么称为“朴素”的原因。目的:学习联合概率分布P(Y/X)所以要先学习先验概率P(Y)和后验概率P(X/Y)我们要使用贝叶斯公式后验概率(X/Y):为什么是这么多个参数?这里的参数其实指的是P(Xi/Yi)=u的对应值u,因为我们没有其他办法获取,只能测量,即从样本中数出P(X...原创 2019-11-10 10:20:10 · 326 阅读 · 0 评论 -
统计学习方法——第三章:KNN
K近邻模型k-nearest neighbor K-NN解决多分类问题,对每个训练实例点xi,距离该点较近的k个点构成一个区域,叫做cell可以看到距离度量,K值选取,分类规则都会对模型产生较大的影响距离度量两个实例点的距离代表了相似程度,一般为欧式距离,但也可以是其他距离要注意,不同距离所得到的最近的k个点是不同的。举个例子K值近似误差:可以理解为对现有训练集的训练误差。...原创 2019-11-09 19:11:23 · 357 阅读 · 0 评论 -
统计学习方法——第二章:感知机
感知机属于二分类问题, 即输入向量n维向量x,输出y={-1,1}可以理解为wx+b即一个超平面,将空间分成两个子空间,如果能够将实例点正确划分为两个子空间,我们就说这个感知机是优秀的对于点x:在超平面上wx+b=0正面:wx+b>0 背面:wx+b<0数据集可分:存在某个超平面能够将正实例点和负实例点划分到超平面的两侧,则称数据集合可分否则不可分损失函数:我们利...原创 2019-11-09 16:46:57 · 232 阅读 · 0 评论 -
统计学习方法——数学储备知识
范数L1范数:为x向量各个元素绝对值之和;L2范数:为x向量各个元素平方和的开方。类比距离特征分解EVD注意不是任何矩阵都能写成这样,A必须可对角化奇异值分解SVD假设A是一个(m,n)矩阵,那么U是一个(m,m)矩阵,D是一个(m,n)矩阵,V是一个(n,n)矩阵。其中U和V都是正交矩阵UU^t=E,D是对角矩阵(注意,D不一定是方阵)。对角矩阵D对角线上的元素被称为矩阵A的...原创 2019-11-09 14:57:03 · 441 阅读 · 0 评论 -
统计学习方法——第一章:基础知识
感觉leetcode编程差不多要结束了。虽然只编了可能有150道medium,但是时候切换一下思维了,过几个月应该又会回来再编个几百道。现在开始打算看看机器学习的东西,做做kaggle的比赛,还是像leetcode一样,每天都要有所收获记录记录笔记统计学习方法三要素:模型 策略 算法模型监督学习的模型可以是概率模型或者非概率模型,条件概率P(Y/X)或者决策函数Y=f(X)这里的学习模型...原创 2019-11-09 10:26:22 · 207 阅读 · 0 评论