machine learning
文章平均质量分 74
Bayes_y
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
做完Kaggle入门赛的一点总结
Import pakagesimport datadata preparationdata analysis and feature engineeringModelingsubmission最近想要把学的机器学习算法用起来,所以开始看看kaggle上的比赛。看了两个新人入门赛泰坦尼克号生还预测和房屋价格预测。总结一下看代码的一些经验吧。 总体感觉是,在建立特征工...原创 2018-06-16 17:26:49 · 1582 阅读 · 0 评论 -
PageRank原理
真尴尬····参加Wind的宣讲会,笔试第一个简答就是描述PageRank,我一脸懵逼·····我只知道这是谷歌用来对网页进行排序的算法,好像有个什么权重系数,什么什么来着???回来赶紧补上。这么重要经典的算法我都不知道,真是枉为立志搞算法的人了【哭唧唧】进入正题 PageRank的原理是,通过计算链接到一个网页的数量及质量来对该网页的重要程度有一个估计。它所依赖的假设是越重要...原创 2018-09-14 20:54:32 · 1460 阅读 · 0 评论 -
降维方法
kNN首先,k近邻是一种监督学习方法;它的基本思路是这样的: 给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。如果是分类问题就用投票发,回归问题就用平均法。它的特点是,没有显式的训练过程,lazy learning的代表影响k近邻效果的两个因素; k值的选取,灰常重要,不同的k可能会导致不同的预测结果距离度量方式的选择(前面...原创 2018-09-14 14:37:34 · 299 阅读 · 0 评论 -
聚类算法(二)
密度聚类密度聚类假设聚类结构能通过样本分布的紧密程度确定,通常情况下密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类 簇以获得最终的聚类结果DBSCAN基于一组邻域参数来刻画样本分布的紧密程度。事先不用预设聚类簇数 https://blog.youkuaiyun.com/xiaokang123456kao/article/details/74978572...原创 2018-09-14 11:48:38 · 315 阅读 · 0 评论 -
聚类算法(一)---基于原型的聚类
高斯混合模型采用概率模型来表达聚类原型,簇划分则由原型对应的后验概率确定。求解利用EM算法 原理看这里EM算法和梯度下降:为什么高斯混合模型不可以用梯度下降来求解? 以及一些优化问题的求解方法 参考这里...原创 2018-09-13 22:56:58 · 2728 阅读 · 1 评论 -
树模型比较(二)
主要是看看随机森林,GBDT,XGBoost这些基于树的集成方法之间的异同。随机森林(RF)Bagging思想利用Boostrap采样,从样本中选取不同的集合构造决策树,整个过程可以并行;Boostrap采样方式带来了一个优势,能留下32%的数据从未被用过,可以用来进行包外估计两种扰动方式,样本扰动和属性扰动,增加了模型的多样性以及最终的泛化能力最终结果的得出:分类问题用投票...原创 2018-09-13 15:30:21 · 442 阅读 · 0 评论 -
XGBoost那些事儿
仔细把陈天奇大神的论文又读了一遍,对xgBoost的原理又有了一些深入的了解吧。XGBoost模型本身是Boosting方法,所以它的整体过程和传统的Boosting还是比较接近的,即串行化的建树过程。个人认为,XGBoost比较新奇点在于,在建树的过程中,结点分裂的时候使用的标准并不是传统的基于信息增益啊、信息增益比这类东西,而是根据损失函数自己定义了一个指标,并且在损失函数中也加入...原创 2018-09-12 23:54:07 · 639 阅读 · 0 评论 -
对LightGBM的一点理解
LightGBM是微软团队2017年发表在NIPS的一篇论文,也是一种基于GBDT的Boosting的方法。之前有了各种Boosting方法,以及在各类数据比赛中大放异彩的XGBoost,LightGBM的优势在哪里呢?LightGBM是一种基于GBDT的提升方法。对于这类基于树的模型,最耗时的部分就是在进行特征选择结点分裂时,需要遍历所有可能的划分点,计算信息增益,从而找到最优的划分...原创 2018-09-06 15:13:07 · 10073 阅读 · 1 评论 -
梯度消失,梯度爆炸及表现
梯度消失出现的原因经常是因为网络层次过深,以及激活函数选择不当,比如sigmoid函数。梯度爆炸出现的原因也是网络层次过深,或者权值初始化值太大。综合来看,这两种梯度问题产生的原因可以归结为网络深度,以及反向传播带来的遗留问题。反向传播基于的是链式求导法则。如果导数小于1,那么随着层数的增多,梯度的更新量会以指数形式衰减,结果就是越靠近输出层的网络层参数更新比较正常,而靠近输入层的网络层参...原创 2018-09-15 18:11:46 · 5419 阅读 · 1 评论 -
贝叶斯分类
前言 在做携程的笔试的时候,考到了利用朴素贝叶斯方法进行情感分析的问题,其实就是一道利用NB进行文本分类的题。所以在这里总结一下贝叶斯的基本知识,以做回顾。从贝叶斯判定准则讲起(这里省略一些公式) 贝叶斯判定准则的大意是说,对于一个多分类问题,我们的目的是要找到一个判定准则hhh,使得总体风险最小化(这里的风险是指一个属于i的样本被误分到j类中)。而为使总体风险最小化,...原创 2018-09-05 19:37:59 · 756 阅读 · 0 评论 -
树模型的一些理解(从决策树到GBDT)
1.决策树基本流程:整体是一个递归的过程,返回条件有三种: 当前结点中所有样本的类别都为c,返回值为c; 当前结点中样本集合为空,此时返回父结点中类别数最多的类。把父节点的样本分布作为先验 当前结点中样本的属性集合为空,或者所有样本属性取值相同,将当前结点标记为叶节点,返回样本最多的类别。利用样本的后验分布 对当前结点,从属性集合A中选择最优划分属性a 对每一个属性a的取值,...原创 2018-09-08 21:29:12 · 1366 阅读 · 0 评论 -
L1,L2正则
总体概述:L1L1L_1正则:L1=α∥ω∥1L1=α‖ω‖1L_1 = \alpha\lVert\omega\rVert_1,其中αα\alpha为惩罚系数,ωω\omega为线性模型的参数。表示权值的绝对值之和最小。使他变最小的趋势就是希望模型参数中为0的项多一些,即稀疏。提到L1,自然而然会想到为什么没有L0.其实是有的。L0表示的含义是参数中非零项的个数。他的趋势也是希望模...原创 2018-07-20 15:07:56 · 669 阅读 · 0 评论 -
SVM从入门到精通(一)
我是标题党【doge】······ 最近在看SVM算法的原理,之前只知道用,但是对理论推导并不是很明白,这次算是复习一下,加深理解。从感知机说起要深入理解SVM,首先要从感知机说起。 什么是感知机呢? 感知机(perceptron)是二类分类的线性分类模型。 假设输入空间为χ⊆Rnχ⊆Rn\chi\subseteq R^n,输出空间是y=−1,+1y=−1,+1y = {...原创 2018-07-06 23:30:37 · 612 阅读 · 0 评论 -
信用卡欺诈模型的一些总结
有些言简意赅······· 1. 样本不均衡过采样 让少的生成,让两者同样多下采样i. 让多的和少的一样多,相当于让多的放弃一些数据,让二者一样少2. 各种评估指标:recall = TP/(TP+FN)精度(precision) = (TP+TN)/(FP+FN)局限性:举个极端情况的例子,如果数据中大部分都是正样本,只有很少的负样本(样本不均衡),那么我...原创 2018-07-12 00:10:42 · 2218 阅读 · 0 评论 -
SVM从入门到精通(三)
前面,对于线性可分的数据,我们采用硬间隔最大化的策略,来训练线性可分支持向量机。回忆一下,之前的最优化问题的表示为:minω,b12∥ω∥2minω,b12‖ω‖2\min\limits_{\omega,b} \frac{1}{2}\lVert\omega\rVert^2s.t.yi(ω⋅xi+b)−1≥0,i=1,2,⋯,Ns.t.yi(ω⋅xi+b)−1≥0,i=1,2,⋯,Ns.t. y_i...原创 2018-07-16 15:56:15 · 266 阅读 · 0 评论 -
SVM从入门到精通(二)
讲完了感知机,接下来开始进入我们的正题了。SVM也是一个二类分类模型,它的定义是在特征空间的间隔最大的线性分类器。对于感知机,它的学习策略是误分类点到分离超平面的间距和最小;而SVM的学习策略是对于距离分离超平面的点,使他们到分离超平面的间隔最大化。也因此,区别于感知机,使得SVM的解是唯一的。按照模型由简至繁,SVM可以分为:线性可分支持向量机,线性支持向量机和非线性支持向量机。当训练数...原创 2018-07-08 23:36:40 · 560 阅读 · 0 评论 -
写于京东赛(JData)----如期而至,用户购买日期预测----之后
京东赛告一段落。作为一个菜菜鸟,虽然无缘前十,但是也算是有一点小感悟和一些对数据挖掘的认知。毕竟这是第一次接触比较接近实际工程中的数据,而且是时间序列相关的数据。一. 数据集的划分在做京东赛的时候,第一眼看到数据集就是懵的,感觉和房屋预测的咋一点都不一样·········训练集也没有,测试集也没有,而且还有好多个表,咋往一块拼呢·········后来看了wepon在天池优惠券核销预测的...原创 2018-07-01 22:33:38 · 3023 阅读 · 0 评论 -
Reading《Practical lessons from predicting clicks on Ads at Facebook》(1)
因为在做京东的算法大赛,小白选手,看了一些别人的入门级程序,胡乱改了一通,也没有什么大的进展,而且感觉比赛的问题和点击率预估还是有点像的,所以搜了个论文来读,看看牛人们的思路。于是找到了这篇论文。 这篇文章主要是提出了一个GBM+LR这样的结构,并且效果得到了很大的提升。具体结构如下图所示。 在解决点击率预估问题的时候,最重要的是在特征工程的构建上,也就是特征选择的过程(深以为然),再加上...原创 2018-06-24 22:29:59 · 999 阅读 · 0 评论 -
TF-IDF
接上一篇,同样在wind中考了,因为没怎么接触过自然语言处理,所以对这一类算法并不熟悉,只知道有这么个词儿···尴尬···参考:https://blog.youkuaiyun.com/lionel_fengj/article/details/53699903 算法应用:是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增...转载 2018-09-14 22:12:10 · 166 阅读 · 0 评论
分享