
机器学习和数据挖掘
文章平均质量分 54
SCAU_Jimmy
机器学习爱好者
展开
-
梯度下降
回归(regression)、梯度下降(gradient descent)发表于332 天前 ⁄ 技术, 科研 ⁄ 评论数 3 ⁄ 被围观 1152 次+本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。前言:上次写过一篇关于贝叶斯概率论的数学转载 2015-09-21 19:35:31 · 462 阅读 · 0 评论 -
各种最优化方法比较
梯度下降法:用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近 目标值,步长越小,前进越慢。 批量梯度下降法:最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小,但是对于大规模样本问题效率低下。 随机梯度下降法:最小化每条样本的损原创 2017-02-21 20:25:38 · 4498 阅读 · 0 评论 -
浅谈Word2vec
前段时间做过一个NLP方面的比赛,以及最近的实习,都用到了Word2vec,下面就简单谈一下这个工具吧,更深的数学原理可以参考Mikolov的原始论文。Word2vec是Google于2013年开源的一个词向量工具,将原始文本转化成词向量的表达形式。其基本思想是:通过训练将每个词映射成K维的实数特征向量,这样一来,词与词之间的相似度就可以用余弦距离或者欧式距离来衡量了,相比传统的one-hot原创 2017-01-13 22:49:12 · 2228 阅读 · 0 评论 -
TF-IDF
TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency);字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降;TF-IDF原理:1.词频:在一份给定的文件里,某一个给定的词语在该文件中出现的次数原创 2017-01-07 15:36:59 · 659 阅读 · 0 评论 -
特征离散化解决非线性特征问题
在实际工作中,需要使用到譬如LR这种线性分类器的时候,往往需要将特征离散化成0/1特征,之后再进行模型训练。下面举例说明原因:我们假设决策面为y=x^2,且模型是只具有一维特征x的线性模型,即模型的表达形式为:y=kx+b,如下图所示:显然,模型不能很好地拟合决策面,那么,假如将x离散化成多个0/1特征(one-hot编码):0s1s2...则新的模原创 2016-10-21 08:37:35 · 5150 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的一种生成模型,主要思想是通过数据学习其联合概率分布P(X,Y|θ),具体做法是采用极大似然估计法去估计θ。优点:在小规模数据上的表现很好,适合多分类任务和增量式学习。缺点:对输入数据的表达形式很敏感。下面先看看贝叶斯定理:那么当特征服从条件独立的假设时,有:下面看看如何原创 2016-10-18 08:29:10 · 321 阅读 · 0 评论 -
【Machine Learning公开课】Chapter 2
这一讲Ng给我们讲了什么是有监督学习,以及一种常用的求最值方法:梯度下降法。首先我们回顾下一个简单的机器学习过程:首先给出一个输入数据,我们的算法会通过一系列的过程得到一个估计的函数,这个函数有能力对没有见过的新数据给出一个新的估计,也被称为构建一个模型。我们用 X1,X2..Xn 去描述 feature 里面的分量,比如 x1=房间的面积,x2=房间的朝向, 等等,我们可以做出一个估计函数:h(原创 2015-12-27 15:56:32 · 394 阅读 · 0 评论 -
我在面试机器学习、大数据岗位时遇到的各种问题
原文 http://dataunion.org/20682.html主题 数据挖掘 大数据作者: @太极儒 出处: @太极儒的博客自己的专业方向是机器学习、数据挖掘,就业意向是互联网行业与本专业相关的工作岗位。各个企业对这类岗位的命名可能有所不同,比如数据挖掘/自然语言处理/机器学习算法工程师,或简称算法工程师,还有的称为搜索/推荐算法工程师,甚至有的并入后台工程转载 2015-12-28 09:43:50 · 1248 阅读 · 0 评论 -
【Machine Learning公开课】Chapter 3
这一讲Ng主要讲的内容有:局部加权回归,Logistic回归,感知器。对于一个监督学习模型来说,特征集合太小,会使模型过于简单,称为欠拟合,反之特征集太大,会使模型过于复杂,称为过拟合。解决此类学习问题的方法:1) 特征选择算法:一类自动化算法,在这类回归问题中选择用到的特征。2) 非参数学习算法:缓解对于选取特征的需求。PS:参数学习算法(parametric learni原创 2015-12-27 21:55:35 · 500 阅读 · 0 评论 -
个人整理的机器学习/数据挖掘相关算法
1. 梯度下降法、牛顿法2. 最大似然估计法3. 最小二乘法4. 线性回归(基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化)5. K最近邻分类算法(KNN)6. 决策树(ID3、C4.5算法、迭代决策树(GBRT)、随机森林)7. 朴素贝叶斯(Naive Bayesian Model)8. Logis原创 2015-11-18 13:43:29 · 695 阅读 · 0 评论 -
教你如何迅速秒杀掉:99%的海量数据处理面试题
教你如何迅速秒杀掉:99%的海量数据处理面试题作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的转载 2015-10-14 21:32:44 · 391 阅读 · 0 评论 -
GBDT构建组合特征
最初是由Facebook在2014年提出,并被广泛运用于点击率预估项目上,被证明有效。动机在于GBDT无法直接处理海量的离散特征,复杂度太高,所以主要思路就是就是先用已有特征训练GBDT模型,然后利用GBDT模型学习到的树来构造新特征,最后把这些新特征加入原有特征一起训练模型,事实上就是一种stacking的模型融合方式。构造的新特征向量是取值0/1的,向量的每个元素对应于GBDT模型中树的叶原创 2017-05-18 14:14:36 · 6429 阅读 · 0 评论