
机器学习
Code_lr
这个作者很懒,什么都没留下…
展开
-
N -Gram模型
我把N-Gram关键的几句话贴出来(对别人帖子的一些修改): 该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。 在介绍N-gram模型之前,让我们先来做个香农游戏(Shannon Game)。我转载 2016-05-16 16:20:35 · 628 阅读 · 0 评论 -
机器学习中为什么需要对数据进行归一化?
机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践)、推荐、反作弊、定位(参见:基于朴素贝叶斯的定位算法)等。一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?很多同学并未搞清楚,维基百科给出的解释:1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度。下面我简单扩展解释下这两点。1 归一化为什么能提高转载 2016-05-17 19:24:49 · 20543 阅读 · 0 评论 -
人工神经网络中的activation function的作用具体是什么?为什么ReLu要好过于tanh和sigmoid function?
转自:https://www.zhihu.com/question/29021768附:双曲函数类似于常见的(也叫圆函数的)三角函数。基本双曲函数是双曲正弦"sinh",双曲余弦"cosh",从它们导出双曲正切"tanh"sigmod函数:Relu函数:综合:@作者:约翰曰不约 为什么通常Relu比sigmoid和ta转载 2016-07-06 15:14:40 · 14630 阅读 · 2 评论 -
最小二乘法在机器学习中的应用
参考http://www.cnblogs.com/armysheng/p/3422923.htmlhttp://blog.youkuaiyun.com/qll125596718/article/details/8248249一.背景 先看下百度百科的介绍:最小二乘法(又称最小平方法)是一种数学优化技术。它通过【最小化误差的平方和】寻找数据的最佳函数匹配。利用转载 2016-05-12 11:47:41 · 7114 阅读 · 4 评论 -
Bagging,AdaBoosting和Gradient boosting
Bagging:bootstrap aggregating的缩写。让该学习算法训练多轮,每轮的训练集由从初始的训练集中随机取出的n个训练倒组成,初始训练例在某轮训练集中可以出现多次或根本不出现训练之后可得到一个预测函数序列h.,⋯⋯h最终的预测函数H对分类问题采用投票方式,对回归问题采用简单平均方法对新示例进行判别。(训练R个分类器fi,分类器之间其他相同就是参数不同。其中fi是通过从训练转载 2016-05-18 19:12:09 · 4038 阅读 · 0 评论 -
机器学习中常用的数学概念
独立同分布independent and identically distributed (i.i.d.):在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。如果随机变量X1和X2独立,是指X1的取值不影响X2的取值,X2的取值也不影响X1的取值且随机变量X1和X2服从同一分布,这意味着X1和X2具有相原创 2017-08-21 10:21:56 · 669 阅读 · 0 评论 -
整理&收藏的一些机器学习比较好的博客
决策树:http://www.cnblogs.com/yutingliuyl/p/7105046.htmlhttp://blog.youkuaiyun.com/baimafujinji/article/details/53269040原创 2017-11-12 17:07:39 · 473 阅读 · 0 评论 -
Lasso regression 和 Ridge Regression
当红色椭圆是最小二乘误差函数的等高线时,实心的蓝色区域是约束区域|β1| + |β2| ≤ t以及β1^2 + β2^2 ≤ t2。红色的椭圆和蓝色的区域的切点就是目标函数的最优解,我们可以看到,如果是圆,则很容易切到圆周的任意一点,但是很难切到坐标轴上,因此没有稀疏;但是如果是菱形或者多边形,则很容易切到坐标轴上,因此很容易产生稀疏的结果。这也说明了为什么1范式会是稀疏的。翻译 2016-06-17 10:12:39 · 1340 阅读 · 0 评论