
Machine Learning
文章平均质量分 90
鸭脖
爱学习
展开
-
线性回归
线性回归部分(Linear Regression)主要分为三部分:一元线性回归(Linear Regression with one variable)、多元线性回归(Linear Regression with multiple variables)和逻辑回归(Logistic Regression).主要就前两个部分就重要的概念进行一个总结:首先,是成本函数,即cost function。原创 2015-05-04 11:21:34 · 784 阅读 · 0 评论 -
逻辑回归
什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;转载 2015-05-05 10:05:12 · 923 阅读 · 0 评论 -
Tesseract-OCR 字符识别---样本训练
转自:http://blog.youkuaiyun.com/feihu521a/article/details/8433077 Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract最初由HP公司开发,后来转载 2015-06-26 13:58:44 · 4042 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g转载 2015-08-23 14:09:12 · 802 阅读 · 0 评论 -
overfitting(过度拟合)的概念
最近几天在看模式识别方面的资料,多次遇到“overfitting”这个概念,最终觉得以下解释比较容易接受,就拿出来分享下。overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解转载 2015-08-23 16:20:18 · 2045 阅读 · 0 评论 -
非均衡数据集的分类问题
传统的机器学习分类研究大多基于如下假设:(1)分类以最大正确率为目标;(2)所有的分类错误会带来相同的错误代价;(3)数据集中的各类样本数目基本均衡,即各类所含的样本数大致相当。 显然,这三个假设在现实应用领域中很多时候是不成立的。很多类别并不均衡,数据集中某个类别的样本数可能会远多于其他类别;不同的分类错误往往会带来显著不同的损失。例如信用卡交易中的欺诈识别。非均衡数据集(Imbala转载 2015-09-11 17:13:09 · 7359 阅读 · 1 评论 -
淘宝吴雪军:自然语言处理技术在搜索和广告中的应用
摘要:编者按:本文为淘宝广告技术部广告算法负责人、淘宝网研究员吴雪军在8月3日CTO俱乐部沙龙演讲实录,全文如下: 我今天演讲的题目是自然语言处理技术在搜索和广告中的应用。搜索和广告编者按:本文为淘宝广告技术部广告算法负责人、淘宝网研究员吴雪军在8月3日CTO俱乐部沙龙演讲实录,全文如下:我今天演讲的题目是自然语言处理技术在搜索和广告中的应用。搜索和广告是技术非常密集两个互联网转载 2015-08-21 21:42:00 · 4580 阅读 · 0 评论 -
协方差矩阵概念及计算
理解协方差矩阵的关键就在于牢记它计算的是不同维度之间的协方差,而不是不同样本之间,拿到一个样本矩阵,我们最先要明确的就是一行是一个样本还是一个维度,心中明确这个整个计算过程就会顺流而下,这么一来就不会迷茫了浅谈协方差矩阵今天看论文的时候又看到了协方差矩阵这个破东西,以前看模式分类的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来,嘿嘿~本文转载 2016-07-31 16:36:11 · 1065 阅读 · 0 评论 -
均值、方差、协方差、协方差矩阵、特征值、特征向量
均值:描述的是样本集合的中间点。方差:描述的是样本集合的各个样本点到均值的距离之平均,一般是用来描述一维数据的。 协方差:是一种用来度量两个随机变量关系的统计量。只能处理二维问题。计算协方差需要计算均值。如下式: 方差与协方差的关系方差是用来度量单个变量 “ 自身变异”大小的总体参数,方差越大表明该变量的变异越转载 2016-07-31 16:54:16 · 16254 阅读 · 0 评论