linkin1005-优快云博客

原创斯坦福大学机器学习——特征选择（Feature selection）

特征选择是一种及其重要的数据预处理方法。假设你需要处理一个监督学习问题，样本的特征数非常大，但是可能仅仅有少部分特征会和对结果产生影响。甚至是简单的线性分类，如果样本特征数超过了n，但假设函数的VC维确仍然是O(n)，那么，除非大大扩展训练集的数量，否则即会带来过拟合的问题。在这样的情况下，可以使用特征选择算法降低特征的数量。

2015-01-22 14:06:02 23141

原创斯坦福大学机器学习——交叉验证（Cross Validation）

交叉验证是一种模型选择方法，其将样本的一部分用于训练，另一部分用于验证。因此不仅考虑了训练误差，同时也考虑了泛化误差。从这里可以看出机器学习、数据挖掘与传统统计学的一个重要差别：传统统计学更注重理论，追求理论的完整性和模型的精确性，在对样本建立某个特定模型后，用理论去对模型进行各种验证；而机器学习/数据挖掘则注重经验，如交叉验证，就是通过不同模型在同一样本上的误差表现好坏，来选择适合这一样本的模型，而不去纠结理论上是否严谨。

2015-01-19 09:27:07 64972

原创斯坦福大学机器学习——误差理论（Error Theory）

一、偏倚（bias）和方差(variance)在讨论线性回归时，我们用一次线性函数对训练样本进行拟合（如图1所示）；然而，我们可以通过二次多项式函数对训练样本进行拟合（如图2所示），函数对样本的拟合程序看上去更“好”；当我们利用五次多项式函数对样本进行拟合（如图3所示），函数通过了所有样本，成为了一次“完美”的拟合。图3建立的模型，在训练集中通过x可以很好的预测y，然而

2015-01-09 22:07:04 34349 2

原创斯坦福大学机器学习——主成份分析（Principal Components Analysis）

主成份分析就是求出原始数据矩阵的协方差矩阵对应的特征值和特征向量，对特征值进行由大而小的排序，再根据特征值对应的特征向量进行线性变换，得到新的向量（新的向量间相互正交）。通过设定阈值可以用低维的新向量近似表示高维的原向量（协方差矩阵为非奇异的）；若协方差矩阵为奇异的，且零特征值较多，这种情况使用低维的新向量也可以完全表示高维原向量。

2014-12-26 14:28:45 6181 1

原创斯坦福大学机器学习——因子分析（Factor analysis）

一、问题的提出在EM算法求解高斯混合模型一文中，我们的样本集，而样本的数量m远大于样本的维度n，因此，可以轻易的构造出高斯混合模型。现在，我们再看下不同的情况：假如，或，我们将很难构建一个普通高斯模型，更别提高斯混合模型。这m个的数据仅仅是的子空间，如果我们用这m个数据建立高斯模型，并对利用极大似然，对期望和方差进行参数估计。可得：我们将发现协方差为奇异矩阵，即

2014-12-15 16:11:59 14359 1

原创斯坦福大学机器学习——EM算法求解高斯混合模型

EM算法（Expection-Maximizationalgorithm，EM）是一种迭代算法，通过E步和M步两大迭代步骤，每次迭代都使极大似然函数增加。但是，由于初始值的不同，可能会使似然函数陷入局部最优。下面来谈谈EM算法以及其在求解高斯混合模型中的作用。

2014-11-17 16:57:14 35402 5

原创斯坦福大学机器学习——支持向量机（3）

八、核（kernel）如果样本点为线性不可分，那么，需要将数据映射到高维空间，使在原始空间内其线性可分变为线性可分。如下图所示：上文提到，分类器可以写成：}+b" alt="">那么，如果使用一种映射的方法，将低维数据映射到高维（），使得线性不可分变为线性可分。称为特征映射函数，这样，分类器就变为：}+b" alt="">(1)实例低维映射到高维能否

2014-11-10 12:06:02 3667

原创斯坦福大学机器学习——支持向量机（2）

五、拉格朗日对偶（Lagrange duality）（1）拉格朗日算子如果我们需要求解形如这样的优化问题：

2014-10-10 09:20:49 2545

原创斯坦福大学机器学习——支持向量机（1）

首次听说SVM是在实验室的科研进展报告上听杨宝华老师提到过，当时听得云里雾里，觉得非常的高大上。随后在辜丽川老师的人工智能作业上我也选择介绍SVM。但都是浅显的认识，没有继续深入。最近看了Andrew Ng的讲义和v_JULY_v大神的博文《支持向量机通俗导论（理解SVM的三层境界）》才算对基本概念有所了解。下面对SVM的基本概念进行总结。简介SVM是Support Vector Ma

2014-09-25 09:18:38 3088

原创斯坦福大学机器学习——K-means算法

k-means通过设置重心和移动中心两个简答的步骤，就实现了数据的聚类。下面就来介绍下k-means算法。一、数值属性距离度量度量数值属性相似度最简单的方法就是计算不同数值间的“距离”，如果两个数值之间“距离”比较大，就可以认为他们的差异比较大，而相似度较低；换而言之，如果两数值之间“

2014-09-16 09:11:06 4129

原创斯坦福大学机器学习——线性回归（Linear Regression）

一、概念线性回归是利用称为线性回归函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。线性回归函数则是一个或多个称为回归系数的模型参数的线性组合。二、用途当结论或者类是数值，并且所有训练样本都为数值时，可以使用线性回归的方法。线性回归主要用途是预测，线性回归可以利用训练集拟合出一个预测模型。当完成这样一个模型以后，对于一个新增的x值，在没有给定与它相配对的y的情况下，可以

2014-09-10 22:28:21 4833

原创斯坦福大学机器学习——logistic回归

Logistic回归是一种最常见的二分类算法，它利用已知样本对模型进行参数估计，属于监督算法。

2014-09-10 16:03:03 2745

原创斯坦福大学机器学习——高斯判别分析

同朴素贝叶斯一样，高斯判别分析（Gaussian discriminant analysismodel, GDA）也是一种生成学习算法，在该模型中，我们假设y给定的情况下，x服从混合正态分布。通过训练确定参数，新样本通过已建立的模型计算出隶属不同类的概率，选取概率最大为样本所属的类。

2014-09-04 16:01:56 21906

原创斯坦福大学机器学习——朴素贝叶斯

首次听说朴素贝叶斯是在吴军的google黑板报数学之美专题，统计语言模型一章中谈及。其后，吴信东在我们学院的《数据挖掘十大算法》中再次介绍。最近，在学习Andrew Ng的机器课程也介绍了朴素贝叶斯。既然这么重要，有必要将课程内容进行整理。一、概念1) 贝叶斯模型贝叶斯模型是将两个事件之间的先验概率和后验概率建立起一座桥梁，即

2014-09-03 12:26:30 3681

原创斯坦福大学机器学习——广义线性模型

同事提到了SPSS处理广义线性模型问题，今天就抽空对广义线性模型相关概念进行一番梳理。1.指数分布族指数分布族（Exponential Family）是这样一组分布：这些分布的概率密度函数可以表示成以下形式：其中，y是随机变量；h(x)称为基础度量值（base measure）；称为自然参数（natural parameter），也称为规范参数(canonical pa

2014-08-22 11:35:08 7536

From Data Mining to Knowledge Discovery in Databases

经典的数据挖掘的综述性文章，介绍了数据挖掘常用的方法和步骤。

2015-05-03

C++编程思想（英文原版）

C++编程思想（英文原版）绝对的经典，程序员必备

2010-02-07

人工智能 (尼尔逊)-------人工智能入门著作

人工智能入门著作人工智能入门著作人工智能入门著作人工智能入门著作

2010-08-15

通信的数学原理

《通信的数学原理》香农开创信息论的原文

2013-06-26

程序员考试历年真题（1991-2005）有答案

程序员考试历年真题（1991-2005）软考上午、下午主客观题考试

2010-02-06

人工智能基础人工智能基础

人工智能基础人工智能基础人工智能基础人工智能基础

2010-08-15

数据库系统概论（第三版）

1983年第一版，一个经得起时间考验的国内教材，值得初学者学习

2010-02-06

WINDOWS核心编程(中文版)

《Windows核心编程》是为打算理解Windows的C和C++程序员精心设计的，作为Windows开发人员的必备参考。第5版全面覆盖 Windows XP，WindowsVista和WindowsServer2008中的170个新增函数和Windows特性。书中还讲解了Windows系统如何使用这些特性，我们开发的应用程序又如何充分使用这些特性，如何自行创建新的特性。《Windows核心编程》重要主题：如何为32位和64位Windows系统构建和实现应用程序；如何新建和处理进程与作业；如何调度．管理、同步和销毁线程；如何通过I/O完成端口执行同步和异步设备I/O操作；如何使用虚拟内存、内存映射文件和堆之类的各种技术来分配内存；如何处理默认调拨的线程栈物理存储；如何为延迟加载、API拦截和进程注入构建DLL；如何使用结构化异常处理、Windows错误恢复和应用程序重启等机制。《微软技术丛书》包括以下几个子系列：从入门到精通：适合新手程序员的实用教程；侧重于基础技术和特征；提供范例文件。技术内幕：权威、必备的参考大全；包含丰富、实用的范例代码；帮助读者熟练掌握微软件技术。高级编程：侧重于高级特性、技术和解决问题；包含丰富、适用性强的范例代码；帮助读者精通微软技术。精通＆宝典：着重剖析应用技巧，以帮助提高工作效率；主题包括办公应用和开发工具。认证考试教材：完全根据考试要求来阐述每一个知识点；提供可供搜索的Ebook（英文版）和训练题；提供实际场景、案例分析和故障诊断实验。

2010-02-21