统计学习之路|(一)统计学习理论与方法概述
各位小伙伴们大家好!经过一段时间的思考,我决定将开更一个“天坑系列”:统计学习之路。希望自己能够坚持更下去。
之所以称之为“天坑系列”,是因为要完成这个系列难度略大:一是因为现在这方面的教材多由学科大牛所写,理论难度较高;二是统计学习算法对数学基础(特别是矩阵代数、最优化理论与方法)要求较高,自己也是在摸索中前行。不过有挑战才有收获,在该系列的文章中,我将和大家共同学习各种统计学习算法的理论与思想。我希望用最简单易懂的语言,让各种学科背景的小伙伴们都能理解并有所收获。
题外话:本系列内容是我之前的学习记录,参考了很多经典教材与博客文章,并结合一些个人心得与理解,若有错误与不恰当之处,还请大家私信指出。 作为本系列的第一期,我将同大家了解统计学习的基础内容:统计学习算法的理念与分类。
一、什么是统计学习(Statistical Learning)
现如今,数据的产生更迅速、数据的搜集方式更多样、数据的分析方法也更丰富。身处大数据时代的我们,也都对“统计学”、“统计学习”、“数据挖掘”、“机器学习"等概念有所耳闻。对于这些概念的详细含义,我并不打算去加以界定,作为一名统计学背景并打算长期“入坑统计”的小同志,我在学习的过程中始终是对模型算法从数据处理的思想方法这一角度上进行理解,因此相比于“机器学习”,我更愿称之为“统计学习”。
要注意的是,“统计学习”并与传统的统计学存在一定的区别。个人拙见:统计学是一门从有关数据的搜集、整理、分析、决策的方法论科学,涵盖很多研究领域,其下有很多的学科分支;而统计学习是有关基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。也就是说,统计学习往往建立在已有数据的基础上,根据数据格式与分析目的,再去选择适合数据的模型与算法并对模型和算法加以改进与优化。
用数学语言来讲,我们对数据进行建模时,通常采用如下范式:
Y = f ( X ) + ϵ Y= f(X)+\epsilon Y=f(X)+ϵ 其中, X X X称为输入变量、预测变量、自变量、属性(特征),常用下标区分不同的变量,如 X 1 , X 2 , . . . X p X_1,X_2,...X_p X