ISL-Chap1&2.1笔记
写在前面
趁着假期重新刷一遍《An Introduction to Statistical Learning》,整理一下思路,也顺着这本书再重温一下R。小白水平,可能会有些理解上的错误,若有错误欢迎指正、讨论。
本系列笔记,内容主要参考《An Introduction to Statistical Learning》一书,若需引用请注明出处。
Chap1 Introduction
本章大略介绍了:
- 什么是 Statistical Learning :
A vast set of tools for understandiing data 。 这些工具可以分为 “supervised” 和 “unsupervised”, 即 监督学习和非监督学习。 - 本书使用的数据集。
- Statistical Learing 的历史。
- 这本书适合什么人学习。
- 符号的使用说明。
- 行文结构。
Chap2 Statistical Learning
2.1 什么是 Statistical Learning
本小节由 “如何提高销售量?” 这个问题引入。因此,我们的目标就是:建立一个可以通过三种媒体渠道(TV, radio, newspaper)的投入,精确预测销售量(sales)的模型。其中,销售量(Y-sales)是输出值,三个渠道的投入(X1-TV, X2-radio, X3-newspaper) 是输入值。
若使用模型 f f f 来拟合 Y Y Y,那么一般形式可写作:
Y = f ( X ) + ϵ Y=f(X)+\epsilon Y=f(X)+ϵ
这里的 f f f 是关于各变量( X 1 , X 2 , . . . , X n X1,X2,...,Xn X1,X2,...,Xn) 的特定但目前还待求的函数。 ϵ \epsilon ϵ是随机误差项,它独立于 X X X且均值为0。
总的来说,Statistical Learning 指的就是一系列估计 f f f的方法。
2.1.1 Why Estimate f f f
建立模型(估计 f f f)主要的两种原因:Prediction or Inference
- Prediction:
Y ^ = f ^ ( X ) \hat{Y}=\hat{f}(X)