人力资本分析的重点归根结底还是在于分析,统计学作为数据分析的基础,是每一个尝试进入人力资本分析领域的小伙伴得不得了解的内容。
统计学是学什么的
统计学习是一套以理解数据为目的的庞大工具集。
统计学习的工具可以分为两类:有指导的学习和无指导的学习。
一般而言,有指导的统计学习工具主要有两种用途:一是面向预测的统计模型的建立;二是对一个或多个给定的输入估计某个输出。
无指导的统计问题中,往往有输入变量,但是不指定输出变量,旨在学习数据的关系和结构。
我们假设输入变量为X,输出变量为Y,给出这样一个很一般的式子:
Y=f(X)+ε
其中ε表示随机误差项,f表示X提供给Y的系统信息。一般而言,函数f会涉及多个输入变量,统计学的学习就是关于估计f的一系列方法。
一般来说,对于f的估计会基于两种目的:预测和推断,我们建模的类型无非三种,预测、推断和两者混合。
预测:输入集X是已知的,但输出Y是不易获得的,分析的目的是找到一个尽可能准确的f使得对Y的估计尽量准确(预测一定会存在误差)