1.统计分析
1.1 概念
统计学是研究如何收集资料、整理资料和进行量化分析、推断的一门学科,在科学计算、工业和金融领域有着重要的应用,统计分析是机器学习的基本方法。
总体:根据一定目的确定的所要研究事物的全体。样本:从总体中随机抽取的若干个体构成的集合。推断:以样本所包含的信息为基础,对总体的某些特征做出判断、预测和估计。 推断可靠性:对推断结果从概率上的确认,是决策的重要依据。
1.2 统计基础
输入空间、特征空间和输出空间:输入和输出所有的可能取值的集合分别称为输入空间和输出空间所有的特征向量存在的空间称为特征空间。联合概率分布:联合概率表示两个或者多个变量同时发生的概率,而联合概率分布是指各个变量的发生概率之间存在一定的规律,但是分布情况未知。假设空间:由输入空间到输出空间的映射构成的集合,每个映射对应一个模型假设空间确定了模型预测的范围,训练过程就是从中选择最优模型。均值:描述的是样本集合的平均值。标准差:描述的是样本集合的各个样本到均值的距离分布,描述的是样本集的分散程度。方差:是估计值与期望值的统计方差,方差越大,模型越不稳定,波动越大。协方差:主要用来度量两个随机变量关系,正值→正相关,负值→负相关,0→相互独立。超参数:机器学习算法的调优参数,常用于估计模型参数的过程中,由用户指定,可以使用启发式方法来设置,并能依据给定的预测问题而调整。损失函数和风险函数:损失函数是关于模型计算结果𝒇(𝒙)和样本实际目标结果𝒀的非负实数函数,值越小→模型的拟合效果越好,种类有:0-1损失函数、平方损失函数、绝对值损失函数、对数损失函数。
1.3 统计方法
回归分析:分析一个变量与其他一个(或几个)变量之间的相关关系的统计方法。种类:线性回归、多元回归、非线性回 归、广义线性回归(对数、possion)。主要内容 :1. 确定连续变量之间的相关关系 2. 建立回归模型 3. 检验变量之间的相关程度 4. 应用回归模型对变量进行预测
2.高维数据降维
2.1 降维的解释
定义:采用某种映射方法,降低随机变量的数量。
种类:特征选择:从含有冗余信息以及噪声信息的数据中找出主要变量。特征提取:去掉原来数据,生成新的变量,可以寻找数据内部的本质结构特征种类。
过程:通过对输入的原始数据特征进行学习,得到一个映射函数,实现将输入样本映射到低维空间中之后,原始数据的特征并没有明显损失过程。
条件:新空间的维度要小于原空间的维度、处理向量形式的数据。
2.2 降维的方法
主成分分析(PCA)
线性判别分析(LDA)
注:LDA对标有类别的数据降维效果更好。
3.特征工程
3.1 定义
从原始数据提取特征的过程。
3.2 目的
让特征能够表征数据的本质特点、基于特征建立的模型在未知数据上的性能达到最优。
3.3 内容
特征构建、特征选择、特征提取。
4.可视化分析
1.1 常用工具
• Excel • Tableau • Raw • Chart.js • Processing • Wordle • Orange • Facets • Python、R语言库: – matplotlib、Seaborn、 Pyecharts、ggplosts
2.2 常见可视化图表
饼图、堆叠柱形图、板块层级图、堆叠面积图、散点图、泡泡图、直方图、多直方图、热点图、箱图、平行坐标图
、多维量法图。