统计学习方法笔记——第一章 统计学习方法概论(1)

1.1  基本概念 

   统计学习是计算机基于数据构建概率统计模型并用该模型进行预测与分析的一门学科,也称统计机器学习。

    统计学习的特点:建立在计算机网络之上,以数据为驱动进行建模并预测分析的一门学科。是概率论、统计学、信息论、最优化等多领域相结合的交叉学科。

    统计学习的对象:数据。

    统计学习的目的:通过概率建模来挖掘已知数据中蕴含的内在规律,并以此来指导对未知数据的预测与分析。

    统计学习的组成:监督学习、半监督学习、无监督学习、强化学习。其中监督与无监督的区别便是数据是否含有类别标签。比如给定一个函数y=x,若点(2,3)不在该函数上,则(2,3)这个点的标签便是0(也可以是1或者其它的,但一定是有标签的)。若所有的数据都含有类别标签,那便是有监督的学习;反之若所有的数据都没有标签,那便是无监督学习;若部分数据有标签,部分数据无标签,那便是半监督学习。《统计学习方法》一书主要讨论的是有监督的学习。

    统计学习的方法步骤:得到一个有限的训练数据集--->确定所有可能的模型(这些模型组成的集合叫假设空间)--->确定选择最优模型的准则(学习策略)--->实现求解最优模型的算法--->通过学得的最优模型对未知数据进行预测与分析。

    统计学习的三要素:模型、策略、算法。


1.2  监督学习

    监督学习是统计学习极其重要的一个分支,也是《统计学习方法》一书主要讨论的内容。简单来说,监督学习就是给定一个训练集,训练集中的所有数据都是带有类别标签的,然后需要通过学习训练集中的数据,来对未知数据的类别标签进行预测分析。

    输入空间:输入所有可能的取值集合;

    输出空间:输出所有可能的取值集合。

    每个具体的输入通常由特征向量表示,所有特征向量组成的空间叫做特征空间(一般与输入空间不做区分)。

    例如,现有一个输入x,它的特征向量记作,上标代表这个输入x的不同特征。

    一个具体的例子:橙子A=(黄色,椭圆,粗糙),其中橙子A是所有水果中的一个实例输入,它有三个特征(颜色,形状,质感),分别对应的特征值为(黄色,椭圆,粗糙)。

    对于多个输入变量(可以想像输入变量为3个不同的橙子),则用下标予以区分:,下标i代表第i个输入,上标代表第i个输入的某个特征。

    监督学习从训练集中学习模型,训练集通常表示为,由N组输入—输出对组成,输入与输出均可以为连续或离散型变量,每组输入—输出对又称为样本。如样本(x1,y1)。

    监督学习有个大前提,就是假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),训练数据与测试数据都是依照该联合概率分布P(X,Y)产生的。简单来讲就是假设训练与测试数据都已经内在地符合某种规律了,我们要做的就是通过学习模型来挖掘出这种规律。

    所有模型的集合叫假设空间(通常包含无数个模型),我们首先要做的是从假设空间中找出最优的模型(模型优秀与否的评判标准下一节再具体介绍)。监督学习的模型可以是概率模型或者非概率模型,分别由条件概率分布P(Y|X)或决策函数Y=f(X)表示,对应的输出预测写作P(y|x)或y=f(x)。

    概率模型最终学到的是一个概率分布,如KNN算法,若待测数据点周围的大部分数据属于A类,则该数据点也属于A类的可能最大。非概率模型最终学到的是一个具体的决策函数,如Decision Tree,有较强的可解释性。

    最后附上书上关于监督学习的流程图:




   

内容概要:本文档详细介绍了在三台CentOS 7服务器(IP地址分别为192.168.0.157、192.168.0.158和192.168.0.159)上安装和配置Hadoop、Flink及其他大数据组件(如Hive、MySQL、Sqoop、Kafka、Zookeeper、HBase、Spark、Scala)的具体步骤。首先,文档说明了环境准备,包括配置主机名映射、SSH免密登录、JDK安装等。接着,详细描述了Hadoop集群的安装配置,包括SSH免密登录、JDK配置、Hadoop环境变量设置、HDFS和YARN配置文件修改、集群启动与测试。随后,依次介绍了MySQL、Hive、Sqoop、Kafka、Zookeeper、HBase、Spark、Scala和Flink的安装配置过程,包括解压、环境变量配置、配置文件修改、服务启动等关键步骤。最后,文档提供了每个组件的基本测试方法,确保安装成功。 适合人群:具备一定Linux基础和大数据组件基础知识的运维人员、大数据开发工程师以及系统管理员。 使用场景及目标:①为大数据平台搭建提供详细的安装指南,确保各组件能够顺利安装和配置;②帮助技术人员快速掌握Hadoop、Flink等大数据组件的安装与配置,提升工作效率;③适用于企业级大数据平台的搭建与维护,确保集群稳定运行。 其他说明:本文档不仅提供了详细的安装步骤,还涵盖了常见的配置项解释和故障排查建议。建议读者在安装过程中仔细阅读每一步骤,并根据实际情况调整配置参数。此外,文档中的命令和配置文件路径均为示例,实际操作时需根据具体环境进行适当修改。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值