19、机器学习中的概率模型学习与统计基础

机器学习中的概率模型学习与统计基础

1. 概率模型学习概述

在概率模型的学习过程中,我们致力于从数据中学习模型。这一过程可视为对扩展分布进行推理的一种形式,同时需考虑模型的参数。由于数据有限,我们难以确定哪个是“正确”的模型,因此学习过程中必然要面对不确定性。我们不仅关注模型参数的学习,还会探讨模型结构的学习方法。

在简化假设下,如最大似然估计,我们可以通过使模型最有可能重现观测数据的方式来设置参数。同时,我们也会讨论在数据缺失时可能出现的问题。掌握这些知识,将为理解机器学习模型奠定基础,使我们具备从数据中学习模型并进行查询以解答相关问题的能力。

2. 数据表示

数据的数值编码方式对性能有显著影响,以下是三种常见的数据编码方式:

2.1 分类编码(Categorical)

分类数据的观测值属于多个类别之一,且类别之间没有内在顺序,可简单用整数表示。例如,某人的职业类型,如医疗保健、教育、金融服务等,可分别用 1、2 等整数表示。另一种方法是使用 1-of-m 编码,如对于士兵、水手、修补匠、间谍这四种职业,可分别表示为 (1,0,0,0)、(0,1,0,0)、(0,0,1,0) 和 (0,0,0,1)。这种编码方式下,不同职业向量之间的距离恒定,但会在职业属性之间引入依赖关系。

2.2 顺序编码(Ordinal)

顺序变量的类别具有顺序或排名,如冷、凉、温、热。为保留顺序,可分别用 -1、0、+1 和 +2 表示。不过,这种选择具有一定的随意性,结果可能依赖于所使用的数值编码。

2.3 数值编码(Numerical)

数值数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值