19、机器学习中的概率模型学习与统计基础

algae

于 2025-10-01 15:52:38 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏：贝叶斯思维：从推理到决策文章标签：概率模型机器学习数据表示

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/algae/article/details/154903481

贝叶斯思维：从推理到决策专栏收录该内容

65 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的概率模型学习与统计基础

1. 概率模型学习概述

在概率模型的学习过程中，我们致力于从数据中学习模型。这一过程可视为对扩展分布进行推理的一种形式，同时需考虑模型的参数。由于数据有限，我们难以确定哪个是“正确”的模型，因此学习过程中必然要面对不确定性。我们不仅关注模型参数的学习，还会探讨模型结构的学习方法。

在简化假设下，如最大似然估计，我们可以通过使模型最有可能重现观测数据的方式来设置参数。同时，我们也会讨论在数据缺失时可能出现的问题。掌握这些知识，将为理解机器学习模型奠定基础，使我们具备从数据中学习模型并进行查询以解答相关问题的能力。

2. 数据表示

数据的数值编码方式对性能有显著影响，以下是三种常见的数据编码方式：

2.1 分类编码（Categorical）

分类数据的观测值属于多个类别之一，且类别之间没有内在顺序，可简单用整数表示。例如，某人的职业类型，如医疗保健、教育、金融服务等，可分别用 1、2 等整数表示。另一种方法是使用 1-of-m 编码，如对于士兵、水手、修补匠、间谍这四种职业，可分别表示为 (1,0,0,0)、(0,1,0,0)、(0,0,1,0) 和 (0,0,0,1)。这种编码方式下，不同职业向量之间的距离恒定，但会在职业属性之间引入依赖关系。

2.2 顺序编码（Ordinal）

顺序变量的类别具有顺序或排名，如冷、凉、温、热。为保留顺序，可分别用 -1、0、+1 和 +2 表示。不过，这种选择具有一定的随意性，结果可能依赖于所使用的数值编码。

2.3 数值编码（Numerical）

数值数据

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。