机器学习中的概率模型学习与统计基础
1. 概率模型学习概述
在概率模型的学习过程中,我们致力于从数据中学习模型。这一过程可视为对扩展分布进行推理的一种形式,同时需考虑模型的参数。由于数据有限,我们难以确定哪个是“正确”的模型,因此学习过程中必然要面对不确定性。我们不仅关注模型参数的学习,还会探讨模型结构的学习方法。
在简化假设下,如最大似然估计,我们可以通过使模型最有可能重现观测数据的方式来设置参数。同时,我们也会讨论在数据缺失时可能出现的问题。掌握这些知识,将为理解机器学习模型奠定基础,使我们具备从数据中学习模型并进行查询以解答相关问题的能力。
2. 数据表示
数据的数值编码方式对性能有显著影响,以下是三种常见的数据编码方式:
2.1 分类编码(Categorical)
分类数据的观测值属于多个类别之一,且类别之间没有内在顺序,可简单用整数表示。例如,某人的职业类型,如医疗保健、教育、金融服务等,可分别用 1、2 等整数表示。另一种方法是使用 1-of-m 编码,如对于士兵、水手、修补匠、间谍这四种职业,可分别表示为 (1,0,0,0)、(0,1,0,0)、(0,0,1,0) 和 (0,0,0,1)。这种编码方式下,不同职业向量之间的距离恒定,但会在职业属性之间引入依赖关系。
2.2 顺序编码(Ordinal)
顺序变量的类别具有顺序或排名,如冷、凉、温、热。为保留顺序,可分别用 -1、0、+1 和 +2 表示。不过,这种选择具有一定的随意性,结果可能依赖于所使用的数值编码。
2.3 数值编码(Numerical)
数值数据
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



