机器学习与数据挖掘中的算法设计
1. 模型相关基础
1.1 HMM与CRF
隐马尔可夫模型(HMM)可以由条件随机场(CRF)建模。CRF中的概率分布通常由变量子集上的因子乘积表示,HMM中的概率 $P(n′|n)$ 和 $P(s|n)$ 可以轻松转换为这些因子。CRF通过因子能够定义变量之间更复杂的依赖关系,这也是它在自然语言处理中比HMM更受欢迎的原因。
1.2 图形模型学习
学习图形模型可分解为两个子问题:
- 结构已知时,问题是学习参数,即概率分布。通常采用似然最大化或贝叶斯先验最大化(MAP)等方法。
- 结构未知时,需要同时学习结构和参数。
1.3 统计关系学习
统计关系学习旨在将归纳逻辑编程与概率模型联系起来,是一个活跃的研究领域。
2. 学习与表示变换
2.1 变换输入空间的动机
改变输入空间 $X$ 的动机是使寻找规律或模式更加直接。可以通过无监督学习或有监督学习来实现,其中无监督学习由待解决的预测任务引导。
2.2 无监督学习的应用
无监督学习常用于以下方面:
- 估计输入空间中的密度。
- 将数据聚类成组。
- 找到大多数数据所在的流形。
- 以某种方式进行去噪。
总体原则是找到训练数据的最简单表示,同时尽可能保留关于示例的信息。“简单性”的常见定义方式有:低维表示、稀疏表示和独立表示。
2.2.1 低维表示
寻找低维表示时,我们希望找到更小的表示,同时保
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



