以下是在看模型识别,机器学习及数理统计时,对贝叶斯决策、概率分布、样本关系的总结,每想到一点就写下来,比较乱,这块需要反复学习、慢慢理解。
1. 机器学习的一些概念:
什么是机器学习?
机器学习包含哪些基本要素?
机器学习,就是由已知数据,训练出一个模型,形成一个假设的空间,在拿到新的数据后,能在假设空间搜索出一个合理的结果。
搜索出合理的结果,只是评价机器学习的效果,模型的好坏。
如何建立模型,才是机器学习算法的核心,包括假设,推理,验证。
如何保证目标概念在假设空间内?
是否有包含所有假设的空间?
如何保证收敛?
假设空间的大小与训练样例数量的关系?
概率、贝叶斯公式与机器学习的关系?
概率论,特别是贝叶斯公式,为机器学习提供了强有力的推导依据。
1. 统计与概率、机器学习是什么关系?
概率论及其分布函数、特性,是理论基础。而统计是应用,利用样本统计量来估计概率模型中的参数,而后更进一步获取更有用的统计数据。
统计是机器学习中统计判决部分的理论基础。或者是说统计分析在机器学习方面的应用。
2.
贝叶斯学习
两个前提条件:
1)类别,一般是已知类别的个数,各个类别的需要概率的初始知识,即先验概率P(h)。
2)特征数据在各个类别中的概率分布,即先验条件分布P(x|h)。
待解决的问题:
已知采集的数据:
训练数据D:包含特征数据和类别
求:
假设的分类面,或者一个采集到数据的分类。
其中,问题又可分为 类别的先验概率P(h)已知,和未知两种情况。
1)P(h)已知的情况。求解,相对简单,普通的贝叶斯公式。
2)P(h)未知,但一种类别的错误率已知的情况,求另外一个类别的错误率。可以利用聂曼-皮尔逊决策(N-P判决)来计算决策面。
3. h为类别,D为特征数据,P(D|h)与P(h|D)的区别?
计算假设目标的概率P(D|h). 假设成立时,观测到D的概率。有多种假设 都能观测到数据D,每种假设所占的比率。先验概率