说一下条件独立性。各个变量其实是不独立的,多多少少都存在着关系,但是在研究和工程中,都假设添加是独立的,假设是错误的,为什么还能得到相对比较合理的结果?理解是这样的,条件独立性假设是为了方便研究。要不以条件相关为假设,要不以独立性为假设。由于相关性并不是很大,就选择条件独立性吧。
贝叶斯方法在很多分类问题上取得不错的效果,但并不能解决异或问题,贝叶斯就设了独立性假设。贝叶斯方法能有好效果,原因是异或问题并不常见。
均值和方差,这是两个相互依赖的概念,方差是变量与均值差的平方的平均值;均值可以这样定义,均值是方差函数里面的那个被所有值减的那个变量,方差取最小值时求得的那个变量的值就是均值。
二项分布,就是掷色子,掷n次,出现r的概率服从的一个分布。假设篇章中各个词之间独立的,则每个词的出现都符合二项分布。
正态分布,由于二项分布是离散的,离散的不利于研究,正太分布可以逼近二项分布,并且正态分布被研究的很充分,所以正太分布也很重要。
熵,实质是某一个分布的不确定性。
互信息,在知道一个变量的情况下,另一个变量的不确定性。互信息和用于词的聚类和语义消歧。
相对熵,实质是两个分布函数的关系。
1995

被折叠的 条评论
为什么被折叠?



