统计自然语言处理基础-笔记-数学基础

说一下条件独立性。各个变量其实是不独立的,多多少少都存在着关系,但是在研究和工程中,都假设添加是独立的,假设是错误的,为什么还能得到相对比较合理的结果?理解是这样的,条件独立性假设是为了方便研究。要不以条件相关为假设,要不以独立性为假设。由于相关性并不是很大,就选择条件独立性吧。

贝叶斯方法在很多分类问题上取得不错的效果,但并不能解决异或问题,贝叶斯就设了独立性假设。贝叶斯方法能有好效果,原因是异或问题并不常见。

均值和方差,这是两个相互依赖的概念,方差是变量与均值差的平方的平均值;均值可以这样定义,均值是方差函数里面的那个被所有值减的那个变量,方差取最小值时求得的那个变量的值就是均值。

二项分布,就是掷色子,掷n次,出现r的概率服从的一个分布。假设篇章中各个词之间独立的,则每个词的出现都符合二项分布。

正态分布,由于二项分布是离散的,离散的不利于研究,正太分布可以逼近二项分布,并且正态分布被研究的很充分,所以正太分布也很重要。

熵,实质是某一个分布的不确定性。

互信息,在知道一个变量的情况下,另一个变量的不确定性。互信息和用于词的聚类和语义消歧。

相对熵,实质是两个分布函数的关系。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值