特征提取
特征检验的方法
卡方检验
信息熵
卡方检验
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
卡方检验公式
χ2=∑(A−E)2E=∑i=1k(Ai−Ei)2Ei=∑i=1k(Ai−npi)2npi\chi^{2}=\sum\frac{(A-E)^{2}}{E}=\sum\limits_{i=1}^k\frac{(A_i-E_i)^{2}}{E_i}=\sum\limits_{i=1}^k\frac{(A_i-np_i)^{2}}{np_i}χ2=∑E(A−E)2=i=1∑kEi(Ai−Ei)2=i=1∑knpi(Ai−npi)2
其中A代表观察频数(就是观察值),E代表期望频数, k为观察值的个数,n 为总的频数,p为理论频率,那么n*p就是理论频数
卡方检验举例
- 四表格
卡方分布
自由度:独立变量的个数