数学知识
卡方检验:比较理论频数与实际频数的吻合程度。

其中,A为实际值,T为理论值。
x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
-
实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
-
差异程度与理论值的相对大小
-
这里需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。
特征选择
特征是否发散:即特征的方差是否接近于0,方差接近于0时,特征不具有区分性
特征与目标的相关性:选择与目标相关性高的特征。