- magics %% 应按惯例从第一行开始
-如图1而非图2
图1
图2 - 关于相关性过滤中的卡方过滤,需要保证每个特征的值都是非负的,可采取的措施有:归一化,使得特征值均处于某个区间范围内。
- 关于卡方过滤中所需特征数目K的确定。卡方检验的本质是推测两组数据之间的差异,其检验的原假设是“两组数据是相互独立的”。卡方检验返回卡方值和P值两个统计量,其中卡方值很难界定有效的范围,而P值,我们一般用0.01或0.05作为显著性水平,即P值判断边界。而从特征工程的角度,我们希望选取卡方值很大,P值小于0.05的特征,进而我们可根据此来确定所需特征数据K。
- True=1,False=0