本文链接：https://blog.youkuaiyun.com/uncle_gy/article/details/80386419

卡方检验

基本概念

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。
假设有两个分类变量 $X$ 和 $Y$ ，其值域都是 $\{x_1,x_2\}$ ,计算 $X$ 和 $Y$ 之间的相关性需要先建立一个零假说。即两个变量之间不存在关系，理论频数和实际频数之间存在的差异是因为随机误差。然后根据实际频数来计算他们的卡方值。卡方值越大说明造成他们的原因不是因为随机误差，而是 $X$ 和 $Y$ 之间存在一定的相关性，卡方值越大说明相关性越强。

四格表

对于某一个特征 $x$ ，

$\space$ 类别

1 1 $1$

类别

2

$2$ 总计包含

a a $a$

b b $b$

a + b

$a+b$ 不包含

c c $c$

d

$d$

c+d c + d $c+d$ 总计

a+c a + c $a+c$

b+d b + d $b+d$

a+b+c+d a + b + c + d $a+b+c+d$

四格表的卡方校验公式：

X 2 = ( a + b + c + d ) ( a d - b c ) 2 ( a + b ) ( c + d ) ( a + c ) ( b + d )

$\mathcal{X}^2=\dfrac{(a+b+c+d)(ad-bc)^{2}}{(a+b)(c+d)(a+c)(b+d)}$

如何进行特征选择

如果对于特征 $x$ 的卡方值小于临界值，则说明该特征，与类别的相关性比较低，视为冗余特征。

TF-IDF

基本概念

TF-IDF（Term Frequency-Inverse Document Frequency）算法是用于评估一个字词在一个文件集合或者语料库中的一份文件的重要程度的一种统计方法。
一个字词的重要程度与它在文件中出现的次数成正比，与它在文件集或者语料库中出现的次数成反比。

构成

TF-IDF算法包括两个部分：词频TF(Term Frequency)和逆向文件频率IDF(Inverse Document Frequency)词频则是代表这个词语在文档中出现的次数。
但是如果单纯的词语出现的次数多少，会导致TF值会根据文件篇幅的大小而变化。为了避免词语在篇幅较长的文件，需要对TF值进行归一化操作。

计算公式

TF的计算公式：

{t f}_{i j} = \frac{n_{i j}}{\sum_{k} n_{k j}}

$\mathbf{tf}_{ij}=\dfrac{n_{ij}}{\sum_{k}n_{kj}}$

nij n i j $n_{ij}$ 代表着第

i i $i$ 个词语在第

j

$j$ 篇文章中出现的次数，

∑knkj ∑ k n k j $\sum_{k}n_{kj}$ 表示所有词语出现的次数。
IDF的计算公式：

i d f i = ln | D | | { j : t i \in d j } |

$\mathbf{idf}_i=\ln\dfrac{|D|}{\left|\{j:t_i\in d_j\}\right|}$

D D $D$ 代表着所有文件的数量，

| {j : t_{i} \in d_{j}} |

${\left|\{j:t_i\in d_j\}\right|}$ 代表文件集或者语料库中所有出现过的该词语的文件数量。
TF-IDF的计算公式为：

t f i d f = t f i j \times i d f i

$\mathbf{tfidf}=\mathbf{tf}_{ij}\times\mathbf{idf}_i$
一个词语的TF-IDF的值等于其TF值和IDF的值的乘积。

特征选择

将样本集合中的每一个样本当成是一个文件 $\mathbf{x}=(x_1,x_2,\dots,x_n)$ ，将每一个样本的特征当成是文件中的一个词语。
于是就可以把样本集当成文件集来处理
对于某一个特征 $x_i$ 的TF值可以写成：

t f i = \sum k 1 n k

$\mathbf{tf}_i=\sum_{k}\dfrac{1}{n_k}$
其中假设样本集合中有

k k $k$ 个样本包含此特征，

n_{k}

$n_k$ 为第

k k $k$ 个样本包含的特征总数。
对特征

x_{i}

$x_i$ 的IDF值可以写成：

i d f i = | D | | d i |

$\mathbf{idf}_i=\dfrac{|D|}{|d_i|}$
其中

|D| | D | $|D|$ 代表样本库中的样本个数，

|di| | d i | $|d_i|$ 代表着包含此特征的样本个数。
最后计算TF-IDF值，并且按照TF-IDF值对特征进行排序。

RELIEF

基本概念

这是一种针对两分类问题的特征权重计算方法。他根据特征与类别之间的相关性来计算特征的权重，最后保留权重大于一定阈值的特征，取值权重小于一定阈值的特征，从而完成对特征的选择。
Relief算法计算特征和类别之间相关性的方法是考察特征在相同类别的近邻样本与不同类别的近邻样本之间存在的差异程度。当该特征在相同类别的样本中差异较小但是在不同类别的样本中差异较大，说明该特征适合用于这两种类别的分类。

算法具体步骤

更新特征 $t$ 的权重的方法是使用 $t$ 的权重减去样本 $\mathbf{x}_i$ 与同类样本的差异值 $\mathbf{diff}(t,\mathbf{x}_i,\mathbf{x}_{same})/r$ 加上不同样本的差异值 $\mathbf{diff}(t,\mathbf{x}_i,\mathbf{x}_{dif})$ 其中 $r$ 为抽样次数，为了避免抽样的随机性， $r$ 的取值不能太小。
这里写图片描述