文本预处理
tokenization:去掉符号,转换单词大小写
stop-words remove:去除when,with一类词语
stemming:转换时态
特征获取
特征提取
广义上是一种变换,将处于高维的样本空间通过映射或者变换转换到低维空间
特征选择
从一组特征中去除冗余或不相关的特征来降维
下面一些算法用于评估特征对文本的重要程度
TF-IDF(词频-逆文本频率):如果某个词在一篇文章中出现TF高,但是在其他文章中很少出现,就说明该词对这个文档具有很好的区分能力。
TF*IDF: TF是给定的一个词在文档中出现的频率
IDF文件总数目除以包含该词语的文档数,越小表示区分能力越差
Information Gain(信息增益):只能考察特征对整个系统的贡献,而不能具体到某个类别上
IG(T)=H(C)-H(C|T)
MI(互信息)
CHI-Square test(卡方检测):通过观察实际值与理论值的偏差来确定理论正确与否
分类算法,构造预测模型
SVM,决策树,NB,KNN
评价指标
准确率
精确率
召回率
ROC面积