bug报告严重性排序


文本预处理

tokenization:去掉符号,转换单词大小写

stop-words remove:去除when,with一类词语

stemming:转换时态

特征获取

特征提取

广义上是一种变换,将处于高维的样本空间通过映射或者变换转换到低维空间

特征选择

从一组特征中去除冗余或不相关的特征来降维

下面一些算法用于评估特征对文本的重要程度

TF-IDF(词频-逆文本频率):如果某个词在一篇文章中出现TF高,但是在其他文章中很少出现,就说明该词对这个文档具有很好的区分能力。

TF*IDF: TF是给定的一个词在文档中出现的频率 

               IDF文件总数目除以包含该词语的文档数,越小表示区分能力越差

Information Gain(信息增益):只能考察特征对整个系统的贡献,而不能具体到某个类别上

                    IG(T)=H(C)-H(C|T)

MI(互信息)

CHI-Square test(卡方检测):通过观察实际值与理论值的偏差来确定理论正确与否


分类算法,构造预测模型

SVM,决策树,NB,KNN

评价指标

准确率

精确率

召回率

ROC面积


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值