基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)
简介
文本分类系列文章,详细并且公开源码的一步一步实现一个新闻文本分类器,准确率搞的夸张一点99.99%并且不是过拟合的99.99%而是具备良好推广性的99%,主要技术特点是采用汉字字频作为特征,和SVM、多层神经网络的应用。
目标
对新闻文本进行二分类,即判断一篇新闻是属于军事类还是非军事类。新闻定义为50个汉字以上的短文,而不是一句话新闻。