语种检测主要是利用了朴素贝叶斯算法实现,利用了了sklearn这个库来实现贝叶斯分类。数据从网上下载的。大概有8种不同语言的文章。 主要流程就是: 从网上下载不同语言文章; 数据处理,排除干扰项 提取特征向量CountVectorizer 数据分为训练集和测试集, 用训练函数fit来进行训练 预测函数predict函数对测试集进行预测 用score函数生成预测结果