基于scikit-learn(sklearn)做分类--1.切词
原来看了很多例子,想做一个文本分类,大致是关于对网页内容进行分类,大约10个类。没有自己写程序,而是调用的包,主要是用的sklearn中的文本分类包,现在就把主要的程序贴上,供别人参考。
1、切词
首先是拿到文本进行切词,使用的是jieba分词,不过可以自己导入自定义词典。
import jieba
import sys
import os
import re
import
原创
2016-04-27 16:20:07 ·
1805 阅读 ·
0 评论