
分类
文章平均质量分 75
初夏11
机器学习小白
展开
-
基于scikit-learn(sklearn)做分类--1.切词
原来看了很多例子,想做一个文本分类,大致是关于对网页内容进行分类,大约10个类。没有自己写程序,而是调用的包,主要是用的sklearn中的文本分类包,现在就把主要的程序贴上,供别人参考。1、切词首先是拿到文本进行切词,使用的是jieba分词,不过可以自己导入自定义词典。import jiebaimport sysimport osimport reimport原创 2016-04-27 16:20:07 · 1805 阅读 · 0 评论 -
基于scikit-learn(sklearn)做分类--2.分类
上一步对文本进行了切词,下一步就是进行了分类://这里有个问题是,假如用predict_proba()这个函数的时候,可以得到一篇文章属于一个类并得到属于这个类的概率,返回一个列表,而predict()这个函数只能得到文本最应该属于的那个类,只能返回一个类。同时,对于给予中文类别,那么返回的可能是数字类别,现在没有找到中文类别和数字类进行对应的函数,于是直接自己把类别和数字进行对应,返回的类别原创 2016-04-27 17:17:31 · 4847 阅读 · 0 评论 -
spark下的贝叶斯模型
贝叶斯模型调用函数比较简单,重点是数据格式的读取。还是在代码中说明吧import osimport sysfrom numpy import arrayfrom pyspark import SparkConffrom pyspark import SparkContext#from __future__ import print_function原创 2016-05-05 11:55:45 · 1200 阅读 · 0 评论