
分词
文章平均质量分 69
初夏11
机器学习小白
展开
-
基于scikit-learn(sklearn)做分类--1.切词
原来看了很多例子,想做一个文本分类,大致是关于对网页内容进行分类,大约10个类。没有自己写程序,而是调用的包,主要是用的sklearn中的文本分类包,现在就把主要的程序贴上,供别人参考。1、切词首先是拿到文本进行切词,使用的是jieba分词,不过可以自己导入自定义词典。import jiebaimport sysimport osimport reimport原创 2016-04-27 16:20:07 · 1805 阅读 · 0 评论 -
spark下的分词--spark+jieba
在网上找到的相关的spark程序都是spark自带的实例,或者没有python相关的代码,根据自己业务上的使用与调研,现在把涉及的spark相关的程序给介绍一下:首先1.spark下的切词。对于我这个spark小白来说,切词对我都是挺难的,因为没找到相关的实例。其实spark下是可以直接调用一下结巴jieba切词的。只不过格式要换一下。现在上一下代码:split_jieba2.py原创 2016-05-05 11:02:35 · 10914 阅读 · 4 评论