分词
文章平均质量分 69
初夏11
机器学习小白
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于scikit-learn(sklearn)做分类--1.切词
原来看了很多例子,想做一个文本分类,大致是关于对网页内容进行分类,大约10个类。没有自己写程序,而是调用的包,主要是用的sklearn中的文本分类包,现在就把主要的程序贴上,供别人参考。 1、切词 首先是拿到文本进行切词,使用的是jieba分词,不过可以自己导入自定义词典。 import jieba import sys import os import re import原创 2016-04-27 16:20:07 · 1839 阅读 · 0 评论 -
spark下的分词--spark+jieba
在网上找到的相关的spark程序都是spark自带的实例,或者没有python相关的代码,根据自己业务上的使用与调研,现在把涉及的spark相关的程序给介绍一下: 首先1.spark下的切词。对于我这个spark小白来说,切词对我都是挺难的,因为没找到相关的实例。其实spark下是可以直接调用一下结巴jieba切词的。只不过格式要换一下。现在上一下代码: split_jieba2.py原创 2016-05-05 11:02:35 · 10974 阅读 · 4 评论
分享