
文本分类
锦堇年
NLP学弱
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
文本分类学习笔记(1)- 概论
一、文本分类 一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。[1]中给出了多种文本分类的概念,参考其他资料发现主要有几点需要注意:第一,分类所需要的类别体系即类别及其标号是预先确定的;第二,一篇文档并没有严格规定只能被分配给一个类别,而是与分类这个问题的主观性有关,可以采用置信度来评估[2];第三,文本分类不等价与“判断一原创 2015-12-11 17:01:20 · 1198 阅读 · 0 评论 -
文本分类学习笔记(2)- 特征提取
文本分类学习笔记(2) 师兄提供了一组英文文本分类任务,正好拿来练手。 第一个问题就是文本的导入问题。数据格式为:每个类别一个文件夹,存放无后缀的文本文件,单词以空格切分。 自然的想法就是扫描文件夹下的所有文本,并将所有单词读入字典。 依据 http://www.jb51.net/article/52218.htm 中提供的方法,稍作修改得到如下方法:#!/usr/bin/python #原创 2015-12-11 17:07:37 · 1762 阅读 · 0 评论 -
文本分类学习笔记(4)- LR模型
LR分类器实现,多分类的softmax模型:#coding=utf-8 from scipy import sparse,io from sklearn.linear_model import LogisticRegression from sklearn.naive_bayes import MultinomialNB from sklearn import metrics from numpy原创 2016-02-29 20:42:26 · 1570 阅读 · 1 评论 -
文本分类学习笔记(5)- KNN
KNN分类器实现,运行极慢不推荐;#coding=utf-8 from numpy import * from scipy import sparse,io from sklearn.datasets import load_files from sklearn.cross_validation import train_test_split from sklearn.feature_extract原创 2016-02-29 20:48:08 · 651 阅读 · 0 评论 -
文本分类学习笔记(6)- 贝叶斯
贝叶斯分类器: 先验概率P(c)= 类c下单词总数/整个训练样本的单词总数 类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|) V是训练样本的单词表(即抽取单词,单词出现多次,只算一个),|V|则表示训练样本包含多少“个”单词。P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据,而P(c)则可以认为是类别c在整体上占多大比例原创 2016-02-29 20:57:08 · 675 阅读 · 0 评论 -
文本分类学习笔记(3)- 特征提取
#coding=utf-8 import os import nltk from nltk.corpus import wordnet as wn from numpy import * from math import exp from scipy import sparse,io from sklearn.linear_model import LogisticRegression import原创 2015-12-16 19:42:53 · 3019 阅读 · 0 评论