
文本分类
番茄要去皮
业精于勤,荒于嬉;行成于思,毁于随。
认真学习,努力工作,快乐生活。
学习笔记。
展开
-
文本转化为向量
假如有一句话"I am a student"。用向量来表示每个单词,采用one hot 编码表示方式:I -> [1,0,0,0]am -> [0,1,0,0]a -> [0,0,1,0]student -> [0,0,0,1]我们会发现两个缺点:(1)单词向量之间的内积为0,它们相互独立。这与实际情况是矛盾的,单词之间是有一定的联系,比如woman与girl,...原创 2019-11-23 21:00:54 · 11901 阅读 · 0 评论 -
中文分词工具
jieba分词import jiebatext = '林花谢了春红,太匆匆。无奈朝来寒雨晚来风。胭脂泪,相留醉,几时重。自是人生长恨水长东。'result = '/'.join(jieba.cut(text, cut_all=False))print(result)jieba分词结果:林花谢/了/春红/,/太/匆匆/。/无奈/朝来/寒雨晚/来风/。/胭脂/泪/,/相留/醉/,/...原创 2019-11-07 21:44:15 · 4398 阅读 · 0 评论 -
文本分类(1)-文本预处理
在进行文本分类之前,需要对文本进行预处理。文本预处理过程大致分为以下几点:1、英文缩写替换预处理过程中需要把英文缩写进行替换,如it’s和it is是等价的,won’t和will not也是等价的,等等。text = "The story loses its bite in a last-minute happy ending that's even less plausible than ...原创 2019-05-05 20:56:03 · 16332 阅读 · 1 评论 -
文本分类(2)-基于传统机器学习方法进行文本分类
传统机器学习的文本分类通常提取TFIDF或者词袋特征,然后给模型进行训练,传统的机器学习的分类模型由很多,比如逻辑回归、支持向量机、多层感知机、贝叶斯等等。利用传统机器学习方法进行文本分类的基本思路:获取数据、数据预处理(上一篇博客已经讲过了https://blog.youkuaiyun.com/weixin_44766179/article/details/89855100)、特征提取、模型训练、预测。下...原创 2019-05-09 09:26:10 · 13100 阅读 · 3 评论 -
文本分类(3)-卷积神经网络(CNN)实现文本分类
# cnn实现垃圾邮件分类import warningswarnings.filterwarnings('ignore')import pandas as pdimport warningsimport reimport matplotlib.pyplot as pltfrom nltk.stem import WordNetLemmatizerfrom nltk.corpus ...原创 2019-05-16 20:06:32 · 9812 阅读 · 9 评论 -
统计词频
统计词频1、方法1import jiebaimport retext = ['今晚19:30《天下足球》直播互动话题:国家德比,巴萨取胜的关键之处?欢迎积极留言,我们将选择您的精彩留言与全国观众分享。', '德甲前四捉对厮杀,“罗贝里”复活拜仁大胜、门兴多特平分秋色。', '今晚《天下足球》19:30,直播内容:专题《欧洲杯豪门恩怨》;专题《名人堂:苏格拉...原创 2019-05-12 23:47:27 · 9022 阅读 · 0 评论 -
文本分类(4)-LSTM实现文本分类
利用LSTM对IMDB Reviwe文本进行分类,数据集可以在kaggle官网上获取,kaggle比赛import pandas as pdimport warningsimport reimport matplotlib.pyplot as pltfrom nltk.stem import WordNetLemmatizerfrom nltk.corpus import stopw...原创 2019-05-17 09:24:28 · 24311 阅读 · 5 评论 -
TextCNN
TextCNN在2014年,美国纽约大学的Yoon Kim提出了一种TextCNN模型,把卷积神经网络(CNN)用于文本分类,利用多个不同大小的卷积核来提取文本中的特征,从而能够更好地捕捉局部的相关性。论文地址:Convolutional Neural Networks for Sentence Classification1、网络结构TextCNN的详细原理TextCNN详细过程:...翻译 2019-07-14 10:20:20 · 6974 阅读 · 0 评论 -
词性标注
对中文进行词性标注步骤:读取文本读取停用词分词、删除停用词词性标注统计词频# 中文、词性标记、统计词频import reimport jiebaimport jieba.posseg as psegimport pandas as pdclass WordsCounter(): def __init__(self, filepath, path):...原创 2019-10-10 10:26:20 · 6280 阅读 · 2 评论