
文本分类
文章平均质量分 95
Jasminexjf
learning
展开
-
中文词向量的训练
最近在做毕设,需要对中文进行向量化表示,现有的最全中文词向量预训练向量有:最全中文词向量part 1:以上链接中的词向量介绍:格式预先训练好的向量文件是文本格式。每行包含一个单词和它的向量。每个值由空格分隔。第一行记录元信息:第一个数字表示文件中的字数,第二个数字表示向量大小。除了密集的单词向量(用SGNS训练)之外,我们还提供稀疏向量(用PPMI训练)。它们与liblinear的...原创 2019-11-09 09:39:28 · 8076 阅读 · 0 评论 -
中文词向量学习记录-综述
最近打算准备毕设,所以需要仔细了解一下中文词向量的最近发展,发现一个比较完整的系列文章:参考原文链接:https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_finishedPaper Component-Enhanced Chinese Character Embeddings 这是一篇2015年发表在E...原创 2019-11-01 15:33:16 · 1106 阅读 · 0 评论 -
文本的tfidf值表示
做NLP的时候,如果用到tf-idf,sklearn中用CountVectorizer与TfidfTransformer两个类,下面对和两个类进行讲解:一、训练以及测试CountVectorizer与TfidfTransformer在处理训练数据的时候都用fit_transform方法,在测试集用transform方法。fit包含训练的意思,表示训练好了去测试,如果在测试集中也用fit_t...原创 2019-01-29 16:10:41 · 1487 阅读 · 0 评论 -
12篇文本分类的paper及代码复现(NLP必收藏)
Text ClassificationGithub id: https://github.com/DX2017/text_classification1 概述 1.1模型概览 1.2各模型效果对比: 1.4 代码用法:2 模型细节: 2.1 快速文本(fastText) 介绍 解释 ...原创 2018-09-22 21:22:10 · 6034 阅读 · 0 评论 -
文本分类中的卷积神经网络(CNN)的应用
谈到文本分类,就不得不谈谈CNN(Convolutional Neural Networks)。这个经典的结构在文本分类中取得了不俗的结果,而运用在这里的卷积可以分为1d 、2d甚至是3d的。 下面就列举了几篇运用CNN进行文本分类的论文作为总结。1 yoon kim 的《Convolutional Neural Networks for Sentence Classification》。(201...转载 2018-07-06 16:48:39 · 1284 阅读 · 0 评论 -
文本分类小结-V1.0
一、传统文本分类方法 文本分类问题算是自然语言处理领域中一个非常经典的问题了,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则(Pattern)进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,这样做的好处是短平快的解决top问题,但显然天花板非常低,不仅费时费力,覆盖的范围和准确率都非常有限。后来伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科...转载 2018-07-06 15:46:21 · 302 阅读 · 0 评论 -
利用skip-gram模型实现Word2vec
import tensorflow as tfimport numpy as npimport mathimport collectionsimport pickle as pklfrom pprint import pprintfrom pymongo import MongoClientimport reimport jiebaimport os.path as path...原创 2018-07-17 13:25:34 · 660 阅读 · 0 评论