
NLP
樱与刀
萌系
展开
-
关于文本分类(情感分析)的中文数据集汇总
文本分类(情感分析)中文数据集汇总这段时间在公司NLP组里实习,相应的开始学习了一些NLP的知识,并搜索了一些关于NLP中文本分类领域的相关数据集,本文主要列举一些中文数据集。关于英语数据集,且听下回分解。1.THUCNews数据集:THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们...原创 2019-07-14 16:08:14 · 57436 阅读 · 15 评论 -
使用conda&pip创建与管理环境
使用conda&pip创建与管理环境1.在Linux系统中创建虚拟环境在这里,默认大家已经安装好了anaconda或者miniconda,并可以使用conda命令。1.1 在默认/home位置上建立虚拟环境conda create -n env_name python=x.x其中,env_name是你想要创建环境的名字,以便日后你可以使用名字来激活相应的环境,比如你可以将其替换...原创 2019-07-31 15:21:36 · 1751 阅读 · 0 评论 -
关于文本分类(情感分析)的英文数据集汇总
关于文本分类(情感分析)的英文数据集汇总20 Newsgroups数据集:The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups. The data is o...原创 2019-07-31 16:21:32 · 11273 阅读 · 0 评论 -
nltk 报错[nltk_data] Error loading stopwords: hostname
nltk 报错[nltk_data] Error loading stopwords: hostname,采用下面代码下载stopwords来解决import nltkimport ssltry: _create_unverified_https_context = ssl._create_unverified_contextexcept AttributeError: ...原创 2019-08-01 09:54:52 · 9256 阅读 · 2 评论 -
NLP:语言表示之词向量——从onehot到word2vector:CBOW和Skip-Gram
入门NLP:语言表示之词向量——从onehot到word2vector笔者在入学期间从计算机视觉方面来学习深度学习理论,然后在一次实习中,恰巧接触到了NLP领域,并从事了NLP文本分类相关的工作,之后的几篇帖子中也会较为详细的介绍一下相关知识,以便自己更好的梳理。在计算机视觉中,我们处理的数据为图片,其中图片本身就是像素矩阵,也就是说本身为一种数值,可以直接拿来进行相关的处理,但是NLP中要处...原创 2019-08-27 17:34:49 · 2124 阅读 · 1 评论 -
文本分类深度学习算法:FastText、TextCNN、TextRNN、RCNN、HAN
文本分类深度学习算法:FastText、TextCNN、TextRNN、RCNN、HAN、bert等这里综述了一些常用的关于文本分类的深度学习算法,其中包括:FastText、TextCNN、TextRNN、RCNN、HAN、bert的原理的简要介绍,以及相关的代码链接。由于作者比较懒,就放上自己的知乎链接,有需要的点进去即可。知乎:https://zhuanlan.zhihu.com/p/...原创 2019-09-08 20:30:25 · 3512 阅读 · 0 评论