
NLP自然语言处理
锅巴QAQ
三十年河东,三十年河西!
展开
-
FastText模型简解+THUCNews新闻快速分类实战
模型架构:和word2vec中的CBOW很相似, 即模型架构类似但是模型的任务不同。 使用fastText进行文本分类的同时也会产生词的embedding,即embedding是fastText分类的产物。与word2vec的CBOW类似。不同之处是fastText预测标签,而CBOW预测的是中间词,输入层:词和子词(subword)的n-gram的特征向量隐藏层:所有词的向量叠加求平均...原创 2020-04-08 17:26:23 · 1943 阅读 · 1 评论 -
TensorFlow2.0之还原lenet-5模型
最近课程需要,将lenet-5模型进行还原,但是网上博客大都根据原论文进行了自己的改进,不能满足还原的这个要求,所以按照论文结合TensorFlow2.0的API,将其还原。from tensorflow.python.client import device_lib device_lib.list_local_devices()The default version of Tensor...原创 2020-03-24 21:57:00 · 1492 阅读 · 0 评论 -
Word2vec+textrank---抽取式摘要生成
原项目地址:https://github.com/ztz818/Automatic-generation-of-text-summaries相关知识介绍:Word2Vec理论知识:https://blog.youkuaiyun.com/Pit3369/article/details/96482304中文文本关键词抽取的三种方法(TF-IDF、TextRank、word2vec):https://bl...原创 2020-03-14 17:47:31 · 1160 阅读 · 0 评论 -
文本摘要常用数据集和方法研究综述
文本摘要常用数据集和方法研究综述[1]侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(05):1-16.为了解决抽取式摘要方法缺少训练数据的问题,已有方法通常将用于生成式文本摘要的数据集进行简单转换,例如, Cheng等【参考文献6】将CNN/ Daily Mail数据集中的每篇文本中句子与生成式摘要句计算匹配度,匹配度较高的句子作为抽取式...翻译 2020-03-11 14:53:52 · 5148 阅读 · 0 评论 -
代码!以备不时之需!中文文本预处理(停用词、空格分隔、按行分类)
# 显示处理流程import logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)# 停用词文档stopwords_path = "G:/1研究生/news_stopwords.txt""""创建停用词列表"""def stopwordsli...原创 2020-03-02 12:44:49 · 2587 阅读 · 0 评论 -
gensim.models.LdaModel建立新闻的LDA模型并测试,附代码和文本数据
参考https://github.com/DengYangyong/LDA_gensim文本数据新闻数据:news_train.txt预处理后文本:news_train_jieba.txtstopwords停用词:news_stopwords.txt测试数据:news_test.txt数据在上面的参考github的data目录下。链接:https://pan.baidu.com/s...原创 2020-03-02 12:35:24 · 8509 阅读 · 9 评论 -
入门通俗易懂的神经网络语言模型(NNLM)详解
文章目录神经网络语言模型(NNLM)输入层(投射层)隐藏层输出层计算复杂度神经网络语言模型(NNLM)输入层(投射层)一个文本,由N个词语组成,现在呢:想根据 前N个词语 来预测 第N个词语 是啥?我们采用的语料库V(也就是我们最大限度能想到的的所有词语集合)包含10万个词语词向量W:是一个one-hot向量,大小=[10W,1],W(t)表示第t个词语的one hot(一个元素为1...原创 2020-02-26 11:45:07 · 4315 阅读 · 1 评论 -
Task05---循环和递归神经网络
为什么需要RNN(循环神经网络)参考:https://zhuanlan.zhihu.com/p/30844905神经网络只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。以nlp的一个最简单词性标注任务来说,将我 吃 苹果 三个单词标注词性为 我/nn 吃/v 苹果/nn。那么这个任务的输入...原创 2019-08-16 17:39:01 · 769 阅读 · 0 评论 -
Task1-影评文本分类
数据获取链接:https://pan.baidu.com/s/1yTuYtr2DJPEA-Mss_D3bXw提取码:674i包括IMDB数据集和数据集的索引获取json格式。下载IMDB数据集由TensorFlow打包。它已经经过预处理,单词序列就转换为整数序列,其中每个整数表示字典中的特定单词。由于网络原因,加载了已经下载好的**“IMDB.npz”**数据集#将IMDB数据集下载...转载 2019-08-06 20:52:14 · 374 阅读 · 0 评论 -
Word2Vec理论知识
词共现矩阵:import numpy as npwords = ["I", "like", "enjoy","deep" ,"learnig" , "NLP"," flying","."]X = np.array([ [0,2,1,0,0,0,0,0], [2, 0,0,1,0,1,0,0], [1,0,0,0,0,0,1,0], [0,1,0,0...原创 2019-07-26 21:39:51 · 419 阅读 · 0 评论 -
中文文本关键词抽取的三种方法(TF-IDF、TextRank、word2vec)
链接地址:https://github.com/AimeeLee77/keyword_extraction1、基于TF-IDF的文本关键词抽取方法词频(Term Frequency,TF)指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度,需要对给定词语进行归一化,即用给定词语的次数除以当前文件的总词数。逆向文件频率...转载 2019-07-12 16:11:43 · 24706 阅读 · 3 评论 -
word2vec
Word2Vec参考:http://yangapku.github.io/2016/05/11/gensim/model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)1)sentences: 我们要分析的语料,可以...原创 2019-07-11 20:24:52 · 310 阅读 · 1 评论 -
维特比算法
维特比算法是用于隐式马尔科夫模型HMM解码算法的,但是它是一个通用的求序列最短路径(动态规划)的方法,不光可以用于HMM,也可以用于其他的序列最短路径算法,比如最优分词。维特比算法需要找到从Start到End之间的一条最短路径。对于在End之前的任意一个当前局部节点,我们需要得到到达该节点的最大概率δ,和记录到达当前节点满足最大概率的前一节点位置Ψ。P(生|人)=0.17(在“人”为...原创 2019-07-11 20:15:57 · 721 阅读 · 0 评论 -
中文自动分词---HanLP+jieba
HanLp主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等等。Github地址:https://github.com/hankcs/HanLP安装教程:https://mp.weixin.qq.com/s/RQ2o15Bm_6qEGEBj3YR_kQdemo地址:https://github.com/hankc...原创 2019-07-06 20:41:07 · 729 阅读 · 0 评论 -
基于word2vec使用wiki中文语料库实现词向量训练模型--2019最新
目录一、数据获取二、将xml格式数据转为txt三、繁体转为简体方法1---自己使用opencc库手动了1个转换程序,pip install opencc进行安装方法2---网上有一个exe应用程序进行转换,详情见:https://bintray.com/package/files/byvoid/opencc/OpenCC四、分词五、Word2Vec模型训练六、W...原创 2019-07-11 15:05:41 · 3364 阅读 · 5 评论 -
sklearn.feature_extraction.text中常见 Vectorizer 使用方法以及Tf–idf 值获取
对于在tf-idf进行关键字提取的过程中,Scikit-learn提供了TFIDF算法的相关函数,本文主要用到了sklearn.feature_extraction.text下的TfidfTransformer和CountVectorizer函数。其中,CountVectorizer函数用来构建语料库的中的词频矩阵,TfidfTransformer函数用来计算词语的tfidf权值。本部分参考自...原创 2019-07-12 18:16:21 · 5215 阅读 · 0 评论 -
关键词提取算法
TF-IDF(Term Frequency - Inverse Document Frequency词频-逆文档频次)由TF算法以及IDF算法组成。TF算法:统计一个词在一篇文档内出现的频次,单词在文档中出现的次数越多,则其对文档的表达能力就越强。IDF算法:统计一个单词在文档集合中的多少个文档内出现过,其基本思想是(若单词在越少的文档中出现,则其对文档的区分能力也就越强)但是...原创 2019-07-09 11:07:02 · 1503 阅读 · 0 评论