
NLP
文章平均质量分 74
Foneone
菜鸡养生记。
展开
-
TextCNN(文本分类)
TextCNN网络结构如图所示:利用TextCNN做文本分类基本流程(以句子分类为例):(1)将句子转成词,利用词建立字典(2)词转成向量(word2vec,Glove,bert,nn.embedding)(3)句子补0操作变成等长(4)建TextCNN模型,训练,测试TextCNN按照流程的一个例子。1,预测结果不是很好,句子太少2,没有用到复杂的word...原创 2020-01-10 13:44:18 · 4704 阅读 · 0 评论 -
cs224(2019)-assignment4(作业4)
作业4主要是NMT任务。原创 2022-09-28 21:49:13 · 862 阅读 · 0 评论 -
nn.embedding
https://www.cnblogs.com/lindaxin/p/7991436.html转载 2020-01-03 14:21:30 · 976 阅读 · 0 评论 -
BPE(Byte Pair Encoding)算法
BPE算法,最早应用于NLP任务出现于《Neural Machine Translation of Rare Words with Subword Units》这篇文章,是一种解决NMT任务中,出现OOV(out-of-vocabulary)的方法。在NMT任务中,如果出现OOV问题,最常见的就是back off to a dictionary。这篇文章使用了BPE算法后,不用退回到字典前就可以继...原创 2020-01-03 11:03:13 · 13680 阅读 · 1 评论 -
cs224-assignment1
其实作业很简单,但是头疼的问题是涉及到两个语料库的包,不太好下载。一个是NLTK中的语料库,一个是genism里面的“word2vec-google-news-300”。第一个能直接运行出来,第二个需要科学上网下载,为了方便使用,文末附链接。说明:我是个小白,代码可能不是简洁明了,仅作为自己的记录。Q1首先,先运行程序,确保import的包都在,且环境符合要求。然后读取NLTK中reut...原创 2019-11-27 22:11:52 · 744 阅读 · 3 评论 -
TF-IDF 及代码(一种衡量关键词权重的算法)
TF(Termfrequency)-词频,IDF(Inversedocumentfrequency)-逆文本频率TF-IDF是一种度量关键词权重的方法。主要的应用场景:(1)搜索(2)关键词提取(可用于文本分类)刚开始的时候利用的是词频来确定关键词的权重,即 词语在语料库中出现的频率。记作 ...原创 2019-11-17 17:59:04 · 2552 阅读 · 0 评论 -
word2vec------2019cs224N(Course One)
第一节课的主要内容是以下几个方面:1,简单介绍了一下WordNet,以及NLTK。2,介绍了一下ont-hot编码方式,其最主要的问题是未给出词汇之间的内在联系,而且是稀疏矩阵的形式 2005年google提出建立单词相似性表来解决这个没有内在联系的问题,但是表格太大。3,由于one-hot的缺点,所以有了word2vec4,利用2014年的一个语料库,和genism...原创 2019-11-02 00:22:09 · 430 阅读 · 0 评论 -
【转载】-Bag of Words(词袋模型)
转载自:https://blog.youkuaiyun.com/JYZ4MFC/article/details/81223572Bag of Words 即词袋模型,是对样本数据的一种表示方法,主要应用在 NLP(自然语言处理)和 IR(信息检索)领域,近年也开始在 CV(计算机视觉)发挥作用。该模型在表示样本数据时,可以假设假设:一个文档可以看作一袋子的单词,而不考虑其语法和词序关系,每个词都是独立...转载 2019-11-01 10:40:54 · 543 阅读 · 0 评论 -
统计语言模型(Statistical Language Model)-学习笔记
统计语言模型是自然语言处理(Natural Language Processing,NLP)的基础模型,是从概率统计角度出发,解决自然语言上下文相关的特性的数学模型。统计语言模型的核心就是判断一个句子在文本中出现的概率。模型假定S表示某个有意义的句子,由一连串特定顺序排列的词组成,这里n是句子的长度。现在,我们想知道S在文本中出现的可能性,即S的概率P(S),则。利用条件概率的公...原创 2019-10-31 19:19:30 · 10689 阅读 · 1 评论