
NLP
文章平均质量分 59
丁叔叔
这个作者很懒,什么都没留下…
展开
-
NLP综述 抄
预训练模型2021原创 2021-09-27 10:11:32 · 104 阅读 · 0 评论 -
利用tf-idf计算文本相似度
文本相似度计算余弦相似度计算个体间的相似性,即将两个个体的特征向量化,通过余弦公式计算两者之间的相似性。原创 2021-02-21 15:24:18 · 20501 阅读 · 3 评论 -
NLP数据增强方法总结及实现
参考 https://blog.youkuaiyun.com/asialee_bird/article/details/961855041、数据增强数据增强是扩充数据样本规模的一种有效地方法,数据的规模越大、质量越高越好,模型才能够有着更好的泛化能力。2、简单数据增强(Easy Data Augmentation,EDA)(1)EDA方法同义词替换、随机插入、随机交换、随机删除。同义词替换(Synonym Replacement, SR):从句子中随机选取n个不属于停用词集的单词,并随机选择其同义词替换它们原创 2020-09-11 15:33:41 · 1398 阅读 · 0 评论 -
nltk使用方法总结
https://www.52nlp.cn/tag/nltk%E4%BB%8B%E7%BB%8Dhttps://www.52nlp.cn/author/baiboyhttps://www.cnblogs.com/baiboy/p/nltk1.htmlhttps://www.cnblogs.com/chen8023miss/p/11458571.htmlhttps://zhuanlan.zhihu.com/p/98808960https://blog.youkuaiyun.com/sunflower_sara/a原创 2020-08-28 17:53:15 · 1739 阅读 · 0 评论 -
NLP常用术语解析
分词(Segment):中英文都存在分词的问题,不过相对来说,英文单词与单词之间本来就有空格进行分割,所以处理起来相对方便。但是中文书写是没有分隔符的,所以分词的问题就比较突出。分词常用的手段可以是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。另外就是当下主流的统计机器学习的办法,利用HMM/CRF这一类的模型解决。词性标注(Label):基于机器学习的方法里,往往需要对词的词性进行标注。标注的目的是,表征词的一种隐状态,隐藏状态构成的转移就构成了状态转移序列。例如:苏宁易购/n 投资原创 2020-08-27 17:43:52 · 1110 阅读 · 0 评论 -
语义匹配
https://blog.youkuaiyun.com/lipengcn/article/details/85313971原创 2020-07-17 10:47:32 · 261 阅读 · 0 评论 -
文本分类 (使用NLTK的朴素贝叶斯分类)
主要就是文本分类问题,之前有写朴素贝叶斯,简单来说就是根据现有的数据,例如某些有多个西瓜,然后这些西瓜有多个特征,然后 西瓜有熟 的 和不熟的。然后分别计算每个条件 在某种情况下 的概率, 然后得到每个特征的概率,在此基础上 ,针对西瓜的特征进行计算得到最终的结果展示。这里举的例子使用NLTK来实现参考:https://mp.weixin.qq.com/s/ph5KbDxS7QR3I_ev-Js2RQ...原创 2020-07-16 15:01:53 · 735 阅读 · 0 评论 -
BIO BIOES序列标注区别
BIO标注模式: (B-begin,I-inside,O-outside)BIOES标注模式: (B-begin,I-inside,O-outside,E-end,S-single)原创 2020-07-14 11:01:11 · 2529 阅读 · 0 评论 -
HMM
维特比算法原创 2020-03-19 11:40:15 · 303 阅读 · 0 评论 -
情感分析
在NLP问题中,情感分析可以被归类为文本分类问题,这在前面提到过。主要涉及两个问题:文本表达和文本分类。在深度学习出现之前,主流的表示方法有BOW(词袋模型)和topic model(主题模型),分类模型主要有SVM(支持向量机)和LR(逻辑回归)。在文本分类模型方面,一般我们会使用传统机器学习方法,例如支持向量机(Support Vector Machines,SVM)、朴素贝叶斯(Naïve...原创 2020-02-25 18:11:52 · 230 阅读 · 0 评论 -
bug更改1
原创 2020-02-21 11:04:20 · 99 阅读 · 0 评论 -
NLP dream 系列总结 1 词的向量化
词袋模型就是类似有个集合中有很多个词,根据来的句子中的分词结果进行描述结果,然后生成一个向量,其实每个词出现了几次就是几,1 其中词袋的维度和最终的句子向量的维度是一样的2不能体现词前后位置NNLM词向量:是利用一定维度向量来表示某个词袋中所有词神经概率语言模型有某句话,然后根据前面一些词可以预测得到下个词是什么,其中通过softmax进行概率计算。神经网路语言模型 就是根据贝叶斯...原创 2020-02-18 18:10:44 · 275 阅读 · 0 评论 -
pyltp
github网址:https://github.com/HIT-SCIR/pyltp在线文档:https://pyltp.readthedocs.io/zh_CN/latest/api.htmlpyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。1分句使用 pyltp 进行分句示例如下from pyltp import S...原创 2020-02-11 21:10:04 · 555 阅读 · 1 评论 -
知识点补充
弹性搜索(elastic search)ES是一种数据库,最主要是提供了高效快速的模糊匹配的能力;tf-idf词频-逆词频 是一种基于词在当前文档和整体语料出现的频率情况,来评价该词体现当前文本信息量的手段;BM2.5类似 也是用于评价query和某个文档之间相关性的方法;在QA里,这三种方法都可以用于标准问的召回或粗排;通常来讲 这些方法都是基于词频的,差别不大。工程上会选择ES多一些,...原创 2020-02-10 10:15:24 · 113 阅读 · 0 评论 -
gensim
https://blog.youkuaiyun.com/DuinoDu/article/details/76618638原创 2020-01-19 11:14:54 · 221 阅读 · 0 评论 -
word embedding
一 词汇表征(word presentation)为什么要用word embeddingsone-hot 可以体现不同词,但是任意两个之间的成绩都为0,不能体现其特殊性,如果将之嵌入到能体现特点的向量中,可以体现例如 apple juice其之间的相似性,以此类推即可。二 词嵌入使用用处,根据在训练集中存在的例如 an orange framer 推断出来得到 durian cultiv...原创 2020-01-14 14:27:09 · 335 阅读 · 0 评论 -
语言模型和序列生成
语言模型 就是根据某几个单词预测下一个单词,选择概率高的为最终结果。构造RNN模型,开始输入为a0 x1 2个 0向量, 然后根据softmax得到第一个单词,然后将第一个RNN中单元的输出的y1 作为第二个RNN单元块中的输入x2,状态a1也进传到下一层,再次进行softmax 得到第二层的输出y 2,以此循环,得到整句。其中概率为每个单词的概率,形成该句话的概率是所有单词概率的成绩。...原创 2020-01-13 11:30:50 · 588 阅读 · 1 评论 -
分词
https://blog.youkuaiyun.com/qq_42045868/article/details/89512012jieba 安装 在D盘原创 2020-01-03 16:04:25 · 113 阅读 · 0 评论 -
中文分词
中文分词技术常见的有两大类:机械分词技术、基于统计的序列标注技术。机械分词技术操作简单、方便,比较省心,但是对于歧义词以及未登录词的效果并不是很好;统计模型的序列标注方法,对于识别未登录词拥有较好的识别能力,而且分词精度也比较大,同时这个方法可以不分中文、英语,着重看在语言前后顺序。https://blog.youkuaiyun.com/sinat_26917383/article/details/52...原创 2019-10-09 19:10:42 · 110 阅读 · 0 评论 -
句法分析
https://blog.youkuaiyun.com/sinat_26917383/article/details/55682996原创 2019-10-09 19:14:57 · 436 阅读 · 0 评论 -
语义分析
https://blog.youkuaiyun.com/sinat_26917383/article/details/55683599原创 2019-10-09 19:22:45 · 201 阅读 · 0 评论 -
语篇分析
https://blog.youkuaiyun.com/sinat_26917383/article/details/55683843#commentBox原创 2019-10-09 19:24:01 · 230 阅读 · 0 评论 -
LSTM
LSTM 是为了针对 梯度 问题 改进得到的。原创 2019-09-18 11:46:58 · 121 阅读 · 0 评论 -
吴恩达NLP 1
GRU有更新门和相关门,LSTM 更新门,遗忘门,输出门原创 2019-07-26 10:11:19 · 267 阅读 · 0 评论 -
single-pass
https://www.jianshu.com/p/d1a6b120205e分类使用原创 2019-09-27 15:17:23 · 1184 阅读 · 0 评论 -
DBSCAN聚类算法
https://blog.youkuaiyun.com/u011511601/article/details/81951939随机一个点进入,然后选择开始,如果周围在一定范围内有一定的点,可以当作一个类,然后新的点周围开始i聚类,直到没有点,然后寻找下个为访问过的点,直到所有点都被访问。https://blog.youkuaiyun.com/u013185349/article/details/82386113...原创 2019-09-27 14:54:42 · 175 阅读 · 0 评论 -
XLNet
自回归语言模型(Autoregressive LM)根据上文预测后面内容,或者根据后面预测前面的内容,这种LM被称为自回归语言模型。GPT 就是典型的自回归语言模型。ELMO尽管看上去利用了上文,也利用了下文,但是本质上仍然是自回归LM,这个跟模型具体怎么实现有关系。ELMO是做了两个方向(从左到右以及从右到左两个方向的语言模型),但是是分别有两个方向的自回归LM,然后把LSTM的两个方...原创 2019-08-07 15:21:32 · 350 阅读 · 0 评论 -
BERT
https://arxiv.org/pdf/1810.04805.pdf文章链接BERT,全称是Pre-training of Deep Bidirectional Transformers for Language Understanding。注意其中的每一个词都说明了BERT的一个特征。Pre-training说明BERT是一个预训练模型,通过前期的大量语料的无监督训练,为下游任务学习大...原创 2019-08-06 15:52:25 · 866 阅读 · 0 评论 -
ELMO BERT GPT
https://blog.youkuaiyun.com/Forlogen/article/details/92011185而NLP中的ELMO(Embeddings from Language Model )出自Matthew E. Peters, Mark Neumann等人发表在 NAACL 2018上的《Deep contextualized word representations》,它是一种基于R...原创 2019-08-05 15:52:45 · 331 阅读 · 0 评论 -
self-attention和attention区别
在一般任务的Encoder-Decoder框架中,输入Source和输出Target内容是不一样的,比如对于英-中机器翻译来说,Source是英文句子,Target是对应的翻译出的中文句子,Attention机制发生在Target的元素Query和Source中的所有元素之间。------------------------------------------------------------...原创 2019-08-05 09:42:13 · 10601 阅读 · 0 评论 -
吴恩达NLP(3) S2S
集束搜索方法假设B=3,则第一个单词存在三种情况,在10000个词库中,选择前3个概率最高的,然后在这三种情况下分别取找第二个单词,则会有3*10000=30000种情况,然后再在这些情况中找前三个较好的概率,然后分别再进行下个单词概率的选择,直至最后选择结束 eos该改进集束搜索blue翻译出来的结果每个词去之前的参考中去找出现过几次,如果翻译出来有7句话,那么就是7分之几次...原创 2019-07-22 17:24:13 · 331 阅读 · 0 评论 -
transformer
Seq2Seq model with “self-attention”原创 2019-08-06 14:14:18 · 168 阅读 · 0 评论 -
self-attention
在计算attention时主要分为三步,第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的attention。目前在NLP研究中,key和value常常都是同一个,即key=value。...原创 2019-08-02 19:09:30 · 26143 阅读 · 0 评论 -
EM算法
https://www.cnblogs.com/bigmoyan/p/4550375.html原创 2019-02-26 17:01:29 · 172 阅读 · 0 评论 -
特征提取方法: one-hot 和 TF-IDF
https://www.cnblogs.com/lianyingteng/p/7755545.htmlhttps://blog.youkuaiyun.com/zhaohaibo_/article/details/79170801https://blog.youkuaiyun.com/qq_35946969/article/details/84562104one-hotTF-IDF原创 2019-07-14 18:05:19 · 176 阅读 · 0 评论 -
Seq2Seq Attention模型
https://blog.youkuaiyun.com/qq_32241189/article/details/81591456Seq2Seq模型是RNN最重要的一个变种:N vs M(输入与输出序列长度不同)。这种结构又叫Encoder-Decoder模型。原始的N vs N RNN要求序列等长,然而我们遇到的大部分问题序列都是不等长的,如机器翻译中,源语言和目标语言的句子往往并没有相同的长度。为此...原创 2019-07-14 17:45:06 · 513 阅读 · 0 评论 -
NLP任务总结
可用水准:垃圾邮件检测,主题分类,命名实体识别,文本相似度,词性标注。可用与基本可用之间:关键短语提取,情感分析。基本可用:关键短语生成,方面分析?,实体链接,词义消歧,机器翻译,信息提取基本与难以之间:槽填充?,指代消解,对话,问答,释义,总结。https://zhuanlan.zhihu.com/p/50755570?utm_source=wechat_session&utm_...原创 2019-08-07 15:44:00 · 290 阅读 · 0 评论 -
transformer XL
https://new.qq.com/omn/20190130/20190130A0IPM1.htmlhttps://blog.youkuaiyun.com/candy134834/article/details/86693757https://blog.youkuaiyun.com/Magical_Bubble/article/details/89060213模型特点在 AI-Rfou 等人提出的vanil...原创 2019-08-15 15:29:17 · 875 阅读 · 0 评论 -
TF-IDF
https://blog.youkuaiyun.com/zhaomengszu/article/details/81452907https://www.cnblogs.com/KeepInUp/p/10098703.html这个例子很好跳出来词 然后计算每个的tf-idf 然后 选出来很多 词 得到一个向量,在此基础上进行 向量比较,得到结果其实这个是两个词的组合,可以拆分为TF和IDF。TF(Te...原创 2019-09-27 14:31:06 · 214 阅读 · 0 评论 -
聚类结果的评价指标
https://blog.youkuaiyun.com/loveliuzz/article/details/78783773原创 2019-09-27 10:57:51 · 1132 阅读 · 0 评论