
知识图谱
文章平均质量分 64
buppt
公众号:BUPPT
展开
-
零基础入门--中文命名实体识别(BiLSTM+CRF模型,含代码)
自己也是一个初学者,主要是总结一下最近的学习,大佬见笑。中文分词说到命名实体抽取,先要了解一下基于字标注的中文分词。 比如一句话 “我爱北京天安门”。分词的结果可以是 “我/爱/北京/天安门”。那什么是基于字标注呢? “我/O 爱/O 北/B 京/E 天/B 安/M 门/E”。就是这样,给每个字都进行一个标注。我们可以发现这句话中字的标注一共...原创 2020-03-15 09:55:40 · 46283 阅读 · 56 评论 -
Bilstm+crf中的crf详解
本文是对bilstm+crf模型中的crf进行讲解,并不是完整的条件随机场的讲解。如果对命名实体识别还不清楚的同学,可以先看这篇文章。代码在这里。模型如下图所示。 我们已知lstm的输出就是每个字标注的概率。假设lstm输出概率如下所示。这里为了方便,只写了 BMEO 4种标注结果。更多的话也是相同的。 而crf首先在每句话的前面增加一个<start>字,在每句话的...原创 2018-08-30 20:57:38 · 13579 阅读 · 7 评论 -
零基础入门--中文实体关系抽取(BiLSTM+attention,含代码)
前面写过一片实体抽取的入门,实体关系抽取就是在实体抽取的基础上,找出两个实体之间的关系。本文使用的是BiLSTM+attention模型,代码在这里,不定期对代码进行修改添加优化。数据处理其实数据处理的方法有很多,我用的是近两年英文论文使用的比较多的词向量+位置向量的方法。中文实体关系抽取的数据实在是太难找了,我现在只有忘记在哪里找到的一个人物关系数据集。希望同学们能分享一些其他的数据集。...原创 2018-10-07 22:02:23 · 47669 阅读 · 75 评论 -
句子相似度计算笔记
最近用到了句子相似度的计算,把学到的在这里总结一下。句子相似度的计算常用的大概三种,一个TF-IDF,一个word2vector,还有在word2vector的基础上使用深度学习继续提取特征。TF-IDFTF-IDF感觉应该用在长文本或文章的相似度计算。词频(TF) 指某个词在句子(文章)中出现的次数。词频计算时一般会归一化,使用TF = 某个词在句子中出现的次数 / 句子的总词数。...原创 2018-11-27 15:59:47 · 2095 阅读 · 0 评论