
NLP
weixin_42774642
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
自然语言处理(NLP)一些任务的总结
本节总结一下NLP中常见的任务,从一个全局观来看看NLP:NLP任务总结一:词法分析分词 (Word Segmentation/Tokenization, ws): 在对文本进行处理的时候,会对文本进行一个分词的处理,下面是一个常用的词库。库 开源or商业 支持语言 分词 词性标注 命名实体识别 费用 HanLP 开源 J...转载 2020-03-02 16:35:43 · 1717 阅读 · 0 评论 -
bert 三个嵌入层如何实现
https://www.cnblogs.com/d0main/p/10447853.html目录引言 概览 Token Embeddings 作用 实现 Segment Embeddings 作用 实现 Position Embeddings 作用 实现 合成表示 结论 参考文献本文翻译自Why BERT has 3 Embedding Lay...转载 2020-01-14 11:12:38 · 1393 阅读 · 0 评论 -
模拟退火
//根据标记,进行分割操作、可以是分句或者分词def segment(text, segs): words= [] last = 0 for i in range(len(segs)): if segs[i] =='1': words.append(text[last:i+1]) last = i+1 words...转载 2020-01-14 10:04:46 · 131 阅读 · 0 评论 -
NLP中mask矩阵
mask矩阵是什么?是一个由0和1组成的矩阵。一个例子是,在自然语言处理(NLP)中,句子的长度是不等长的,但因为我们经常将句子组成mini-batch用以训练,因此那些长度较短的句子都会在句尾进行填充0,也即padding的操作。一个mask矩阵即用以指示哪些是真正的数据,哪些是padding。如:图片来源:Theano:LSTM源码解析其中mask矩阵中1代表真实数据;0代表paddin...转载 2020-01-14 09:47:18 · 656 阅读 · 0 评论 -
nlp中的segment
分词是一个更普遍的分割问题的一个实例。在这里我们还会看到分割问题的另外两个实例2.断句#NLTK的Punkt句子分割器sent_tokenizer=nltk.data.load(‘tokenizers/punkt/english.pickle’)text=nltk.corpus.gutenberg.raw(‘chesterton-thursday.txt’)sent...转载 2020-01-14 09:45:55 · 793 阅读 · 0 评论