
自然语言处理(NLP)
SZU_Hadooper
数据挖掘工程师
展开
-
BERT八个基本知识
转载一片朋友对bert的总结:(1)BERT 的MASK方式的优缺点?答:BERT的mask方式:在选择mask的15%的词当中,80%情况下使用mask掉这个词,10%情况下采用一个任意词替换,剩余10%情况下保持原词汇不变。优点:1)被随机选择15%的词当中以10%的概率用任意词替换去预测正确的词,相当于文本纠错任务,为BERT模型赋予了一定的文本纠错能力;2)被随机选择15%的词当中以10%的概率保持不变,缓解了finetune时候与预训练时候输入不匹配的问题(预训练时候输入句子当中有mask,转载 2020-05-28 18:17:58 · 1252 阅读 · 0 评论 -
实体消岐和实体统一
定义:实体消歧的本质在于一个单词很可能有多个意思,也就是在不同的上下文中所表达的含义可能不太一样。简单实现首先我们需要准备一个类似于下面的这种实体库:id 实体名 实体描述1001 苹果 美国一家高科技公司,经典的产品有Iphone手机1002 苹果 水果的一种,一般产自于…… … …| id|实体名 |实体描述||1...转载 2020-03-30 15:27:18 · 799 阅读 · 0 评论 -
准确率,正确率,召回率,F1
图片: https://uploader.shimo.im/f/cjCOsP5mQmQdPf0b.png评价标准:图片: https://uploader.shimo.im/f/MkOxSxEbgjYp0EDo.png图片: https://uploader.shimo.im/f/j8Y0nh87ulAOcWFN.png图片: https://uploader.shimo.im/f/nSU...原创 2020-03-12 18:35:39 · 634 阅读 · 0 评论 -
TF-IDF(文档向量化)
TF-IDF(文档向量化)标签(空格分隔): 数据挖掘名称解释CF: 文档集的频率,是指词在文档集中出现的次数。 DF: 文档频率,是指出现词的文档数。 IDF: 逆文档频率,idf=logNdfidf=log\frac{N}{df},N为所有文档的数目。 TF : 词T在文档中的次数(频度) TF-IDf = TF * IDFTF值归一化 Doc1 Doc2 Doc3原创 2017-12-02 00:03:38 · 3761 阅读 · 0 评论 -
attetion 入门
attetion 入门attention 计算 List itemattention 计算attetion函数的本质可以描叙为一个查询(query)与键(key)值(value)一起的一个输出。attatetion(Q,K,V)=softmax(QKTdk)Vattatetion(Q,K,V)=softmax(\frac{QK^T}{\sqrt d_k}) Vattatetion(Q,...原创 2019-01-15 21:40:30 · 697 阅读 · 0 评论 -
词向量模型
one_hotapple=[0,0,0,…,1,0,0,0]oriange=[0,0,1,0,…,0,0,0]这种方法首先对进行单词进行词频排序,让后对每个单词建立一个和词库大小的向量,这种犯法无法表达单词的重要程度,并且每个维度很大,与词库大小相等。tfidftf:文档中词出现的词频idf:词在所有文旦中出现的频率的倒数,主要用于降低所有文档中一些常见词对文档影响的作用,比如(a,an,the)这种方法在通过词频计算的方式定义每个词的向量,某种程度上给与词一个权重,可以用作关键词提取。但是t原创 2017-12-22 23:09:22 · 590 阅读 · 0 评论 -
Pytorch之Bert文本分类(一)
本文主要是针对入门级别的Bert使用,包括英文文本分类和中文文本分类。英文部分使用BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding中的Cola数据集,任务如下图这个数据集包括四列:[‘sentence_source’, ‘label’, ‘label_notes’, ‘sente...原创 2019-09-29 15:43:45 · 14206 阅读 · 11 评论 -
Pytorch之Bert中文文本分类(二)
本文主要是针对入门级别的Bert使用,包括英文文本分类和中文文本分类。这部分主要使用Bert进行情感分析,属于中文文本分类,同样使用BertForSequenceClassification数据集中包括三个情感分类等级[-1,0,1]流程和第一部分一致,主要修改地方是在Bert的config文件中将类别设置成3,并将数据集中的[-1,0,1],变化成[0,1,2]的形式,bert的预训练模...原创 2019-09-29 16:40:44 · 11236 阅读 · 6 评论 -
Pytorch之Bert文本分类(三)
Bert文本分类流程化使用这章节主要介绍huggingface关于bert的流程化使用,主要针对run_glue.py文件进行讲解。这个文件中包括5个模型的使用,bert,xlnet,xlm,roberta,distilbertMODEL_CLASSES = { 'bert': (BertConfig, BertForSequenceClassification, BertToken...原创 2019-10-10 22:12:13 · 5291 阅读 · 0 评论