
NLP
文章平均质量分 53
林子要加油
从事机器学习、NLP相关工作
展开
-
分类的损失函数为什么用交叉熵而不用MSE?
在NLP的应用中,分类算法是最常用的算法,而分类算法最常用的损失函数是交叉熵。为什么我们会用交叉熵作为分类算法的标配呢?在模型的训练过程中,最小化交叉熵意味着模型学到了什么?为什么不用均方误差(MSE)作为分类算法的损失函数呢?如果MSE不好,那其他的损失函数,比如合页损失(Hing Loss)呢?交叉熵最小话到底在学什么?博文中介绍了信息熵、KL散度、交叉熵,从信息论的角度解释了为什么可以用交叉熵来作为分类算法的损失函数。在机器学习中,实际上有三个概率分布:真实数据的分布、训练数据的分布、模型学习到原创 2021-04-10 23:38:03 · 2490 阅读 · 0 评论 -
史上最全命名实体识别(NER)教程
在NLP中,命名实体识别(Named Entity Recognization,NER)是一个非常重要的任务,比如信息抽取中,NER是第一步,首先识别出文本中的命名实体。在问答系统中,尤其是任务导向的问答或KBQA的第一步是就是命名实体识别,识别出实体在做下一步的槽填充。命名实体是什么?NER主流的算法是什么?NER的metric是怎么定义的?NER任务中的语料有哪些?NER任务语料NER的baseline模型:bilstm-cr算法原理是什么?序列标注之Bi-LSTM-CRF当使用基于B原创 2020-10-01 21:07:28 · 5011 阅读 · 1 评论 -
TextCNN
使用卷积进行文本分类:对句子进行Embedding,并进行padding,使得句子长度一致。网络架构第一层:Embedding第一层为输入层。输入层是一个 n∗kn *kn∗k 的矩阵,其中nnn为一个句子中的单词数,kkk是每个词对应的词向量的维度。也就是说,输入层的每一行就是一个单词所对应的kkk维的词向量。另外,这里为了使向量长度一致对原句子进行了padding操作。我们这里使用 xix_ixi表示句子中第iii 个单词的kkk维词嵌入。每个词向量可以是预先在其他语料库中训练好的,也可原创 2020-08-01 00:32:29 · 699 阅读 · 0 评论 -
最通俗易懂的Bert教程
文章目录一. transformer encoder0. Tansformer 整体感受1. positional encodingpositional \ encodingpositional encoding, 即**位置嵌入**(或位置编码);2. self attention mechanismself \ attention \ mechanismself attention mechanism, **自注意力机制**3. 残差连接和La原创 2020-05-30 00:45:13 · 2535 阅读 · 0 评论 -
pytorch Dataset与DataLoader
在模型训练或预测时,需要加载数据集,对数据集进行预处理,提取特征,并分批读取,在minibatch内对数据进行Padding。训练时用到的数据处理和预测时用到的数据的处理可以在同一个Dataset中,这样可以复用一些数据处理的函数。from torch.utils.data import Datasetclass MyDataset(Dataset): def __init__(self,is_train): pass def __getitem__(self, idx): pass d原创 2020-05-29 17:46:13 · 284 阅读 · 2 评论 -
模型训练过程中loss不减少
https://blog.youkuaiyun.com/zongza/article/details/89185852转载 2020-05-22 11:15:02 · 965 阅读 · 0 评论 -
文本分类
常用的方法传统机器学习方法,对文本做tf-idf处理svctree-based:RandomForest神经网络方法FasttextTextRNNTextCNN(字)TextCNN(词)Bert原创 2020-05-21 10:00:44 · 464 阅读 · 0 评论 -
事件抽取
文章目录一、事件抽取的定义二、ACE2005数据集事件类型一、事件抽取的定义命名实体识别、关系抽取、事件抽取是NLP中信息抽取的主要任务。事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘、自动问答、信息检索等领域有着广泛的应用。近些年来 ,事件抽取一直吸引着许多研究机构和研究者的注意力。MUC (Message Understanding Conference) 会议、ACE ( Automatic Content Extraction) 会议是典型的含有事件抽取任务的评测会议原创 2020-05-11 23:41:45 · 10483 阅读 · 2 评论 -
情感分析综述
情感分析与情感分类情感分析(sentiment analysis)是近年来国内外研究的热点,其任务是帮助用户快速获取、整理和分析相关评价信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理。情感分析包含较多的任务,如情感分类(sentiment classification)、观点抽取(opinion extraction)、观点问答和观点摘要等。因此很难简单地将其划归为某一个领域,往往...原创 2020-04-09 16:49:11 · 2708 阅读 · 0 评论 -
NER任务语料
微软亚洲研究院NER数据来源:MSRA版权:未知数据大小:13M样本个数:train:222万字,test:17万字人民日报1998.1.1~2000.12.31,及204年数据,分词之后的。来源未知版权未知Boson-NER-6c来源:https://bosonnlp.com/版权:不可商用数据大小样本个数:2000个段落下载:...原创 2020-03-23 18:45:36 · 1680 阅读 · 0 评论