
nlp
文章平均质量分 53
GeekPlusA
打杂打杂打杂打杂打杂打杂打杂打杂打杂打杂打杂打杂打杂打杂打杂打杂
展开
-
huggingface-transformers实体识别训练自己的数据
NER任务@[TOC](NER任务)1. 制作自己的数据集2. 数据集处理3. 训练数据4. 优化模型 1. 制作自己的数据集 文本标注工具-brat安装以及标注自己的数据 标注后会生成相应的.ann文件内容 2. 数据集处理 处理后的数据集如下图所示 字符+空格+标签,每个句子之间有一个单独的换行。文件以utf-8的编码结构保存。一个训练集,一个开发集,一个测试集。 处理数据脚本step1_brat2bio.py # -*- coding: utf-8 -*- """ brat标注工具标注原创 2021-07-21 14:23:01 · 1445 阅读 · 0 评论 -
文本标注工具-brat安装
参考:Ubuntu16.04安装文本标注工具brat原创 2021-07-09 15:59:56 · 559 阅读 · 0 评论 -
nlp之transformer
人工智能的发展大概可以分为四个阶段 第一个阶段:运算智能,主要体现在记忆和计算 第二个阶段:感知智能,主要体现在听觉、视觉、触觉 第三个阶段:认知智能,具体体现在语言、知识、推理方面 第四个阶段:创造智能 transformer@[TOC](transformer)1. encoder2. decoder问题 1. encoder 2. decoder 问题 Transformer为何使用多头注意力机制?(为什么不使用一个头) Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同.原创 2021-07-07 11:03:39 · 205 阅读 · 0 评论 -
nlp之bert
bert学习1. 如何做预训练:MLM+NSPMLM(mask language model):掩码语言模型NSP2. 如何微调BERT3. 如何提升BERT在下游任务中的表现 1. 如何做预训练:MLM+NSP MLM(mask language model):掩码语言模型 AR(autoregressive) :自回归模型;只能考虑单侧的信息,典型的就是GPT P(我爱吃饭) = P(我)P(爱|我)P(吃|我爱)P(饭|我爱吃); AE(autoencoding):自编码模型;从损坏的原创 2021-06-28 14:47:58 · 168 阅读 · 0 评论