
自然语言处理
文章平均质量分 68
qq_48566899
这个作者很懒,什么都没留下…
展开
-
<Legal Elements Extraction via Label Recross Attention and Contrastive Learning >------2023 6th Inte
这段描述的核心在于利用基于标签的对比损失(LCL)来改进法律文档及其关联LE标签的表示学习。通过这种方式,不仅可以提高模型对单个文档和标签之间关系的理解,还能捕捉到多个标签间的潜在语义联系,尤其是那些经常共同出现的标签。这有助于克服传统预训练模型词嵌入分布不均的问题,并提升整体模型的表现。若要详细了解具体的计算公式,通常需要查阅相关文献或论文的具体章节,因为不同的实现细节可能会有所不同。原创 2025-03-06 08:35:56 · 863 阅读 · 0 评论 -
阅读论文Parallel Instance Query Network for Named Entity Recognition
在命名实体识别(NER)任务中,“gold entities” 指的是已知的、正确的命名实体,如人名、地名、组织名等。它指的是作为标准或黄金标签的、在文本中被认可的实体。NER被视作手动构建查询语句来提取实体的阅读理解任务,但是每个查询语句提取一类实体不够高效,提取不同类型的实体缺乏考虑实体间的关系,查询语句构建依赖于外部知识难以应用到有多种类型实体的真实场景中。同样,在信息抽取任务中,“gold entities” 可能是已知的实体,如事件、关系或属性,可以用于模型的训练和评估。原创 2023-10-18 16:14:54 · 315 阅读 · 0 评论 -
hugging face tansformer实战篇-阅读理解任务
【代码】hugging face tansformer实战篇-阅读理解任务。原创 2023-10-16 11:35:28 · 214 阅读 · 0 评论 -
论文阅读---REALISE model
Tokenizer是一种文本处理工具,用于将文本分解成单个单词(称为tokens)或其他类型的单位,例如标点符号和数字。常用的tokenizer包括基于规则的tokenizer和基于机器学习的tokenizer,其中基于机器学习的tokenizer可以自动识别单词和短语的边界,并将其分解为单个tokens。GRU和LSTM在很多情况下实际表现上相差无几,那么为什么我们要使用新人GRU(2014年提出)而不是相对经受了更多考验的LSTM(1997提出)呢。原创 2023-08-29 16:43:14 · 1464 阅读 · 0 评论 -
seq2seq、attention、self-attention、transformer、bert
首先,训练第一个任务是,随机遮挡单词,然后通过梯度下降调参,让predict与被遮挡的单词尽量接近,所以这个训练无需人工标注,训练集自动生成,模型自动训练好参数。bert是为了预训练Transformer中的encoder, bert其实就是只有编码器的transformer。本文推荐看看shusenwang在bilibili上的课程。然后,训练第二个任务是,判断两个句子是否相连接。bert想法简单效果好,但是计算量特别大。原创 2023-07-21 17:49:32 · 541 阅读 · 0 评论 -
自然语言处理--入门
入门自然语言处理应用场景:语音助手机器翻译搜索引擎智能问答(AI客服)推荐系统文本预处理主要环节:文本处理的基本方法词向量表示方法文本语料的数据分析文本特征处理数据增强方法文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标流行的中英文分词工具hanlp:中英文NLP处理工具包, 基于tensorflow2.0, 使用在学原创 2021-12-13 11:08:48 · 227 阅读 · 0 评论 -
疫情数据情感分类,仿照推特文本生成,利用transformer进行摘要
一、疫情数据情感分类数据来源https://www.kaggle.com/datatattle/covid-19-nlp-text-classification1.读取数据import pandas as pdtrain = pd.read_csv('Corona_NLP_train.cs')train.isnull().sum()import seaborn as snsimport matplotlib.pyplot as plta=train['Sentiment'].value_原创 2021-12-11 20:28:31 · 866 阅读 · 0 评论 -
LSTM----IMDB影评数据集
IMDB影评数据集中含有来自IMDB的25,000条影评,被标记为正面/负面两种评价。embedding层输出500*32的矩阵,每个评论有500个单词,每个单词用32维的向量表示lstm的输出是32维的向量,是最后一个状态向量ht编译模型,拟合模型,测试...原创 2021-12-06 08:19:42 · 270 阅读 · 0 评论 -
基于微调BERT模型的新闻分类
%reload_ext autoreload%autoreload 2%matplotlib inlineimport os# os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID";# os.environ["CUDA_VISIBLE_DEVICES"]="0"; 采用ktrain库进行文本分类目前ktrain工具箱已经集成transformers库,可以调用transformers库中的方法和函数加载数据从sklearn库中导入fetch_20n原创 2021-11-22 08:23:33 · 666 阅读 · 0 评论 -
BART 文本摘要示例
采用BART进行文本摘要首先从transformers library导入BartTokenizer进行分词, 以及BartForConditionalGeneration进行文本摘要from transformers import BartTokenizer, BartForConditionalGeneration 这里,bart-large-cnn 是预训练的BART模型,模型大小约为1.6G(下载时间可能较慢,需耐心等待进度条).model = BartForConditionalGene原创 2021-11-22 08:16:06 · 3288 阅读 · 0 评论 -
Transformers实际应用案例
首先安装transformers>pip install transformersfrom transformers import pipelineAPI例子1–情感分类首先需要下载并缓存预训练模型classifier = pipeline('sentiment-analysis')尝试输入一段文本,预训练模型会给出相应的情感类别,和相应的置信度分数classifier('这部电影真的很垃圾,浪费我的时间!!!')classifier('this movie is rea原创 2021-11-01 08:23:16 · 368 阅读 · 0 评论 -
自然语言处理--模仿莎士比亚风格自动生成诗歌
导入需要的工具包诗词句子很短,每个of等词都有意义,不需要过滤词汇,所以预处理过程比较简短。import tensorflow as tffrom tensorflow.keras.preprocessing.text import Tokenizerfrom tensorflow.keras.preprocessing.sequence import pad_sequencesfrom tensorflow.keras.layers import Embedding, LSTM, Dense,原创 2021-10-11 08:54:51 · 966 阅读 · 0 评论