文本生成中的 mask CrossEntropy -Tensorflow

最新推荐文章于 2024-10-20 10:42:01 发布

今天也是要加油的DD

最新推荐文章于 2024-10-20 10:42:01 发布

阅读量1.2k

点赞数

分类专栏：代码 Loss function 文章标签： tensorflow python

本文链接：https://blog.youkuaiyun.com/weixin_48354103/article/details/106666298

版权

本文介绍了在文本生成任务中，如何使用Tensorflow实现带有mask的CrossEntropy损失函数，以避免序列padding部分的影响。通过示例分别展示了没有mask和应用mask后的CE损失计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文本生成中的真实标签为 index，shape = [n_batch,]
输出的为概率分布，shape = [n_batch, num_decoder_tokens]
计算 loss 时应 mask 序列 padding部分

def categorical_CE_generation(max_len_char,n_decoder_tokens,idx_pad=0):
    def mask_categorical_crossentropy(y_true,y_pred):
        epsilon = K.epsilon()
        y_pred = K.clip(y_pred, epsilon, 1. - epsilon)#避免 loss 为nan
        # print (y_true,y_pred)
        y_true = tf.cast(tf.reshape(y_true,[-1,max_len_char]),tf.int32)
        y_pred = tf.reshape(y_pred,[-1,max_len_char,n_decoder_tokens])
        
        loss_ = tf.nn.sparse_softmax_cross_entropy_with_logits( labels = y_true,logits = y_pred)
        mask = tf.constant(idx_pad,dtype = tf.int32)
        loss_ = tf.boolean_mask(tensor = loss_, mask = tf.not_equal(y_true,mask)) 
        loss_CE = tf.reduce_sum(loss_)/tf.cast(tf.shape(y_true)[0],dtype=tf.float32)
        return loss_CE
    return mask_categorical_crossentropy

Example:

sess = tf.Session()

y_label_onehot = tf.convert_to_tensor([

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

今天也是要加油的DD

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

TensorFlow 2.0实现BERT文本分类模型：使用预训练的BERT模型进行文本分类任务

AI天才研究院

08-09

2229

2018年是NLP技术爆炸式发展的年代，自然语言处理（NLP）成为人工智能领域的一大热点。人们为了解决信息提取、文本处理、文本理解等诸多NLP任务而不断投入研发新的工具与技术。其中最火的当属预训练的BERT(Bidirectional Encoder Representations from Transformers)模型，它可以学习到大量的文本语义信息并用于许多NLP任务中，比如文本分类、文本匹配、序列标注等。

手把手写深度学习(17)：用LSTM为图片生成文字描述(Image-to-text任务)

沉迷单车的追风少年

09-15

3368

近年来text-to-image的任务非常火爆，大模型如Della、Imagen、GLIDE等都取得了良好的效果；其镜像任务image-to-text的相关研究却比较少，这篇博客手把手带大家用简单的LSTM网络搭建一个image-to-text系统。...

参与评论您还未登录，请先登录后发表或查看评论

tensorflow中mask

Deep Learning and NLP Farm

02-23

1万+

Question： Hi,Say I want to train some LSTM unit, and my training data has variable lengths with a maximum length of say, 30. What is the right thing to do?In TF we cannot dynamically create a computa

Tensorflow 2.0 自定义带mask的loss function

weixin_42175217的博客

03-10

3405

在做序列预测时，常常由于输入的（文本）序列长度不同，而需要padding到固定长度，于是就带来了大量的0，在计算loss的时候其实这些0的位置是多余，它们参与的loss计算是不准确的，于是就需要创建一个带mask的loss function来剔除掉这些0对loss计算的营销。 loss_object = keras.losses.SparseCategoricalCrossentropy( ...

BERT中是怎么做到只计算[MASK]token的CrossEntropyLoss的？及torch.nn.CrossEntropyLoss()参数

谁谓荼苦，其甘如荠

07-02

4650

nn.CrossEntropyLoss()的参数 torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction=‘mean’) weight：不必多说，这就是各class的权重。所以它的值必须满足两点： type = torch.Tensor weight.shape = tensor(1, class_num) size_average 、 reduce ：

利用文本探测（text-detection)手写一个文本区域mask的生成

BetrayFree的博客

08-17

333

今天遇到这样一个需求：需要针对用户输入的图片生成对应文本区域的mask，按理说这应该是一个很容易实现的问题。

Mask-RCNN ICCV2017

菜鸟中的菜中菜的博客

11-21

3147

Mask-RCNN ICCV2017 参考1 参考2 计算过程解读创新点 Mask R-CNN是在Faster R-CNN的基础上添加了一个预测分割mask的分支。将RoI Pooling 层替换成了RoIAlign层；添加了并列的FCN层（mask层），输出每个ROI的mask。使用ResNeXt-101+FPN用作特征提取网络，基础网络增强采用 ROIAlign 替代 RoiPooling（改进池化操作）。引入了一个插值过程，先通过双线性插值到14 * 14，再 pooling到 7 * 7。

Transformer文本生成与tensorflow实现

linchuhai的博客

05-10

1万+

1. 引言前面介绍了文本生成任务中的经典模型——Seq2Seq，以及一些常见的attention机制，虽然在文本生成任务中取得了相当出色的成绩，但是随着数据量的增大和语料长度的增大，RNN固有的序贯性严重阻碍了训练的速度，因此，本文将介绍另一个经典的模型——Transformer，该模型是由谷歌在2017年提出来的模型，模型完全摒弃了RNN和CNN的结构，只采用了attention的机制...

TensorFlow2.0实战笔记之（6）：Char RNN 文本生成

polyhedronx的博客

12-17

1932

1. 简介 Char RNN是一种字符级的循环神经网络，其本质是序列数据的推测，即通过已知的字符，预测下一个字符出现的概率并选取概率最大者为下一个字符。比如，已知hello的前四个字母hell，那我们就可以据此预测下一个字符很可能是o。因为是char级别的，并没有单词或句子层次上的特征提取，相对而言比较简单。根据Char RNN的特点，它可以用来写诗，写歌，生成文章，生成代码等。 2. 原理 2.1 RNN的原理 RNN（Recurrent Neural Networks），即循环神经网络。在实

语义分割中的 loss function 最全面汇总

zandaoguang的博客

05-24

1228

点击上方“视学算法”，选择加"星标"或“置顶”重磅干货，第一时间送达作者丨程序员阿德@知乎（已授权）来源丨https://zhuanlan.zhihu.com/p/101773544编辑丨极市平台导读本文总结了语义分割中的5个损失函数，详细介绍每个损失函数的使用场景以及特点。目录：cross entropy lossweighted lossfocal lossdice...

pytorch cross-entropy 用于图像分割（多类别）

CodeWorld

09-06

2775

1、predict_result and mask #我们假设每个像素点可能属于3个类别之一：0 or 1 or 2 #注意mask的shape=(1,2,2)，我们要指定batch_size:1，但是不用指定channel,不用对mask做one_hot处理 #四个像素：four piexls mask = torch.tensor([[[1,2],[2,0]]]) #网络的输出shape=（1,3,2,2），batch_size=1,channel=3 pre = torch.tensor(.

MMDetection内置损失函数、自定义损失函数以及如何修改配置信息

qq_41627642的博客

05-13

1792

MMDetection为用户提供不同的丢失功能。但是默认配置可能不适用于不同的数据集或模型，因此用户可能希望修改特定的损失以适应新的情况。计算管道的损失给定输入预测和目标，以及权值，损失函数将输入张量映射到最终损失标量。映射可以分为四个步骤: 设置采样方式为正采样和负采样。通过损失核函数获得元素或样本的损失。 3.明智地用一个权张量元素对损失进行加权。将损失张量降为标量。用标量对损失进行加权。 1、Set sampling method (step 1) 对于某些损失函数，需要采取抽样策略来避

小思考和小创新：自创一种小目标的分割和损失加权方法

人唯优的博客

04-11

2363

一.基本思路最近在整理小目标的检测和分割的方法的时候，想到了基于目标面积加权的一种思路，现在记录下，后面有机会验证下，基本思路如下： 1.找到mask里所有的目标轮廓 2.计算所有poly的面积 3.自适应阈值比例判断哪些是小物体 4.重新填充这些小物体 5.拿到新的mask后映射为权重图 6.根据权重图对CE进行小目标加权二.源代码 import cv2 import numpy as np import random import torch import matplotli.

医学图像分割中常用loss函数

qq_36201400的博客

10-29

5024

一、交叉熵损失函数-cross entropy 二分类交叉熵损失函数binary_crossentropy 其中,N为像素点个数,为输入实例的真实类别,为预测输入实例属于类别 1 的概率. 对所有样本的对数损失表示对每个样本的对数损失的平均值, 对于完美的分类器, 对数损失为 0。多分类交叉熵损失函数categorical_crossentropy ...

SegFormer使用的几点注意事项

weixin_48109360的博客

11-19

2324

1. 单机调整配置文件为‘BN’，在训练文件中添加如下配置： import torch.distributed as dist dist.init_process_group('gloo', init_method='./TEMP_BLANK', rank=0, world_size=1) TEMP_BLANK为任意无后缀空白文件。 2. 添加FocalLoss损失函数，路径为./mmseg/models/losses/cross_entropy_loss.py，同时添加__init__定义。

AIGC底层技术详解：以文本生成为例

cnzzs的博客

10-20

906

引言随着人工智能技术的快速发展，AIGC(AI-Generated Content)逐渐成为人们关注的焦点。从社交媒体上的自动生成回复到新闻报道的自动化撰写，AIGC正在改变我们创造和消费内容的方式。本文将深入探讨AIGC技术中的一个核心领域——基于Transformer架构的语言模型，并提供一个简单的Python实现，展...

基于知识库的问答KBQA：seq2seq模型实践

朝闻道

02-20

1083

0. 前言 0.1 问题描述基于知识图谱的自动问答（Question Answering over Knowledge Base, 即 KBQA）问题的大概形式是，预先给定一个知识库（比如Freebase），知识库中包含着大量的先验知识数据，然后利用这些知识资源自动回答自然语言形态的问题（比如“肉夹馍是江苏的美食吗”，“虵今年多大了”等人民群众喜闻乐见的问题）。 0.2 什么是知识库知识库（Knowledge Base），或者说，知识图谱（Knowledge Graph），是以知识为主要单位，实

交叉熵(cross_entropy)作为损失函数在神经网络中的作用