-tf.reduce_sum(one_hot_labels * log_probs, axis=-1)是什么损失函数？

原创于 2022-09-15 17:01:57 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习 #人工智能

Note 同时被 2 个专栏收录

59 篇文章

订阅专栏

杂记

43 篇文章

订阅专栏

本文解析了BERT代码中用Tensorflow1.x实现的loss function，重点讲解了负对数似然(NLL)的概念，并结合实例说明了如何计算和应用在模型训练中。

    log_probs = tf.nn.log_softmax(logits, axis=-1)
    one_hot_labels = tf.one_hot(labels, depth=num_labels, dtype=tf.float32)
    per_example_loss = -tf.reduce_sum(one_hot_labels * log_probs, axis=-1)
    loss = tf.reduce_mean(per_example_loss)

由于BERT代码当初是用Tensorflow1.x发布的，阅读代码时没太看懂这个loss function，经查证，是：
负对数似然(negative log-likelihood)

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

江南蜡笔小新

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Bert】（七）句子关系判断--源码解析（bert后处理模型+损失函数）

mjiansun的专栏

03-07

1379

论文：https://arxiv.org/pdf/1810.04805.pdf 官方代码：GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT Bert后处理模型

BERT学习笔记：run-pretraining.py

Dong Hsueh

06-12

5055

BERT 源码初探之 run-pretraining.py 本文源码来源于 Github上的BERT 项目中的 run_pretraining.py 文件。阅读本文需要对Attention Is All You Need以及BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding两篇论文有所了...

1 条评论您还未登录，请先登录后发表或查看评论

对tf.reduce_sum tensorflow维度上的操作详解

01-20

tensorflow中有很多在维度上的操作，本例以常用的tf.reduce_sum进行说明。官方给的api reduce_sum( input_tensor, axis=None, keep_dims=False, name=None, reduction_indices=None ) input_tensor:表示输入 axis:表示在那个维度进行sum操作。 keep_dims:表示是否保留原始数据的维度，False相当于执行完后原始数据就会少一个维度。 reduction_indices:为了跟旧版本的兼容，现在已经不使用了。官方的例子： # 'x' is [[1, 1,

tf.reduce_sum(tensor, axis=-1)

qq_39321513的博客

05-24

1942

一个很好的介绍的博客：彻底理解 tf.reduce_sum() - 简书 (jianshu.com) 代码举例： sess = tf.Session() tensor = [[[ 1 , 2 , 3 , 4], [ 5 , 6, 7 , 8], [ 9 , 10, 11, 12]], [[ 13, 14 ,15 ,16], [ 17 , 18 ,19, 20], [ 21, 22 ,23 ,24]]] import numpy as np c= tf.reduc.

理解tf.reduce_sum

lcczzu的专栏

01-04

3535

reduce_sum应该理解为压缩求和、抹去求和，用于降维什么是sum 什么是reduce 什么是维度(indices, 现在均改为了axis和numpy等包一致) 1. 什么是维度？什么是轴（axis）？如何索引轴（axis）？这是一个很大的问题，到底什么是维度呢？维基百科说：维度，又称维数，是数学中独立参数的数目。在物理学和哲学的领域内，指独立的时空坐标的数目。 0维是一点，没...

tf.reduce_mean的axis参数

Dzwfvz的博客

08-08

1331

tf.reduce_mean的axis参数 reduction_indices已经不推荐继续使用了，axis成为新的替代。 axis越大，代表计算的粒度越小，越深入。对于二维2*2的一个tensor，axis=None(得到四个数的平均)，axis=0(列方向求mean)，axis=1(行方向求mean) reduce_mean( input_tensor, axis=...

tf.reduce_sum()函数

薛定谔的AI

07-13

4250

reduce_sum( input_tensor, axis=None, keep_dims=False, name=None, reduction_indices=None ) reduce_sum 是 tensor 内部求和的工具。其参数中： input_tensor 是要求和的 tensor axis 是要求和的 rank，如果为 none，则表...

import tensorflow as tf from tensorflow.keras import layers, models from tensorflow.keras.utils import to_categorical from tensorflow.keras.callbacks import ReduceLROnPlateau, EarlyStopping, LambdaCallback import numpy as np import matplotlib import matplotlib.pyplot as plt matplotlib.rc("font", family="FangSong") import seaborn as sns from sklearn.metrics import confusion_matrix, classification_report import os # 确认 GPU 是否可用 print("GPU 可用数量:", len(tf.config.list_physical_devices('GPU'))) if tf.config.list_physical_devices('GPU'): print("GPU 已启用！") else: print("⚠️ 未检测到 GPU，将使用 CPU 训练") # 设置数据集缓存路径 os.environ['KERAS_HOME'] = os.path.join(os.getcwd(), 'datasets') # 加载并预处理 CIFAR-10 数据 (x_train, y_train), (x_test, y_test) = tf.keras.datasets.cifar10.load_data() x_train = x_train.astype('float32') / 255.0 x_test = x_test.astype('float32') / 255.0 y_train = to_categorical(y_train, 10) y_test = to_categorical(y_test, 10) #LeNET模型 model = models.Sequential([ # C1: 卷积层 - 6 个 5x5 卷积核 layers.Conv2D(6, kernel_size=(5, 5), activation='tanh', input_shape=(32, 32, 3)), # S2: 平均池化 layers.AveragePooling2D(pool_size=(2, 2), strides=2), # C3: 卷积层 - 16 个 5x5 卷积核 layers.Conv2D(16, kernel_size=(5, 5), activation='tanh'), # S4: 平均池化 layers.AveragePooling2D(pool_size=(2, 2), strides=2), # C5: 全连接式卷积层 layers.Conv2D(120, kernel_size=(5, 5), activation='tanh'), # 展平 layers.Flatten(), # F6: 全连接层 layers.Dense(84, activation='tanh'), # 输出层 layers.Dense(10, activation='softmax') ]) # 编译模型（只保留一次） model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.001), loss='categorical_crossentropy', # 因为 y 是 one-hot 编码 metrics=['accuracy']) # 打印模型结构 model.summary() # 定义回调函数 reduce_lr = ReduceLROnPlateau( monitor='val_loss', factor=0.5, patience=3, min_lr=1e-7, verbose=1 ) early_stopping = EarlyStopping( monitor='val_loss', patience=5, restore_best_weights=True, verbose=1 ) # 记录学习率 lr_list = [] lr_callback = LambdaCallback( on_epoch_end=lambda epoch, logs: lr_list.append(model.optimizer.learning_rate.numpy()) ) # 开始训练 print("开始训练...") history = model.fit( x_train, y_train, epochs=50, batch_size=64, validation_data=(x_test, y_test), callbacks=[reduce_lr, early_stopping, lr_callback], verbose=1 ) # 评估模型 test_loss, test_acc = model.evaluate(x_test, y_test, verbose=0) print(f"\n测试准确率: {test_acc:.4f}") print(f"测试损失: {test_loss:.4f}") # 绘制训练曲线 plt.figure(figsize=(15, 5)) # 准确率 plt.subplot(1, 3, 1) plt.plot(history.history['accuracy'], label='训练准确率') plt.plot(history.history['val_accuracy'], label='验证准确率') plt.title('模型准确率') plt.xlabel('Epoch') plt.ylabel('Accuracy') plt.legend() # 损失 plt.subplot(1, 3, 2) plt.plot(history.history['loss'], label='训练损失') plt.plot(history.history['val_loss'], label='验证损失') plt.title('模型损失') plt.xlabel('Epoch') plt.ylabel('Loss') plt.legend() # 学习率变化 plt.subplot(1, 3, 3) plt.plot(lr_list, label='学习率', color='purple') plt.title('学习率变化') plt.xlabel('Epoch') plt.ylabel('Learning Rate') plt.yscale('log') plt.legend() plt.tight_layout() plt.show() # 预测与混淆矩阵 y_pred_probs = model.predict(x_test) y_pred_classes = np.argmax(y_pred_probs, axis=1) y_true_classes = np.argmax(y_test, axis=1) cm = confusion_matrix(y_true_classes, y_pred_classes) plt.figure(figsize=(10, 8)) sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=[f'类{i}' for i in range(10)], yticklabels=[f'类{i}' for i in range(10)]) plt.title('混淆矩阵') plt.xlabel('预测标签') plt.ylabel('真实标签') plt.show() # 错误分类样本可视化 error_indices = np.where(y_pred_classes != y_true_classes)[0] print(f"共 {len(error_indices)} 个样本被错误分类") num_show = min(12, len(error_indices)) plt.figure(figsize=(15, 6)) for i in range(num_show): idx = error_indices[i] plt.subplot(2, 6, i + 1) plt.imshow(x_test[idx]) plt.title(f'真:{y_true_classes[idx]}, 预:{y_pred_classes[idx]}') plt.axis('off') plt.suptitle("错误分类的样本示例") plt.tight_layout() plt.show() # 分类报告 print("分类报告:") print(classification_report(y_true_classes, y_pred_classes, target_names=[f'类 {i}' for i in range(10)])) 改为Pytorch

最新发布

11-19

3. 定义损失函数、优化器。 4. 编写训练循环，包括验证过程。 5. 添加学习率调度、早停机制（Early Stopping）、学习率记录。 6. 绘图与结果分析（准确率、损失、混淆矩阵、错误样本可视化等）。下面是完整的 ...

import tensorflow as tf # 关键修复点 # 定义计算图 def compute_loss(): batch_size = 4 num_classes = 10 logits = tf.random.normal([batch_size, num_classes]) labels = tf.constant([3, 5, 0, 7], dtype=tf.int32) # 使用新API（方案B） loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)(labels, logits) return loss # 验证执行 print("Loss:", compute_loss().numpy())Loss: 2.9489765

04-25

manual_loss = -tf.reduce_mean(tf.math.log(tf.gather_nd(probs, tf.stack([tf.range(batch_size), y_true], axis=1)))) # 对比结果 print("TensorFlow 计算值:", tf_loss.numpy()) print("手动计算验证值:...

BERT学习笔记：run_classifier.py

Dong Hsueh

06-11

6668

BERT 源码初探之 run_classifier.py 本文源码来源于 Github上的BERT 项目中的 run_classifier.py 文件。阅读本文需要对Attention Is All You Need以及BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding两篇论文有所了解，...

Tensorflow-reduce_sum 函数 Axis 详解

BITDDD小栈

04-28

1430

编程过程中经常需要对数组进行处理，而sum又是经常需要用到的函数，sum函数传参时会用到axis参数，低维度还好，高维度经常容易混淆，本文基于TF，对数组sum时axis进行详解，即对哪个位置加，加完形状变什么样： Tip:tf只是用来调用生成结果，对axis的理解适合任意语言 Sum 首先明确axis的作用，axis参数是加和时用来固定的轴，也可以说是数学里的维度。常见的情形遇到的是...

tensorflow中 tf.reduce_mean函数

javascriptch的博客

07-09

266

https://blog.csdn.net/dcrmg/article/details/79797826

tf.reduce_sum理解（小记）

王猛的专栏

07-20

425

# 'x' is [[1, 1, 1] # [1, 1, 1]] #求和 tf.reduce_sum(x) ==> 6 #按列求和 tf.reduce_sum(x, 0) ==> [2, 2, 2] #按行求和 tf.reduce_sum(x, 1) ==> [3, 3] #按照行的维度求和 tf.reduce_sum(x, 1, keep_di...

tensorflow笔记：reduce_mean()函数axis参数理解

ahouahouahouahou的博客

09-22

1293

tensorflow学习笔记：reduce_mean()函数axis参数理解 tf.reduce_mean(input_tensor, axis=None, keepdims=False, name=None, reduction_indices=None) 作用：沿着张量不同的数轴进行计算平均值。看到不少答案感觉这个参数axis意义的解释不太清楚，只是说明了结果的规...

tf.reduce_sum()

weixin_41043240的博客

03-28

778

关于reduce有一系列的函数，为什么加了个reduce呢？ reduce翻译过来是归约，其效果也就相当于降维，比如二维矩阵按行求和，结果就是一个向量，少了一维，也就是会掉一层方括号。 Keepdims，这个参数会使其不掉那一层方括号，也就是保持维度数目，尤其适合操作结束要和其他同维度数据相加。 a = [[[1,2], [3,4], [5,6],[7,8]]] with tf.Sessi...

彻底理解 tf.reduce_sum()

weixin_45368686的博客

05-07

498

作者：xingzai 链接：https://www.jianshu.com/p/30b40b504bae 来源：简书 reduce_sum() 用于计算张量tensor沿着某一维度的和，可以在求和后降维。 tf.reduce_sum( input_tensor, axis=None, keepdims=None, name=None, reduction_indices=None, keep_di...

对于矩阵操作中axis的理解，以及axis=-1的解释

shenyuan12的专栏

08-26

515

1. axis的基本使用 axis常常用在numpy和tensorflow中用到，作为对矩阵（张量）进行操作时需要指定的重要参数之一。设定axis=-1,0,1...，用来指定执行操作的数据如何划分。一句话解释：设axis=i，则沿着第i个下标变化的方向进行操作！[1] 简单例子就不举了，其他博客有很多，这里举一个稍微复杂一点的三维矩阵的例子：设embeddings是一个shape=[3,4,5]的矩阵，如下： embeddings = [[[-0.30166972 0.2574174

tensorflow中交叉熵损失函数详解

little_fat_sheep

05-01

3065

1 前言 tensorflow中定义了3个交叉熵损失函数： softmax_cross_entropy_with_logits(logits, labels) softmax_cross_entropy_with_logits_v2(logits, labels) sparse_softmax_cross_entropy_with_logits(logits, l...

损失函数用这个loss_function=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=x_train,labels=y_train))

05-11

tf.nn.softmax_cross_entropy_with_logits()函数会对logits进行softmax计算，然后计算交叉熵损失，最后使用tf.reduce_mean()函数对所有样本的损失求平均值。这个损失函数的作用是衡量模型输出与真实标签之间的差距，...