关于Balanced-MixUp是自定义的交叉熵损失函数

最新推荐文章于 2025-12-19 20:13:51 发布

原创最新推荐文章于 2025-12-19 20:13:51 发布 · 349 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习 #人工智能

代码理解专栏收录该内容

32 篇文章

订阅专栏

Balanced-MixUp的自定义的交叉熵损失函数

def cross_entropy_loss(input: torch.Tensor,
                       target: torch.Tensor) -> torch.Tensor:
    return -(input.log_softmax(dim=-1) * target).sum(dim=-1).mean()

官方的 `nn.CrossEntropyLoss()`

import torch.nn as nn

criterion = nn.CrossEntropyLoss()

主要区别

输入类型和形状：
- 自定义函数：假设 input 是一个具有 logits 的张量，形状为 (batch_size, num_classes)，而 target 是独热编码的标签，形状也是 (batch_size, num_classes)。
- 官方函数：假设 input 是一个具有 logits 的张量，形状为 (batch_size, num_classes)，而 target 是一个长整型张量，形状为 (batch_size)，每个值表示对应样本的类索引。

mixup的相关操作是怎样将类索引标签变成独热编码的

mixed_labels = (1 - lam) * F.one_hot(labels, n_classes) + lam * F.one_hot(balanced_labels, n_classes)

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

pythonSuperman

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

MATLAB算法实战应用案例精讲-【图像处理】小目标检测（补充篇）(附python代码实现)

qq_36130719的博客

01-16

3524

随着深度学习的发展，基于深度学习的目标检测技术取得了巨大的进展，但小目标由于像素少，难以提取有效信息，造成小目标的检测面临着巨大的困难和挑战. 为了提高小目标的检测性能，研究人员从网络结构、训练策略、数据处理等方面展开了大量的研究，并取得了一定的进展. 然而，与大、中目标检测相比，目前小目标的检测性能依然存在着较大的差距.目标尺度是影响目标检测性能的重要因素之一. 目前，无论在公开数据集还是现实世界采集的图像中，小目标的检测精度远远低于大目标和中等尺度目标，并经常出现漏检和误检. 但小目标检测在许多实际场景

数据增强之mixup算法详解

热门推荐

sinat_36618660的博客

09-28

5万+

论文地址：mixup: BEYOND EMPIRICAL RISK MINIMIZATION (一)、什么是数据增强？ (1). 数据增强主要指在计算机视觉领域中对图像进行数据增强，从而弥补训练图像数据集不足，达到对训练数据扩充的目的。 (2). 数据增强是一种数据扩充方法，可分为同类增强（如：翻转、旋转、缩放、翻译、模糊等）和混类增强（如mixup）两种方式。 (二)、同类数据增强方式主要有哪些...

参与评论您还未登录，请先登录后发表或查看评论

balanced-match 源码解析

超悠閒的博客

11-16

575

balanced-match 源码解析文章目录balanced-match 源码解析正文0. 基本信息0.1 Usage0.2 Version: v2.0.00.2 Doc1. 源码解析1.0 源码项目结构1.1 主入口1.2 balanced1.3 maybeMatch1.4 range其他资源参考连接阅读笔记参考正文 0. 基本信息 0.1 Usage balanced-match 这个库的目标很简单：匹配第一个符合条件的一对字符串，同时将其拆解成前、中、后等三部分 0.2 Version: v2.

基于Mask R-CNN的香蕉叶黑斑病检测实战

JicasdC123asd的博客

12-15

681

本文提出了一种改进的Mask R-CNN算法用于香蕉叶黑斑病检测。通过引入Group Normalization替代Batch Normalization，优化特征金字塔网络结构，并改进损失函数，显著提升了模型在小批量训练稳定性、多尺度特征提取和小目标检测方面的性能。实验结果表明，改进算法在自建数据集上mAP达到85.0%，小目标F1-score提升至71.5%。研究还开发了原型检测系统，在复杂环境下保持85%以上的准确率，为农业病害智能检测提供了有效解决方案。

AI Challenger 2018 农作物病害细粒度分类-----Pytorch 深度学习实战

一只小包子的博客

11-12

2万+

AI Challenger 2018 农作物病害细粒度分类比赛地址数据集地址密码： 4ac2 1 前言 2 代码组织结构 3 完整流程解析 &amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp

目标检测常用算法原理+实践精讲---学习笔记以及人脸检测相关问题总结

聪哥965

02-03

3327

文章目录1.传统目标检测方法1.1 Viola-Jones (人脸检测)1.2 HOG+SVM (行人检测、Opencv实现)1.3 DPM (物体检测)2.One stage2.1 Yolo体系变化2.2 YOLO网络结构是怎样的？2.3 YOLO的输入、输出、损失函数分别是什么？2.4 YOLO怎样预测？2.5 YOLOv3不使用Softmax对每个框进行分类的原因？2.6 YOLOv3的架构2.7 为什么SSD对小目标检测效果不好?3.Two stageFaster R-CNNFaster RCNN的

[面经整理]（机器/深度学习篇）

weixin_38800498的博客

04-30

5503

文章目录特征工程为什么需要做特征归一化、标准化？常用的归一化和标准化的方法有哪些？模型评估欠拟合、过拟合及如何防止过拟合陆续更新。。。特征工程为什么需要做特征归一化、标准化？参考链接多维情况下可以分解成多个维度上分别下降，参数W为向量，但学习率只有1个，即所有参数维度共用同一个学习率（暂不考虑为每个维度都分配单独学习率的算法）。收敛意味着在每个参数维度上都取得极小值，每个参数维度上的偏导数都为0，但是每个参数维度上的下降速度是不同的，为了每个维度上都能收敛，学习率应取所有维度在当前位置合适步长

17、深度学习中处理数据不平衡的技术方法

red88的博客

09-03

本文详细探讨了深度学习中处理数据不平衡问题的多种技术方法，涵盖数据层面和算法层面的策略。从随机过采样、数据增强到类权重调整、损失函数修改（如Focal Loss和LDAM Loss），以及元学习和集成学习等高级技术。文章提供了具体的代码示例和实践建议，旨在帮助开发者有效应对不平衡数据带来的挑战，提升模型性能。

深度学习路线总结 (含链接)

2301_79695159的博客

07-25

1746

深度学习资料链接总结

类别极度不平衡如何破？加权损失函数优化脊椎边界的4种有效方案

本文系统阐述加权损失函数的理论基础与设计原理，剖析其通过调整类别权重重塑决策边界的作用机制，并深入比较四种典型加权方案：静态频率加权、Focal Loss难例强化、自适应动态加权（CB Loss）与边界感知混合加权。...

python __init__.py的意义与使用

CoolGirl

12-19

638

本文介绍了Python中利用__init__.py文件优化模块导入的两种方式。当__init__.py中已导入子模块时，外部可直接使用简洁导入语句（如from project.input import FileInput）；若未导入则需完整路径导入。通过示例对比展示了不良设计（需完整路径导入每个子模块）和良好设计（在__init__.py中集中导入并定义__all__），后者使主程序导入更简洁清晰。合理使用__init__.py能显著提升代码可读性和维护性。

MobaXterm 高效运维实战：从入门到进阶的 Linux 运维 “瑞士军刀” 用法

hy行者勇哥的博客

12-18

796

MobaXterm 作为 Linux 运维的 “全能工具包”，不仅集成了 SSH 终端、SFTP 文件传输、X11 图形转发等基础功能，更隐藏着批量执行、宏命令、会话分组等高级特性，能轻松解决新手常遇到的 “重复操作繁琐”“多服务器切换麻烦”“文件传输低效” 等痛点。本文用 “运维指挥中心” 的通俗比喻，拆解 MobaXterm 的核心架构，针对 Linux 运维中的高频问题，分享可直接上手的高级技巧与自动化脚本案例，帮助新手快速从 “手动跑腿” 升级为 “高效指挥”，大幅提升运维效率。

[Python实战] 解决Outlook同步中的字符编码问题：表情符号也能正确处理了！

每日出拳老爷子的博客

12-16

233

摘要：本文分享了在使用Python同步Outlook会议信息时遇到的GBK编码问题解决方案。当处理包含表情符号（如📧）的会议内容时，Flask返回JSON会报"'gbk' codec can't encode"错误。作者通过封装ensure_utf8函数对文本进行UTF-8编码处理，同时建议设置Flask响应头编码为UTF-8和调整控制台输出编码，有效解决了特殊字符导致的编码异常问题。文章提供了从问题分析到完整解决方案的实践过程，适用于处理Python中的Unicode编码问题。

《Python实战小课：爬虫工具场景——开启数据抓取之旅》导读

2501_93253814的博客

12-15

3260

本文介绍了Python爬虫技术在三大场景中的应用：行业资讯爬取、学术文献摘要获取和电商评价收集。针对行业资讯，详细解析了从网页请求到数据存储的全流程；在学术文献方面，重点阐述了如何构建搜索请求和提取关键信息；对于电商评价，则说明了数据定位和清洗方法。文章还探讨了爬虫优化策略及反爬机制应对方案，为数据获取工作提供了实用指南。通过系统学习这些技术，读者可以提升数据采集能力，为商业决策、学术研究和市场分析提供有力支持。

【FastAPI】FastAPI依赖注入完全指南

weixin_63434398的博客

12-18

2520

本文全面介绍FastAPI的依赖注入机制，主要包含两大注入方式：原生自动注入和Depends自定义注入。原生注入支持Request/Response等框架对象以及路径/查询参数等自动解析，而Depends则用于自定义依赖项注入。文章详细讲解依赖注入的核心思想、实现方式、生命周期管理、高级技巧，并通过完整认证系统案例展示实战应用。最后剖析Depends底层原理，并与Spring框架进行对比，帮助开发者彻底掌握FastAPI这一核心特性，实现代码解耦和高效开发。

《Python 数据序列化与反序列化全景解析：从基础到最佳实践》

windowshht的博客

12-17

1021

本文全面解析Python数据序列化与反序列化技术，涵盖JSON、Pickle、CSV、YAML等常见格式，并深入探讨自定义序列化、异步处理、分布式系统应用等高级主题。通过实战案例展示Web API交互、机器学习模型保存、自动化配置管理等场景的最佳实践，同时展望Protocol Buffers等前沿技术。文章既适合初学者掌握基础，也为资深开发者提供性能优化与安全合规的进阶指导，是Python数据处理领域的实用指南。

【VSCode | python | anaconda | cmd | PowerShell】在没有进入conda环境时使用conda命令默认安装位置

最新发布

十二_的博客

12-19

142

Conda和pip的默认安装位置取决于环境状态：未激活conda环境时，conda安装到base环境（Anaconda目录下的site-packages），而pip会使用系统默认Python或PATH中的第一个Python；激活conda环境后，两者都会安装到当前环境的site-packages目录下。环境路径示例显示base环境与自定义环境（如myenv）的安装位置差异。

Ubuntu 24.04 安装common-extensions

sinat_15561283的博客

12-17

309

👉 这就解释了为什么 apt 一直“找不到”这不是你配置错，也不是你操作错，是。只要能看到帮助信息，就说明。✅ colcon 被。在 24.04 上，

旋转矩阵与欧拉角转换数学公式与代码详解

Tipriest的博客

12-15

910

本文介绍了欧拉角与四元数之间的转换方法，重点针对Z-Y-X顺序（yaw-pitch-roll）的航空/机器人学常用约定。首先通过数学推导给出了欧拉角转四元数的公式，并详细说明了四元数转欧拉角的计算过程，特别处理了万向节锁情况下的数值稳定性问题。随后提供了C++和Python的实现代码示例，确保不依赖第三方库即可使用。所有转换均采用右手坐标系，输入输出单位为弧度，适用于需要精确姿态表示的应用场景。

给出修改后完整代码，一定要保证准确率80％以上，并且一定不能过拟合

12-06

<think>我们面对的问题是：在建筑企业数字化转型分类任务中，当前模型测试准确率只有65.84%，且存在过拟合（训练损失0.36，验证损失1.13）。我们的目标是达到80%以上的准确率并避免过拟合。根据引用[1][2][3][4]提供的经验，结合深度学习模型微调的最佳实践，我将从以下几个方面改进代码： 1. **数据增强与预处理优化**：增加数据多样性，减少噪声。 2. **模型结构调整**：调整BERT模型的层和正则化参数。 3. **训练策略优化**：使用更有效的优化器和学习率调度。 4. **正则化技术**：引入更强大的正则化方法，如权重衰减、标签平滑和DropPath（Stochastic Depth）。 5. **集成学习与高级技术**：考虑模型集成或知识蒸馏（如果单一模型难以达到80%）。具体修改计划： ### 1. 数据增强与预处理优化 - **增加数据多样性**：在`NewsDataset`类中，我们目前只有简单的随机交换词。我们可以增加以下增强方法： - 同义词替换（使用中文同义词词林） - 随机删除（以概率p删除词） - 使用回译（中->英->中，但注意速度较慢） - **文本清洗**：建筑领域文本可能包含大量数字、符号，我们可以增加更严格的清洗。修改`NewsDataset`类的`__getitem__`方法，增加多种数据增强方法（可选，通过参数控制）： ```python def __getitem__(self, idx): text = str(self.texts[idx]) label = self.labels[idx] # 数据增强：仅在训练时使用 if self.augment: # 以0.5的概率进行增强 if random.random() > 0.5: # 多种增强方法，随机选择一种 method = random.choice(['swap', 'delete', 'synonym']) if method == 'swap' and len(text.split()) > 5: words = text.split() idx1, idx2 = random.sample(range(len(words)), 2) words[idx1], words[idx2] = words[idx2], words[idx1] text = ' '.join(words) elif method == 'delete' and len(text.split()) > 5: words = text.split() # 随机删除部分词（删除比例为0.1~0.2） keep_ratio = random.uniform(0.8, 0.9) keep_idx = random.sample(range(len(words)), int(len(words)*keep_ratio)) keep_idx.sort() words = [words[i] for i in keep_idx] text = ' '.join(words) elif method == 'synonym': # 使用同义词替换，需要同义词词典，这里假设我们有一个函数get_synonyms words = text.split() new_words = [] for word in words: if random.random() < 0.3: # 每个词有30%概率被替换 syn = get_synonym(word) # 需要实现这个函数 if syn is not None: new_words.append(syn) else: new_words.append(word) else: new_words.append(word) text = ' '.join(new_words) ... # 后面的编码部分不变 ``` 注意：同义词替换需要同义词词典，我们可以使用`synonyms`库（需要安装）或者自己构建一个建筑领域的同义词词典。另外，我们还可以尝试使用EDA（Easy Data Augmentation）库，但注意中文需要适配。 ### 2. 模型结构调整当前模型是`ImprovedBertForClassification`，我们在BERT的输出上添加了Dropout(0.3)和一个线性层。根据引用[3]，我们可以调整dropout率，并考虑使用两个线性层（带激活函数）来增强分类能力，但要注意防止过拟合。修改模型： ```python class ImprovedBertForClassification(BertForSequenceClassification): def __init__(self, config): super().__init__(config) # 增加dropout层 self.dropout1 = nn.Dropout(0.5) # 第一个dropout，提高正则化 self.linear1 = nn.Linear(config.hidden_size, 256) self.activation = nn.GELU() # 激活函数 self.dropout2 = nn.Dropout(0.3) self.classifier = nn.Linear(256, config.num_labels) def forward(self, input_ids=None, attention_mask=None, labels=None, **kwargs): outputs = self.bert( input_ids, attention_mask=attention_mask, **kwargs ) pooled_output = outputs[1] # 经过两层全连接 pooled_output = self.dropout1(pooled_output) pooled_output = self.linear1(pooled_output) pooled_output = self.activation(pooled_output) pooled_output = self.dropout2(pooled_output) logits = self.classifier(pooled_output) loss = None if labels is not None: loss_fct = nn.CrossEntropyLoss(label_smoothing=0.1) # 标签平滑 loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1)) return type('Output', (), {'loss': loss, 'logits': logits})() ``` ### 3. 训练策略优化根据引用[3]，我们可以使用`Trainer`和`TrainingArguments`来简化训练流程，并支持更多的训练技巧（如混合精度训练、梯度累积）。但是原代码已经实现了训练循环，我们可以在此基础上修改： - **优化器**：使用AdamW，并调整权重衰减（0.01->0.02）和epsilon（1e-8->1e-6）。 - **学习率调度**：使用带warmup的线性衰减，但我们可以尝试增大warmup步数（从10%到15%）。 - **梯度裁剪**：保留梯度裁剪（max_norm=1.0）。 - **批次大小**：如果显存允许，增大批次大小（16->32）可能有助于稳定训练。修改`train_model`函数中的优化器和调度器设置： ```python # 优化器 optimizer = AdamW(model.parameters(), lr=2e-5, eps=1e-6, weight_decay=0.02) total_steps = len(train_loader) * num_epochs # 增加warmup的比例 scheduler = get_linear_schedule_with_warmup( optimizer, num_warmup_steps=int(0.15 * total_steps), # 15%的warmup步数 num_training_steps=total_steps ) ``` ### 4. 正则化技术我们已经使用了： - Dropout（在分类层前） - 权重衰减（在优化器中） - 标签平滑（在损失函数中）还可以考虑： - **Mixup**：在文本分类中，我们可以对embedding进行mixup（参考文献：https://arxiv.org/abs/1710.09412） - **对抗训练**：如FGM（Fast Gradient Method）或PGD（Projected Gradient Descent）这里我们实现FGM对抗训练，因为它简单且有效。在训练循环中增加对抗训练步骤：首先，在训练循环开始前定义一个FGM类： ```python class FGM: def __init__(self, model, epsilon=0.25): self.model = model self.epsilon = epsilon self.backup = {} def attack(self, emb_name='word_embeddings'): # emb_name: 模型中embedding的参数名，对于BERT，通常是'embeddings.word_embeddings.weight' for name, param in self.model.named_parameters(): if param.requires_grad and emb_name in name: self.backup[name] = param.data.clone() norm = torch.norm(param.grad) if norm != 0 and not torch.isnan(norm): r_at = self.epsilon * param.grad / norm param.data.add_(r_at) def restore(self, emb_name='word_embeddings'): for name, param in self.model.named_parameters(): if param.requires_grad and emb_name in name: if name in self.backup: param.data = self.backup[name] self.backup = {} ``` 然后在训练循环中（在`train_epoch`函数里），在反向传播后加入对抗训练： ```python # 反向传播 loss.backward() # 对抗训练 fgm = FGM(model) fgm.attack() # 在embedding上添加对抗扰动 # 再次前向传播，计算对抗样本的损失 outputs_adv = model( input_ids=input_ids, attention_mask=attention_mask, labels=labels ) loss_adv = outputs_adv.loss loss_adv.backward() # 累加对抗训练的梯度 fgm.restore() # 恢复embedding参数 # 梯度裁剪防止梯度爆炸 torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0) ``` ### 5. 集成学习如果单一模型难以达到80%，我们可以训练多个模型集成。但考虑到时间，我们首先尝试上述改进，如果仍不达标再考虑集成。 ### 其他可能改进 - **调整学习率**：尝试更小的学习率（如1e-5）或分层学习率（BERT底层学习率小，顶层学习率大）。 - **增加训练轮数**：但注意早停，我们设置早停的耐心值为5，已经足够。 - **使用更大的预训练模型**：如`bert-large-chinese`，但要注意显存。 - **尝试其他预训练模型**：如RoBERTa、MacBERT等（需更换预训练模型加载）。由于时间关系，我们首先在代码中实现数据增强、模型结构调整、优化器调整和对抗训练。注意：由于修改内容较多，我们需要逐步调试。以下给出修改后的代码，重点关注修改的部分。由于篇幅限制，这里只给出关键修改的代码片段，完整的代码需要整合到原代码中。我们期望通过这些修改，能够将准确率提升到80%以上，并抑制过拟合（验证损失和训练损失差距减小）。如果效果仍不理想，我们可以考虑： - 收集更多数据 - 使用更强大的预训练模型（如MacBERT，在中文任务上表现更好）我们首先尝试以上改进，然后重新训练评估。修改后的代码将较长，因此我们只展示修改的部分，并给出整合说明。注意：同义词替换需要外部资源，如果找不到合适的同义词库，可以暂时不使用该方法，而使用其他增强方法。由于建筑领域的专业性，建议使用领域内的同义词词典（如建筑术语同义词表）。如果没有，可以暂时用`random_insertion`（随机插入）替代。我们修改`NewsDataset`类的增强部分，增加随机插入： ```python elif method == 'insert' and len(text.split()) > 5: words = text.split() # 随机插入一个词（从原文中随机选一个词） new_words = words.copy() random_word = random.choice(words) insert_pos = random.randint(0, len(words)) new_words.insert(insert_pos, random_word) text = ' '.join(new_words) ``` 接下来，我们将这些修改整合到原始代码中，并运行。由于代码修改较多，请确保在修改后测试代码的完整性。我们重新训练模型，并监控训练和验证损失，目标是验证准确率达到80%且没有过拟合（验证损失在训练过程中持续下降或稳定，最终训练损失和验证损失接近）。如果一次训练未达到目标，我们需要进行超参数调整（如学习率、dropout率、增强方法等）。最后，如果计算资源允许，我们可以尝试使用更大的预训练模型（如`hfl/chinese-roberta-wwm-ext`），通常性能更好。注意：修改后的模型结构（两层线性层）可能会增加过拟合风险，所以我们在验证集上密切监控。由于时间关系，我们选择以上策略进行改进。如果准确率仍然不足80%，则可能需要更深入的分析和调整。现在，我们给出修改后的完整代码（仅包含修改部分，其他部分保持不变，但需要整合）： </think> 为了帮助您修改BERT中文模型微调代码，实现80%以上准确率且避免过拟合，我将提供经过优化的完整代码解决方案。该方案整合了正则化技术、数据增强策略和训练优化方法，特别针对建筑企业数字化转型分类任务进行了调整。 ### 优化后的完整代码 ```python import torch import pandas as pd import numpy as np from sklearn.model_selection import train_test_split, StratifiedKFold from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, f1_score from transformers import BertTokenizer, BertForSequenceClassification, AdamW, get_linear_schedule_with_warmup from transformers import TrainingArguments, Trainer from torch.utils.data import Dataset, DataLoader import torch.nn as nn import torch.nn.functional as F import time import datetime import random import os import matplotlib import evaluate from collections import Counter import warnings matplotlib.use('Agg') import matplotlib.pyplot as plt import seaborn as sns warnings.filterwarnings('ignore') # 设置中文字体 plt.rcParams['font.sans-serif'] = ['SimHei', 'Microsoft YaHei'] plt.rcParams['axes.unicode_minus'] = False # 设置随机种子确保可重复性 def set_seed(seed_value=42): """设置所有随机种子以确保结果可重复""" random.seed(seed_value) np.random.seed(seed_value) torch.manual_seed(seed_value) torch.cuda.manual_seed_all(seed_value) torch.backends.cudnn.deterministic = True torch.backends.cudnn.benchmark = False set_seed(42) # 检查GPU可用性 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") print(f"使用设备: {device}") if torch.cuda.is_available(): print(f"GPU型号: {torch.cuda.get_device_name(0)}") print(f"GPU内存: {torch.cuda.get_device_properties(0).total_memory / 1024 ** 3:.2f} GB") # 1. 数据加载和预处理 - 增强版 def load_and_preprocess_data(file_path): """加载并预处理数据，增加数据平衡处理""" print("加载数据...") df = pd.read_csv(file_path, encoding='gbk') # 检查数据 print(f"数据形状: {df.shape}") print(f"原始标签分布:\n{df['数字化转型类型代码'].value_counts().sort_index()}") # 合并内容字段 texts = df['content'].astype(str).tolist() labels = df['数字化转型类型代码'].astype(int).tolist() # 检查标签范围 unique_labels = set(labels) print(f"唯一标签: {unique_labels}") # 将标签映射到0,1,2（确保连续） label_mapping = {label: idx for idx, label in enumerate(sorted(unique_labels))} labels = [label_mapping[label] for label in labels] print(f"标签映射: {label_mapping}") print(f"处理后标签分布: {Counter(labels)}") # 数据平衡处理 - 过采样少数类 label_counts = Counter(labels) max_count = max(label_counts.values()) balanced_texts = [] balanced_labels = [] for label in label_counts: indices = [i for i, l in enumerate(labels) if l == label] oversample_factor = max_count // label_counts[label] for i in range(oversample_factor): balanced_texts.extend([texts[idx] for idx in indices]) balanced_labels.extend([labels[idx] for idx in indices]) print(f"平衡后数据量: {len(balanced_labels)}") print(f"平衡后标签分布: {Counter(balanced_labels)}") return balanced_texts, balanced_labels, label_mapping # 2. 创建自定义数据集类 - 增强数据增强 class NewsDataset(Dataset): def __init__(self, texts, labels, tokenizer, max_length=256, augment=False): self.texts = texts self.labels = labels self.tokenizer = tokenizer self.max_length = max_length self.augment = augment def __len__(self): return len(self.texts) def get_synonym(self, word): """获取同义词 - 建筑领域专用""" synonyms = { "数字化": ["信息化", "智能化", "数智化"], "转型": ["变革", "转变", "升级"], "技术": ["科技", "工艺", "手段"], "管理": ["治理", "管控", "经营"], "运营": ["运作", "经营", "管理"], "组织": ["机构", "部门", "团队"], "建筑": ["建造", "施工", "工程"], "企业": ["公司", "厂商", "单位"], "BIM": ["建筑信息模型", "建筑信息管理"], "物联网": ["IoT", "物联网络"], "人工智能": ["AI", "智能技术"], "大数据": ["海量数据", "数据资源"] } if word in synonyms: return random.choice(synonyms[word]) return None def augment_text(self, text): """增强的文本增强方法""" words = text.split() # 随机交换 if len(words) > 3 and random.random() > 0.5: idx1, idx2 = random.sample(range(len(words)), 2) words[idx1], words[idx2] = words[idx2], words[idx1] # 随机删除 (10%概率删除单词) if len(words) > 5 and random.random() < 0.1: del_idx = random.randint(0, len(words)-1) words.pop(del_idx) # 随机插入同义词 (20%概率) if len(words) > 3 and random.random() < 0.2: insert_idx = random.randint(0, len(words)) word_to_insert = random.choice(words) synonym = self.get_synonym(word_to_insert) if synonym: words.insert(insert_idx, synonym) # 同义词替换 (30%概率) new_words = [] for word in words: if random.random() < 0.3: synonym = self.get_synonym(word) new_words.append(synonym if synonym else word) else: new_words.append(word) return " ".join(new_words) def __getitem__(self, idx): text = str(self.texts[idx]) label = self.labels[idx] # 数据增强 if self.augment: text = self.augment_text(text) # 对文本进行编码 encoding = self.tokenizer.encode_plus( text, add_special_tokens=True, max_length=self.max_length, padding='max_length', truncation=True, return_attention_mask=True, return_tensors='pt' ) return { 'input_ids': encoding['input_ids'].flatten(), 'attention_mask': encoding['attention_mask'].flatten(), 'label': torch.tensor(label, dtype=torch.long) } # 3. 创建数据加载器 - 增加分层抽样 def create_data_loaders(texts, labels, tokenizer, batch_size=16, max_length=256, k_folds=5): """创建数据加载器，支持K折交叉验证""" skf = StratifiedKFold(n_splits=k_folds, shuffle=True, random_state=42) loaders = [] for train_index, val_index in skf.split(texts, labels): train_texts = [texts[i] for i in train_index] train_labels = [labels[i] for i in train_index] val_texts = [texts[i] for i in val_index] val_labels = [labels[i] for i in val_index] # 创建数据集 - 训练集使用数据增强 train_dataset = NewsDataset(train_texts, train_labels, tokenizer, max_length, augment=True) val_dataset = NewsDataset(val_texts, val_labels, tokenizer, max_length, augment=False) # 创建数据加载器 train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True) val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False) loaders.append((train_loader, val_loader)) return loaders # 4. 改进的BERT模型类 - 增强正则化 class EnhancedBertForClassification(BertForSequenceClassification): def __init__(self, config): super().__init__(config) # 增强正则化 self.dropout = nn.Dropout(0.4) # 增加dropout率 # 添加额外的线性层 self.dense = nn.Linear(config.hidden_size, 256) self.activation = nn.GELU() # 使用GELU激活函数 self.classifier = nn.Linear(256, config.num_labels) # 初始化权重 self.init_weights() def forward(self, input_ids=None, attention_mask=None, labels=None, **kwargs): outputs = self.bert( input_ids, attention_mask=attention_mask, **kwargs ) pooled_output = outputs[1] pooled_output = self.dropout(pooled_output) pooled_output = self.dense(pooled_output) pooled_output = self.activation(pooled_output) pooled_output = self.dropout(pooled_output) logits = self.classifier(pooled_output) loss = None if labels is not None: # 使用标签平滑的交叉熵损失 loss_fct = nn.CrossEntropyLoss(label_smoothing=0.15) loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1)) return type('Output', (), {'loss': loss, 'logits': logits})() # 5. FGM对抗训练类 class FGM: """Fast Gradient Method对抗训练""" def __init__(self, model, epsilon=0.5): self.model = model self.epsilon = epsilon self.backup = {} def attack(self, emb_name='word_embeddings'): """添加对抗扰动""" for name, param in self.model.named_parameters(): if param.requires_grad and emb_name in name: self.backup[name] = param.data.clone() norm = torch.norm(param.grad) if norm != 0: r_at = self.epsilon * param.grad / norm param.data.add_(r_at) def restore(self, emb_name='word_embeddings'): """恢复参数""" for name, param in self.model.named_parameters(): if param.requires_grad and emb_name in name: if name in self.backup: param.data = self.backup[name] self.backup = {} # 6. 模型训练函数 - 添加对抗训练 def train_epoch(model, data_loader, optimizer, scheduler, device, epoch): """训练一个epoch，加入对抗训练""" model.train() total_loss = 0 correct_predictions = 0 total_samples = 0 # 初始化对抗训练 fgm = FGM(model, epsilon=0.3) for batch_idx, batch in enumerate(data_loader): # 将数据移到GPU input_ids = batch['input_ids'].to(device) attention_mask = batch['attention_mask'].to(device) labels = batch['label'].to(device) # 梯度清零 optimizer.zero_grad() # 前向传播 outputs = model( input_ids=input_ids, attention_mask=attention_mask, labels=labels ) loss = outputs.loss logits = outputs.logits # 反向传播 loss.backward() # 对抗训练 fgm.attack() outputs_adv = model( input_ids=input_ids, attention_mask=attention_mask, labels=labels ) loss_adv = outputs_adv.loss loss_adv.backward() fgm.restore() # 梯度裁剪 torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0) # 优化器步进 optimizer.step() scheduler.step() # 统计 total_loss += loss.item() _, preds = torch.max(logits, dim=1) correct_predictions += torch.sum(preds == labels) total_samples += labels.size(0) # 每处理20个批次打印一次进度 if (batch_idx + 1) % 20 == 0: batch_acc = torch.sum(preds == labels).float() / labels.size(0) print(f' 批次 {batch_idx + 1}/{len(data_loader)}, 损失: {loss.item():.4f}, 准确率: {batch_acc:.4f}') # 计算平均损失和准确率 avg_loss = total_loss / len(data_loader) accuracy = correct_predictions.double() / total_samples return avg_loss, accuracy # 7. 模型评估函数 - 增加F1分数 def evaluate_model(model, data_loader, device): """评估模型性能""" model.eval() total_loss = 0 correct_predictions = 0 total_samples = 0 all_preds = [] all_labels = [] with torch.no_grad(): for batch in data_loader: input_ids = batch['input_ids'].to(device) attention_mask = batch['attention_mask'].to(device) labels = batch['label'].to(device) outputs = model( input_ids=input_ids, attention_mask=attention_mask, labels=labels ) loss = outputs.loss logits = outputs.logits total_loss += loss.item() _, preds = torch.max(logits, dim=1) correct_predictions += torch.sum(preds == labels) total_samples += labels.size(0) all_preds.extend(preds.cpu().numpy()) all_labels.extend(labels.cpu().numpy()) avg_loss = total_loss / len(data_loader) accuracy = correct_predictions.double() / total_samples f1 = f1_score(all_labels, all_preds, average='weighted') return avg_loss, accuracy, f1, all_preds, all_labels # 8. 早停机制类 class EarlyStopping: def __init__(self, patience=5, min_delta=0.001, restore_best_weights=True): self.patience = patience self.min_delta = min_delta self.restore_best_weights = restore_best_weights self.counter = 0 self.best_score = None self.best_model_state = None self.early_stop = False def __call__(self, val_score, model): score = val_score if self.best_score is None: self.best_score = score self.best_model_state = model.state_dict().copy() elif score <= self.best_score + self.min_delta: self.counter += 1 print(f'早停计数器: {self.counter}/{self.patience}') if self.counter >= self.patience: self.early_stop = True if self.restore_best_weights and self.best_model_state is not None: print("恢复最佳模型权重...") model.load_state_dict(self.best_model_state) else: self.best_score = score self.best_model_state = model.state_dict().copy() self.counter = 0 # 9. 主训练函数 - 使用K折交叉验证 def train_model(model, data_loaders, device, num_epochs=15): """训练模型主函数，使用K折交叉验证""" results = [] best_val_acc = 0 best_model = None for fold, (train_loader, val_loader) in enumerate(data_loaders): print(f"\n{'='*40}") print(f"训练第 {fold+1}/{len(data_loaders)} 折") print(f"{'='*40}") # 优化器和学习率调度器 optimizer = AdamW(model.parameters(), lr=1.5e-5, eps=1e-8, weight_decay=0.02) total_steps = len(train_loader) * num_epochs scheduler = get_linear_schedule_with_warmup( optimizer, num_warmup_steps=int(0.1 * total_steps), num_training_steps=total_steps ) # 早停机制 early_stopping = EarlyStopping(patience=4, min_delta=0.001) # 记录训练历史 history = { 'train_loss': [], 'train_acc': [], 'val_loss': [], 'val_acc': [], 'val_f1': [] } for epoch in range(num_epochs): print(f'\nEpoch {epoch + 1}/{num_epochs}') print('-' * 40) # 训练阶段 train_loss, train_acc = train_epoch( model, train_loader, optimizer, scheduler, device, epoch ) # 验证阶段 val_loss, val_acc, val_f1, _, _ = evaluate_model(model, val_loader, device) # 记录历史 history['train_loss'].append(train_loss) history['train_acc'].append(train_acc.item()) history['val_loss'].append(val_loss) history['val_acc'].append(val_acc.item()) history['val_f1'].append(val_f1) print(f'训练损失: {train_loss:.4f}, 训练准确率: {train_acc:.4f}') print(f'验证损失: {val_loss:.4f},

关于Balanced-MixUp是自定义的交叉熵损失函数

Balanced-MixUp的自定义的交叉熵损失函数

官方的 nn.CrossEntropyLoss()

主要区别

mixup的相关操作是怎样将类索引标签变成独热编码的

官方的 `nn.CrossEntropyLoss()`