captum 分析的数据准备（一）

最新推荐文章于 2025-03-10 15:20:48 发布

weixin_45955767

最新推荐文章于 2025-03-10 15:20:48 发布

阅读量993

点赞数

分类专栏：机器阅读理解比赛模板代码

本文链接：https://blog.youkuaiyun.com/weixin_45955767/article/details/119854673

版权

本文介绍了如何构建基线数据，通过在原始数据中填充0以确保等长，利用tokenizer获取填充字符、起始和结束标识。接着，对数据进行编码并计算长度，进一步使用encoder进行编码处理，最后调用construct_input_base函数完成预处理步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

构建基线数据，用pad=0填充构造与输入等长的数据

获取原数据的填充字符，起始，结束使用tokenizer直接获取

PAD_ID = tokenizer.pad_token_id  # 补齐符号 pad 的 id
SEP_ID = tokenizer.sep_token_id  # 输入文本中句子的间隔符号 sep 的 id
# 置于文本初始位置的符号 cls 的 id，在 bert 预训练过程中其对应的输出用于预测句子是否相关
CLS_ID = tokenizer.cls_token_id

对原数据进行编码，用len获取长度

def construct_input_base(context, question):
    # question 指问题，context 指需要从中寻求问题答案的文本
    # 将 context 转化为 id
    context_ids = tokenizer.encode(context, add_special_tokens=False)
    
    # 将 question 转化为 id
    question_ids = tokenizer.encode(question, add_special_tokens=False)

    # 基线输入，与 input_ids 等长
    base_input_ids = [CLS_ID] + [PAD_ID] * len(question_ids) + [SEP_ID] + \
        [PAD_ID] * len(context_ids) + [SEP_ID]

    return torch.tensor([base_input_ids], device=DEVICE)

tokenizer.encode(question, add_special_tokens&#

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_45955767

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用Captum库对CIFAR数据集进行模型可解释性分析

2501_90323865的博客

06-04

为了训练模型，我们需要指定损失函数和优化技术。损失函数用于衡量模型的性能，在训练过程中，我们通过调整模型参数来最小化损失。本教程使用。

图神经网络实战（23）——使用异构图神经网络执行异常检测

盼小辉丶的博客

01-13

2340

在本节中，我们探讨了如何使用图神经网络 (Graph Neural Networks, GNN) 检测 CIDDS-001 数据集中的异常流量。首先，对数据集进行预处理，并将其转换为图表示法，从而捕捉到网络不同组成部分之间的复杂关系。然后，利用 GraphSAGE 运算符实现异构 GNN。捕捉图的异构性，使我们能够将流量分为良性和恶意两种。GNN 在网络安全中已经得到了广泛应用，并为研究开辟了新的途径。随着技术的不断进步和网络数据量的增加，GNN 将成为检测和预防安全漏洞的重要工具。

1 条评论您还未登录，请先登录后发表或查看评论

可解释性深度学习工具Captum轻度体验

热门推荐

Kanny

08-03

1万+

最近对可解释性平台Captum进行了实际操作。这是Facebook 发布的一个基于 Pytorch 的模型解释库。该库为许多新的算法（如：ResNet、BERT、一些语义分割网络等）提供了解释性，帮助大家更好地理解对模型预测结果产生作用的具体特征、神经元及神经网络层。针对图像分类问题，其可以快速定位影响结果的一些像素点，并进行可视化展现；而对于文本翻译等问题，能够可视化标注出不同单词的重要性，以及利用heatmap展示单词之间的相关性等。 1. 安装首先是安装，其实只要电脑符合前置要求，安装起来非常简单

深度学习：基于PyTorch的模型解释工具Captum

博学而笃志，切问而近思。

03-27

3110

深度学习：基于PyTorch的模型解释工具

【Hugging Face】transformers 库中 tokenizer 常用的方法和属性

彬彬侠的博客

03-10

1337

tokenizer在transformers库中用于文本预处理，主要包括分词、编码、解码、特殊标记处理等功能，适用于NLP任务（文本分类、翻译、摘要、问答等）。tokenizer常见属性：tokenizer.pad_token、tokenizer.cls_token、tokenizer.sep_token。tokenizer常用方法：tokenizer.tokenize(text)→分词，tokenizer.encode(text)→转换为ID，tokenizer.decode(ids)→解码，tokeni

huggingface的tokenizer解读

weixin_38252409的博客

01-01

3891

attention_mask，pad_token_id报错

ph12345687的博客

03-01

1万+

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.Setting `pad_token_id` to `eos_token_id`:151643 for open-end generation.

中文自动文本摘要生成指标计算，Rouge/Bleu/BertScore/QA代码实现

daotianweng的博客

04-15

1万+

本部分讲述下如何计算生成摘要与参考摘要的指标，指标方面分为两类，一类基于n-grams计算，如Rouge-1，Rouge-2，Rouge-L，BLEU，主要衡量摘要的句法的连贯性，不能衡量生成摘要的真实性与忠诚程度，另一类基于蕴含或者QA等辅助手段，这种方式能够更好的衡量生成摘要的忠诚度，如FEQA，QuestEval。代码中均为transformers库中计算代码。至于摘要生成过程中存在的幻觉问题，如内在的无中生有，外在的无中生有，有一篇很好的综述：https://arxiv.org/pdf/2202

可解释性AI原理与代码实战案例讲解

AI天才研究院

06-07

830

可解释性AI原理与代码实战案例讲解 1.背景介绍随着人工智能(AI)系统在各个领域的广泛应用,它们的决策过程变得越来越复杂和不透明。传统的机器学习模型就像一个黑箱,很难解释其内部工作原理和决策依据。这种缺乏透明度和可解释性不仅影响了人们对AI系统的信任和接受度,也可能导致潜在的风险和偏差

预训练模型可解释性评估:透明化黑箱

AI天才研究院

05-03

1007

1. 背景介绍 1.1 人工智能的黑箱问题人工智能系统,尤其是深度学习模型,被视为"黑箱"。这些复杂的模型能够从大量数据中学习并产生准确的预测,但其内部工作机制却难以解释和理解。这种"黑箱"特性引发了广泛关注,因为它可能会导致模型缺乏透明度、可解释性和可信

要不要设置tokenizer.pad_token = tokenizer.eos_token? ——对pad_token和eos_token的分析

weixin_44839047的博客

11-08

3882

pad_token和eos_token在训练过程和推理中扮演的角色是不同的。如何设置pad_token。能不能让pad_token=eos_token。 tokenizer.pad_token = tokenzier.eos_token.

captum:PyTorch的模型可解释性和理解

04-01

Captum是PyTorch的模型可解释性和理解库。 Captum在拉丁语中意味着理解，并且包含PyTorch模型的集成梯度，显着性图，smoothgrad，vargrad等的通用实现。它可以快速集成使用特定领域的库（例如torchvision，torchtext等）构建的模型。 Captum目前处于测试阶段，并且正在积极开发中！关于Captum 随着模型复杂性的增加以及由此导致的缺乏透明度，模型可解释性方法变得越来越重要。模型理解既是研究的活跃领域，也是使用机器学习的跨行业实际应用的关注领域。 Captum提供了包括集成渐变在内的最新算法，为研究人员和开发人员提供了一种简单的方法来了解哪些功能对模型的输出有所贡献。对于模型开发人员而言，Captum可用于通过识别有助于模型输出的不同功能来改进模型和对模型进行故障排除，从而设计出更好的模型并对意外的模型输出进行故障排除。 C

如何对大模型进行评估下

qiaotl的博客

12-18

2837

从源代码进行分析，介绍如何通过python脚本完成大模型评估指标数据的收集

图神经网络实战（22）——基于Captum解释图神经网络

盼小辉丶的博客

12-23

2929

可解释性是许多深度学习领域的关键要素，可以帮助我们建立更好的模型，在本节中，我们介绍了积分梯度(基于梯度的方法)技术。使用 PyTorch Geometric 和 Captum 在 Twitch 数据集上实现了此方法，以获得节点分类的解释，最后对结果进行了可视化和讨论。

动手学图神经网络（7）：使用Captum解释GNN模型预测结果

段智华的博客

01-27

183

随着模型复杂度的增加以及由此导致的透明度缺失，模型可解释性方法变得愈发重要。模型理解既是一个活跃的研究领域，也是各行业应用机器学习时实际关注的重点领域。Captum提供了诸如积分梯度、概念激活向量测试（TCAV）、TracIn影响函数等前沿算法，这些算法为研究人员和开发人员提供了一种简便方法，以了解哪些特征、训练示例或概念对模型的预测有贡献，以及总体而言，模型学习的内容和方式。除此之外，Captum还提供对抗攻击和最小输入扰动功能，这些功能可用于生成反事实解释和对抗性扰动。Captum帮助机器学习研究人员

ShowMeAI 人工智能工具笔记（二）

龙哥盟

10-16

936

嗨，欢迎来到 PyTorch 训练系列的下一个视频，主题是使用 PyTorch 构建模型。具体来说，在本视频中，我们将讨论 P Torch 中的模块和参数类，它们分别封装了你的机器学习模型和学习权重，以及它们如何协同工作。常见的神经网络层类型，包括线性层和卷积层。循环神经网络和变换器网络。其他层和功能，例如批归一化、丢弃和激活函数以及损失函数。在 Pytorrch 中构建模型围绕 Torch.nn.Module 中的两个类进行。模块类和参数类。模块类封装了模型和模型组件，例如神经网络层。

情感分析学习笔记-Task06

qq_42225861的博客

09-30

691

最后一次的学习笔记，使用的是预训练的bert模型（如果原理不太理解的话，建议先把理论看一看，再来看代码会容易理解），bert是transformers里的encoder组成的，模型很大，参数也很多，所以选择用人家训练好的向量作为我们的embedding层，固定（而不训练）transformer，只训练从transformer产生的表示中学习的模型的其余部分。我们这次使用的是双向的GRU模型，它是LSTM的变形，比LSTM参数要少很多，用GRU来提取从Bert embedding后的特征。最后在fc层上输出最

tokenizers processors模块

weixin_49346755的博客

08-24

946

processors模块负责对文本执行额外的转换，添加额外的特殊标记。比如有这样一句话，“this is a text, this is a another text.”，通过处理后，这句话就变成了"[CLS] this is a text [SEP] this is a another text [SEP]"。

CPM-main 部署实践 AI生成小说3

绀目澄清

10-03

2959

基于CPM技术,用AI写小说

import scipy.io import torch from torch_geometric.data import Data from torch_geometric.nn import GNNExplainer from torch_geometric.utils import to_networkx import matplotlib.pyplot as plt import networkx as nx from edge_index_to_adj_node_edge import edge_index_to_adj_node_edge # 加载 .mat 文件 mat_file = "D:/GNN/wy0303-62OLD/data/data0318/data0318.mat" # 替换为你的 .mat 文件路径 mat_data = scipy.io.loadmat(mat_file) # 提取数据 edge_index = mat_data['edge_index'] # 边的索引 n_s = mat_data['n_s'] # 源节点特征 n_d = mat_data['n_d'] # 目标节点特征 m_s = mat_data['m_s'] # 可能是边特征 m_d = mat_data['m_d'] # 可能是边特征 E = mat_data['E'] # 可能是一些额外的图特征 sc = mat_data['sc'] # 可能是额外的图特征 adj_matrix = edge_index_to_adj_node_edge(edge_index) # 如果存在邻接矩阵 # 转换为 PyTorch 张量 edge_index_tensor = torch.tensor(edge_index, dtype=torch.long) node_features_tensor = torch.cat((torch.tensor(n_s, dtype=torch.float), torch.tensor(n_d, dtype=torch.float)), dim=0) # 处理节点特征（聚合特征维度，得到一个二维张量） node_features_processed = node_features_tensor.mean(dim=(1, 2, 3)) # 你可以根据需要修改此方法 # 创建 PyTorch Geometric 数据对象 data = Data(x=node_features_processed, edge_index=edge_index_tensor) # 加载预训练的模型 model = torch.load('D:/GNN/wy0303-62OLD/best_model.pt') model.eval() # 设置为评估模式 # 选择一个节点进行解释 node_idx = 0 # 选择图中的一个节点进行解释 # 使用 GNNExplainer 进行解释 explainer = GNNExplainer(model, epochs=200) print(f"edge_index type: {type(data.edge_index)}") print(f"edge_index shape: {data.edge_index.shape}") # 在调用 explain_node 时传递所有额外的输入（包括 edge_index） # 这里我们明确传递 edge_index 给模型和 explainer # n_s, n_d, m_s, m_d, E, sc,edge_index,adj_matrix explanation = explainer.explain_node( node_idx, data.x, data.edge_index, m_d=m_d, m_s=m_s, E=E, sc=sc, adj_matrix=adj_matrix, ) # 可视化结果 G = to_networkx(data) # 转换为 NetworkX 图对象 pos = nx.spring_layout(G) # 获取图的布局 # 可视化图 plt.figure(figsize=(8, 8)) nx.draw(G, pos, with_labels=True, node_color='lightblue', node_size=500) nx.draw_networkx_edges(G, pos, edgelist=explanation.edge_mask, edge_color='r'

captum 分析的数据准备（一）

构建基线数据，用pad=0填充构造与输入等长的数据

获取原数据的填充字符，起始，结束 使用tokenizer直接获取

对原数据进行编码，用len获取长度

获取原数据的填充字符，起始，结束使用tokenizer直接获取