Inspectus 开源项目教程

孙纯茉Norma

于 2024-10-10 08:44:25 发布

阅读量763

点赞数 22

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00640/article/details/142810691

Inspectus 开源项目教程

inspectus LLM Analytics 项目地址: https://gitcode.com/gh_mirrors/in/inspectus

1. 项目介绍

Inspectus 是一个多功能可视化工具，专为机器学习设计。它能够在 Jupyter 笔记本中通过易于使用的 Python API 顺畅运行。Inspectus 提供了对深度学习模型中注意力机制的可视化工具，帮助用户更好地理解这些模型的工作原理。

2. 项目快速启动

安装

首先，通过 pip 安装 Inspectus：

pip install inspectus

使用示例

以下是一个简单的使用示例，展示如何使用 Inspectus 可视化注意力机制：

import inspectus
import numpy as np

# 创建一个 2D 注意力矩阵
attn = np.random.rand(3, 3)

# 可视化注意力矩阵
inspectus.attention(attn, ['a', 'b', 'c'], ['d', 'e', 'f'])

3. 应用案例和最佳实践

应用案例：Huggingface 模型

Inspectus 可以与 Huggingface 的 Transformers 库结合使用，可视化 GPT-2 模型的注意力机制。以下是一个完整的示例：

from transformers import AutoTokenizer, GPT2LMHeadModel, AutoConfig
import torch
import inspectus

# 初始化 tokenizer 和模型
context_length = 128
tokenizer = AutoTokenizer.from_pretrained("huggingface-course/code-search-net-tokenizer")
config = AutoConfig.from_pretrained("gpt2", vocab_size=len(tokenizer), n_ctx=context_length, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id)
model = GPT2LMHeadModel(config)

# 对输入文本进行 tokenize
text = 'The quick brown fox jumps over the lazy dog'
tokenized = tokenizer(text, return_tensors='pt', return_offsets_mapping=True)
input_ids = tokenized['input_ids']
tokens = [text[s: e] for s, e in tokenized['offset_mapping'][0]]

with torch.no_grad():
    res = model(input_ids=input_ids.to(model.device), output_attentions=True)

# 使用 Inspectus 可视化注意力机制
inspectus.attention(res['attentions'], tokens)