- 博客(82)
- 收藏
- 关注
原创 “单标签/多标签” vs “二分类/多分类”
代码中“单标签用交叉熵,多标签用 BCE”的逻辑,本质是根据“类别是否互斥”选择损失函数单标签(类别互斥):无论二分类还是多分类,都用 CrossEntropyLoss(softmax + 多分类交叉熵);多标签(类别独立):无论标签数量多少,都用 BCEWithLogitsLoss(sigmoid + 二元交叉熵)。你看到的“二分类用交叉熵”,实际是“二分类且单标签”的场景;若二分类是“多标签”场景(如单个标签的是/否判断),代码也会用 BCE——核心是任务的“标签互斥性”,而非类别数量。
2025-09-13 17:12:32
965
原创 【无标题】
📌 总结一句话:设置 PYTHONHASHSEED 是为了让 Python 的内部哈希机制变得可控,从而让程序在每次运行时都表现一致,尤其适用于需要精确复现的场景,比如模型训练、自动化测试等。这行代码就是在告诉 Python:“用这个固定的种子来初始化哈希系统”,从而让程序的行为更稳定。这是一个非常细节但重要的设置,尤其在你希望程序“每次运行结果都一样”的时候。如果你依赖字典的顺序(比如序列化、模型输入等),结果可能不一致。你是在哪个项目里遇到这个设置的?同样的代码,每次运行时,字典的键顺序可能不同。
2025-08-21 18:03:37
165
原创 HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text
白盒攻击 vs 黑盒攻击:核心差异是“是否掌握模型内部信息”,黑盒更贴近现实。软标签 vs 硬标签(黑盒下):核心差异是“模型输出的信息粒度”,软标签提供概率分布(信息更丰富),硬标签仅提供预测类别(信息更有限)。这些分类本质上反映了“攻击者与模型的信息差”,而信息差直接决定了对抗性攻击的策略设计与难度。
2025-08-14 22:36:55
635
原创 Revisiting Character-level Adversarial Attacks for Language Models
要是因为基于梯度的方法能够利用模型的可微性,通过计算损失函数关于输入词元的梯度,高效地找到对模型决策最敏感的词元,并确定最优的扰动方向,从而生成对抗样本以达到攻击目的。利用模型可微性与梯度信息:在自然语言处理中,模型通常是基于神经网络的,其在计算过程中是可微的。基于梯度的方法可以利用这一特性,通过计算损失函数关于输入词元嵌入(token embeddings)的梯度,来确定如何修改词元能够最大化模型的损失,从而生成对抗样本。
2025-08-14 03:17:49
696
原创 bertt
我们引入了一种新的语言表示模型,称为BERT,它代表来自Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers)。与最近的语言表示模型(Peters等人,2018a;Radford等人,2018)不同,BERT旨在通过在所有层中联合基于左右上下文进行条件计算,从未标记文本中预训练深度双向表示。
2025-06-27 16:29:54
561
原创 seq-len
符合模型按时间步迭代计算的逻辑。便于利用GPU进行并行计算。与学术文献中的数学表示一致。简化了序列长度的处理和掩码操作。不过,现代框架通常都提供了灵活的选项,允许用户通过参数(如)来选择适合自己的格式,以满足不同的使用场景和个人偏好。
2025-06-22 05:06:14
807
原创 【无标题】
优先”是离线扫描顺序顺序模型:先扫γ后扫B → 得(γ=5, B=16)并行模型:先扫B后扫γ → 得(B=32, γ=3)零成本扩展的根源权重加载主导延迟 → 增加B几乎不增延迟(当B≤阈值)γ受限的本质草案操作消耗剩余带宽 → 并行模型的剩余带宽仅支持小γ计算瓶颈触发当总需求>100%带宽 → 等待计算单元 → 延迟飙升12%这种设计将硬件特性转化为资源配置优势,实现了“在刀锋上跳舞”的精准优化。您问到了核心的硬件建模细节!这些数值是通过结合模型结构、硬件参数和实时性能剖析。
2025-06-18 03:38:28
974
原创 绘图例子记录
每个 Line2D 对象对应图例中的一项,其属性(如颜色、线型、标记)会自动反映在图例中。例如:labels = [‘模型A’, ‘模型B’, ‘模型C’]。可选值:‘upper center’、‘lower left’、‘right’ 等,或使用坐标元组 (x, y)。borderpad=1.0:控制图例内容与边框的间距(单位:字体大小的比例)。ax.legend():在特定子图(axes)内添加图例,位置相对于子图。例如:ax[0, 0].legend() 会在左上角子图中添加图例。
2025-05-18 02:38:56
359
原创 画图一些笔记
plt.figure(): plt.***系列。通过plt.xxx来画图,是通过matplotlib提供的一个api,提供了很多基本的functionFigure :画布axes:所画内容,如果figure只有一张图,那么只有一个axes。如果figure有subplot,那么每一个subplot就是一个axes每个坐标轴实际上也是由竖线和数字组成的,每一个竖线其实也是一个axis的subplot,因此ax.xaxis也存在axes这个对象。对这个axes进行编辑就会修改xaxis图像上的表现。
2025-05-18 02:38:11
858
原创 GAN简读
我们提出了一个通过同时训练两个模型的对抗过程来评估生成模型的新框架:一个生成模型G用来捕捉数据特征,还有一个用于估计这个样本是来自训练样本还是G的概率的判别模型DG的训练过程是最大化D犯错的概率。这个框架就相当于一个minimax two-player game。再任意的G和DG涵盖了训练数据的分布,,D恒为0.5。当G和D均被定义为MLP时,整个系统可以使用反向传播进行训练。则无论在训练或是生成样本过程中不再需要任何马尔科夫链或者展开的近似推理。
2025-05-14 16:56:12
1219
原创 attention-transformer-test
数据准备训练阶段输入是目标序列的右移版本(Shifted Right)。例如,在机器翻译任务中,假设目标句子是 [“<sos>”, “A”, “B”, “C”, “<eos>”],则解码器的输入会被右移一位,变成 [“<sos>”, “A”, “B”, “C”],而模型需要预测的输出是 [“A”, “B”, “C”, “<eos>”]。为什么右移?这是为了在训练时通过Teacher Forcing策略让模型学习预测下一个词(即输入是 t-1 时刻的真实词,输出是 t 时刻的词)。同时,解码器的自注意
2025-04-24 21:19:19
816
原创 pandas康复训练
使用单层方括号 df[‘列名’]:返回 Series使用双层方括号 df[[‘列名’]]:返回 DataFrame操作 返回类型 典型用途df[‘Customers’] Series 单列计算(如 df[‘列名’].mean())df[[‘Customers’]] DataFrame 保留表格结构(如导出、合并列)
2025-04-03 01:04:44
376
原创 jupyter又一次报错,不过这次报错之后,原来不能使用gpu的jupyter,重新启动之后居然可以使用了,并且annaconda中的虚拟环境多了几个conda
【代码】jupyter又一次报错,不过这次报错之后,原来不能使用gpu的jupyter,重新启动之后居然可以使用了,并且annaconda中的虚拟环境多了几个conda。
2024-04-08 19:15:30
601
原创 逻辑回归吧
具体来说,在您的文件系统中,如果您的当前工作目录是 /home/user/,那么相对路径 …/dataset/mnist 将会是 /home/dataset/mnist。/dataset/mnist 是一个相对路径,表示将 MNIST 数据集下载到当前目录的上级目录中的 dataset/mnist 目录中。
2024-03-13 21:10:51
680
1
原创 线性回归啊
损失如果计算为向量是无法构建计算图第一个参数 1 表示输入特征的数量,也就是模型接收的每个样本的特征数量。在这个例子中,输入特征的数量为 1。第二个参数 1 表示输出特征的数量,也就是线性层输出的特征数量。在这个例子中,输出特征的数量为 1。是的,你说得对。在PyTorch中,通常将模型的前向传播分成两部分:可调用的forward方法:这部分实现了模型的计算部分,即将输入数据通过模型的各个层进行前向传播,从而生成模型的输出。
2024-03-13 21:08:31
530
原创 数据可视化
.如上呈现的饼图,直观上要比之前的饼图好看很多,这些都是基于pie函数的灵活参数所实现的。饼图中突出显示大专学历的人群,是因为在这300万失信人群中,大专学历的人数比例最高,该功能就是通过explode参数完成的。另外,还需要对如上饼图的绘制说明几点:如果绘制的图形中涉及中文及数字中的负号,都需要通过rcParams进行控制。由于不加修饰的饼图更像是一个椭圆,所以需要pyplot模块中的axes函数椭圆强制为正圆。自定义颜色的设置,既可
2023-01-19 19:49:10
481
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅