Summer_Anny-优快云博客

原创 SMOTE paper note

然而，应用的性质要求少数类别具有相当高的正确检测率，并且允许多数类别的错误率较低，以实现这一目标。Lee, 2000)。我们的方法（Chawla、Bowyer、Hall & Kegelmeyer，2000）将多数类的欠采样与一种特殊形式的少数类过采样相结合。使用各种数据集和 C4.5 决策树分类器 (Quinlan, 1992)、Ripper (Cohen, 1995b) 和朴素贝叶斯分类器进行的实验表明，我们的方法比使用 AUC 或 ROC 凸包的其他先前重新采样、修改损失率和类先验方法有所改进。

2025-07-15 11:25:46 449

原创 SMOTE

实现的 SMOTE 代码（无第三方库依赖），并示范它在不均衡二分类任务中的典型用法。代码已写成可复用 class，便于插入到常见的 Dataset / DataLoader 流程中。随后解释 SMOTE 的工作机理、常见超参数以及在实践中如何选择它们。

2025-07-15 10:36:43 814

原创提高 AUC（Area Under the ROC Curve）一些针对性的策略

在样本不均衡（二分类任务中，正负类比例严重偏斜）的情况下，提高。

2025-07-15 10:08:11 224

原创 LightGBM 在处理不均衡二分类任务时，能在 AUC 和 Accuracy 两个指标上表现良好

LightGBM 不局限于优化 Accuracy，而可直接优化 AUC在调参和 EarlyStopping 时依据 AUC 而非 Loss，更适合不平衡问题✅直接提升 AUC：优化目标对齐✅间接提升 Accuracy：更合理地找到分类阈值机制影响 AUC 的方式影响 Accuracy 的方式类别权重调整提升少数类排序得分平衡预测数量分布Leaf-wise 策略提升局部精度与识别能力更好建模边界样本信息增益分裂保证少数类能主导决策更准确识别易混类别直方图分裂。

2025-07-14 17:13:35 322

原创 LightGBM（Light Gradient Boosting Machine）

特性描述带来的好处每次扩展增益最大的叶子更高精度，更快收敛直方图分裂近似搜索分裂点更低内存，更快训练原生支持类别特征无需 One-Hot更快更简洁内建稀疏优化自动跳过 0 / NaN适合高维稀疏特征支持分布式训练高效扩展大数据场景更友好类别不均衡处理机制易于处理不均衡问题LightGBM 是一种高效、可扩展、支持稀疏特征和类别不均衡的梯度提升框架，其通过 Leaf-wise 策略和直方图加速大幅提升了训练效率与预测性能。

2025-07-14 17:05:11 392

原创安全加载模型

【代码】安全加载模型。

2025-07-09 09:43:31 218

原创提高神经网络模型的表现

调整类别权重：使模型对少数类样本更敏感。加权损失函数：使用加权交叉熵、Focal Loss 等损失函数增强少数类样本的影响。过采样和欠采样：调整训练集的样本比例，使类别分布更平衡。焦点损失（Focal Loss）：关注难以分类的少数类样本。自适应学习率：使用学习率调度器，避免过拟合。输出概率：利用概率输出计算 AUC 等指标，评估模型在不平衡数据上的性能。通过结合这些策略，你可以让神经网络在类别不平衡的任务中，既保持较好的Accuracy，又提升AUC和F1-score。

2025-07-06 15:06:55 581

原创 LightGBM 类别不平衡任务

参数，可以通过调整正负样本的权重来提高对少数类的预测能力。Leaf-wise分裂策略，使得 LightGBM 在训练过程中能够更加精细地关注到难以分类的样本，特别是少数类。Boosting 框架，通过加权训练样本，使得模型能够自动关注误分类的少数类样本。内建的类别权重调整和样本重采样技巧，可以进一步提高模型对少数类的识别能力。这些特性使得 LightGBM 在类别不平衡的二分类任务中往往能够获得较好的AUC和F1-score，比其他模型（如神经网络）在此类任务中的表现更为稳健。

2025-07-06 14:59:47 870

原创四种学习范式

学习范式数据要求主要任务示例任务监督学习完全标注的数据分类（预测标签）、回归（预测数值）图像分类、情感分析、房价预测弱监督学习部分标注、不完全或噪声标签数据分类、回归、增强模型鲁棒性弱标注图像分类、噪声标签文本分类自监督学习无标注数据，通过生成伪标签学习预训练特征表示，迁移到下游任务图像预训练、BERT文本表示学习无监督学习无标签数据聚类、降维、异常检测K-means聚类、PCA降维、异常检测不同的学习范式根据数据的可用性、任务的复杂度以及计算资源的不同，在实际应用中各有优劣。

2025-06-27 17:34:20 886

原创概率密度基本概念

（Probability Density）是概率论中用于描述随机变量分布的一种方式，特别适用于连续随机变量。它并不是一个概率值，而是表示单位范围内的概率大小或“浓度”。更具体地说，概率密度表示在某个特定值附近，随机变量可能取到某个值的相对可能性。

2025-06-27 11:00:20 611

原创 lightgbm

机制优势自动或手动处理类别不平衡leaf-wise 策略更快更精确建树，敏感于少数类样本加权精确调节各类影响力一阶+二阶梯度优化关注梯度变化大的少数类灵活的评估指标更适合实际场景（AUC、F1）高效稀疏特征处理能应对高维不均衡特征。

2025-06-26 09:41:28 763

原创类别不均衡二分类任务

问题根源调整策略类别不平衡导致优化误导使用F1/AUC作为贝叶斯优化目标模型预测倾向多数类使用FocalLoss或加权BCELoss十折交叉验证折间分布不均使用评估指标不敏感加入MCC等评估指标固定0.5阈值不合理动态调优阈值提升性能。

2025-06-24 16:25:38 278

原创多实例学习

在多实例学习中，标签并不是直接分配给单个样本，而是分配给样本的集合，通常称为“袋”（bag）。一个袋子包含多个实例（样本），而该袋子的标签只有一个，即“袋标签”。每个实例可以有不同的特征和标签，但它们共同组成一个袋子，且袋标签表示该袋子整体的标签。实例标签：袋子中的每个实例没有明确的标签，只有在特定情况下通过袋标签推断出来。文本分类：对于某些任务，一个文档可能包含多个段落，而每个段落有不同的信息，但是整个文档的标签是给定的。袋标签：每个袋子（即一个实例集）有一个标签，但袋标签不能完全反映个别实例的标签。

2025-06-24 14:13:59 106

原创分子亚型（by deepseek）

分子亚型

2025-06-11 16:06:31 336

原创多模态融合任务问题

各个模态的特征规模差异很大时，模型可能会倾向于某个特定模态（通常是信息量更大的模态），从而忽视其他模态的信息。在多模态融合任务中，对于同一个模型，有时单模态的性能比多模态的性能还要好，这是为什么？例如，基因表达和基因突变的特征可能在某些任务中有较强的关联性，但在其他情况下，它们之间的关系可能并不明显，导致多模态融合时没有显著提升。对不同模态的特征进行筛选和去噪，减少冗余信息的影响。可以使用对抗训练的策略，如生成对抗网络（GANs），帮助模型在训练时更好地利用不同模态的信息，避免某些模态过度影响模型学习。

2025-04-23 09:39:29 485

原创残差连接、跳跃连接

信息多样性增加：通过拼接，网络能够将来自多个层的不同信息融合在一起，使得模型能够从多种特征中学习，而不是仅仅依赖于某一层的变换。增强特征复用：拼接方式使得每一层都能访问到前面所有层的特征图，因此每一层不仅能够“使用”当前层的特征，还能够复用之前层的特征信息。更强的表达能力：由于拼接操作将多个特征图合并，网络在每一层接收的信息量大大增加，有助于学习更丰富的特征表示，尤其是在图像分割、目标检测等任务中，丰富的特征信息能够提供更高的精度。这种“跳过”层的方式，有助于避免过拟合，使得网络具有更好的泛化能力。

2025-04-16 14:11:04 1178

原创 VAE 训练出现nan

你可能需要尝试上述一个或多个策略，才能找到适合你的模型和数据的解决方案。尝试使用不同的初始化方法，例如Glorot初始化或He初始化，这些方法考虑到了输入和输出维度，有助于维持激活函数的输出分布。添加小的常数到KL散度计算中在计算KL散度时，添加一个很小的常数（比如1e-6）到对数计算中，可以避免对数函数中的数值不稳定（比如log(0)）。遇到变分自编码器（VAE）的KL散度损失变成NaN的情况，通常是因为数值稳定性问题。逐步调试逐步运行你的模型，检查每一步的输出，确定是哪一部分导致了NaN的出现。

2025-04-10 16:40:39 224 2

原创简单分布式模型训练（多GPU）

适用于较小规模的多 GPU 环境，容易实现并且代码较为简单。：适用于大规模的多 GPU 环境，能够提供更好的性能和扩展性，尤其是在多节点训练中更为高效。你可以根据硬件环境的规模和训练的复杂度来选择使用或。

2025-03-26 11:23:13 354

原创 EMA与迁移学习技术的结合

这使得EMA成为迁移学习中的一种有效的工具，能够提高跨领域迁移和快速适应的能力。EMA的作用：在领域适应中，源领域和目标领域的样本分布不同，训练过程中可能会产生大量的噪声，导致训练过程中的参数不稳定。EMA的作用：通过使用EMA，元学习中的参数更新可以更加平稳，使得在新的任务或少量样本下，模型能够快速而稳定地适应新任务的学习，避免过于依赖单一训练步骤的梯度信息。在元学习的训练过程中，EMA可以帮助平滑在多个任务间的参数更新，从而增强模型在面对不同任务时的适应能力，避免在快速更新过程中出现过拟合或过慢收敛。

2025-03-25 10:16:45 632

原创信息瓶颈Information Bottleneck笔记

https://zhuanlan.zhihu.com/p/454571264https://zhuanlan.zhihu.com/p/708633712https://www.zhihu.com/question/655715111/answer/3497199536https://www.zhihu.com/question/65697409/answer/3529724531https://www.zhihu.com/question/65725209/answer/3550981900http

2025-03-21 16:43:16 93

原创增量学习 ewc

知识蒸馏（Knowledge Distillation）：强制新模型模仿旧模型的输出。弹性权重巩固（EWC）：保护重要参数（通过Fisher信息矩阵量化参数重要性）课程学习（Curriculum Learning）：按难度渐进式引入新样本。问题：模型在新任务上优化时破坏旧知识（例如：训练识别鸟类后忘记如何识别猫）回放机制（Replay）：存储部分旧数据或生成伪样本（如使用GAN）灾难性遗忘（Catastrophic Forgetting）。医疗诊断：整合新发现的疾病亚型或治疗案例。

2025-03-13 16:35:46 411

原创贝叶斯推断

MCMC

2025-02-08 14:24:13 134

原创原型对比学习（占坑）

kk。

2025-02-08 14:16:19 104

原创高斯混合模型GMM

GMM

2025-02-08 14:15:06 130

原创 GO enrichment analysis by Python

ref：

2025-02-07 10:31:53 149

原创对比学习优化策略（QA by AI ）

通过选择最具有挑战性的负样本来训练，可以减少计算复杂度。在训练中，负样本通常是那些距离当前样本较近的样本，即“困难负样本”，这样模型可以更专注于对这些“困难”的负样本进行学习，避免计算那些距离远的负样本对。Online Hard Example Mining (OHEM)：在每次训练中，只选取那些最难的负样本，而忽略掉容易的负样本，从而减少负样本的数量。一些方法，如 Hard Negative Mining，会在每一轮训练中选择困难的负样本来计算损失，这不仅加速了训练，而且提高了表示学习的效果。

2025-02-07 09:56:59 746

原创 batchsize 对模型训练结果的影响

（AI生成）

2025-02-07 09:53:20 605

原创 cluster c-index

【代码】cluster c-index。

2025-02-06 16:01:10 1430

原创 t-sne亚型特征可视化Python

【代码】t-sne亚型特征可视化Python。

2025-02-05 14:57:29 166

原创 Decoupled Contrastive Learning笔记

如题。

2025-02-05 11:38:38 152

原创对比学习笔记

对比表示学习的目标是学习这样一个嵌入空间，其中相似的样本对彼此保持接近，而不同的样本对则相距甚远。

2025-02-05 10:48:53 113

原创 Convert Ensembl IDs to gene symbols

【代码】Convert Ensembl IDs to gene symbols。

2025-01-23 14:28:56 133

原创 Problems with convergence in the Cox proportional hazard model

https://lifelines.readthedocs.io/en/latest/Examples.html#problems-with-convergence-in-the-cox-proportional-hazard-model

2025-01-22 10:19:58 130

原创当面对医疗数据量少而模型复杂度高的情况

通过上述措施，你应该能够有效缓解因数据量不足而导致的模型训练困难，并提高模型在医疗应用中的可靠性和准确性。记住，医疗领域尤其需要谨慎对待模型的选择和评估，确保任何提出的解决方案都经过严格的验证流程。使用迁移学习，下载一个已经在大规模医学图像数据集（如ImageNet）上预训练好的ResNet模型，并在其基础上进行微调。利用领域知识，咨询病理学家关于关键特征的信息，进而调整模型的损失函数或正则化项，使其更符合临床实际。尝试集成学习，构建多个不同初始化的CNN模型，并通过投票或平均的方式做出最终预测。

2025-01-20 15:41:35 384

原创多模态+小样本（占坑）

zhankeng。

2025-01-15 14:46:39 96

原创 MoEs and Transformers 笔记

GLaM 这篇工作探索了如何使用仅为原来 1/3 的计算资源 (因为 MoE 模型在训练时需要的计算量较少，从而能够显著降低碳足迹) 来训练与 GPT-3 质量相匹配的模型来提高这些模型的规模。增加更多专家可以提升处理样本的效率和加速模型的运算速度，但这些优势随着专家数量的增加而递减 (尤其是当专家数量达到 256 或 512 之后更为明显)。值得注意的是，Switch Transformers 的研究表明，其在大规模模型中的特性在小规模模型下也同样适用，即便是每层仅包含 2、4 或 8 个专家。

2025-01-08 13:58:51 747

原创混合专家模型 (MoE)笔记摘要

令牌的路由方式是 MoE 使用中的一个关键点，因为路由器由学习的参数组成，并且与网络的其他部分一同进行预训练。在实际应用中，这些专家通常是前馈网络 (FFN)，但它们也可以是更复杂的网络结构，甚至可以是 MoE 层本身，从而形成层级式的 MoE 结构。总结来说，在混合专家模型 (MoE) 中，我们将传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层，其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家。与具有相同参数数量的模型相比，具有更快的推理速度。

2025-01-07 17:18:57 423

原创 Attention系列笔记

通过点积，可以衡量查询和键之间的相似性。然后对点积结果进行缩放，即除以根号dk,对点积结果进行 softmax 归一化，得到每个查询对所有键的权重;最后，用归一化后的权重对值 V 进行加权求和，得到最终的注意力输出.自注意力的目标是根据输入序列中的每个位置的特征，计算该位置与序列中其他位置的相关性。这种机制能够动态地关注输入序列中的重要部分，而不是局限于固定大小的上下文窗口。除以根号d_k这个缩放步骤是为了避免在高维空间中，点积值过大，导致 softmax 的梯度过小，造成模型训练不稳定。

2025-01-07 12:25:32 400

原创 Transformer笔记

(占坑)

2025-01-02 15:17:24 109

原创位置编码--RoPE

RoPE通过引入旋转矩阵来对序列中的每个位置进行编码，从而使得模型能够有效捕捉序列中的位置信息，尤其适用于长序列的建模。在标准的Transformer模型中，位置编码（Positional Encoding，PE）通常通过固定的正弦和余弦函数生成，旨在为模型提供序列中各个元素的位置。这个方法的一个潜在问题是，它对于长序列的泛化能力较差，尤其是在处理长文本或其他复杂的序列数据时，传统的位置编码可能无法很好地捕捉到长距离的依赖关系。这是通过旋转机制实现的，其中序列中的每个位置都由嵌入空间中的旋转表示。

2025-01-02 10:57:07 489

空空如也

空空如也