- 博客(129)
- 收藏
- 关注
原创 如果已完成一个10B的基础模型训练,现在想扩大到100B,除了直接训练100B的模型,有没有其他的解决办法避免完全训练模型,比如10B和100B的模型参数之间有没有什么扩展规律,类似于图像的超分辨
有“类比”但不是完全等价:图像超分辨率直接学习从低分辨率到高分辨率的映射(像素级),而模型放大牵涉到架构、优化与训练分布,不是纯粹的插值问题。已有方法(Net2Net、learning-to-grow、层复制、MoE、PEFT)确实是“模型超分辨率”的近亲 —— 能把小模型的知识映射到更大模型并显著减少训练,但通常仍需若干量级的微调/短期训练来激活新增参数并恢复/提高性能。可以避免完全从头训练,但不能完全免去再训练(至少目前为止学术与工程实践都表明如此)。
2025-11-17 16:42:44
652
原创 Focal loss第三方库
是的,Focal Loss 是一个非常常用的处理类别不平衡的损失函数,因此有许多第三方库提供了经过良好测试和优化的实现。使用这些库可以避免自己实现时可能出现的数值不稳定等问题。
2025-09-25 16:57:24
837
原创 论文 *“The Platonic Representation Hypothesis”*
总的来说,这篇论文提出了一个比较宏观、哲学加实证结合的看法:AI 模型的表示是否随着规模与多样性而趋同,并朝向一个“共同的现实(统计结构)”的映射。作者通过已有文献的综述加若干实验支持这一想法,同时也说明了限制与未来研究方向。如果这个假设成立,它对 AI 的设计、训练方式以及跨模态模型的发展有深刻意义。不过现阶段证明还远未完成,而且“趋同”的程度与具体内容还有很多需要实证和理论澄清的地方。
2025-09-17 11:04:06
455
原创 *PHI-S 标准化方法
上训练,特征分布可能存在较大差异(distribution shift)。如果直接把这些教师的知识传递给学生模型(student),学生会面对严重的。它不是简单的 Z-score 或 Min-Max 标准化,而是一个。的缩写(部分论文也简写为 PHI-S norm)。场景下提出的一种特征标准化策略。多源教师模型(teachers)往往在。问题,从而导致蒸馏不稳定、融合不充分。
2025-09-09 09:50:28
376
原创 注意力缺陷改进论文-MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understan
(MODA)这篇论文的全文(包含 PDF / OpenReview / 代码仓库),下面把论文的方法、核心原理、优点/局限、以及可复现/改进建议做成一份结构化的分析给你。为方便后续引用,我在关键论断后给出来源链接。
2025-09-05 11:25:10
415
原创 领域适应算法
初始分布:展示多个源域和目标域的初始数据分布。选择最近源域:计算目标域与每个源域的距离,并选择最接近的源域。领域适应:使用选定的源域数据对目标域进行适应,调整模型参数或特征表示。最终分布:展示经过领域适应后的目标域数据分布,验证领域适应的效果。通过这一系列步骤,该算法有效地利用了多个源域的数据,提高了模型在目标域上的性能。基于您提供的算法描述,我将为您实现一个简单的领域适应(Domain Adaptation)代码示例。该代码将使用PyTorch框架,并假设我们有多个源域和一个目标域的数据。
2025-09-04 15:12:30
1005
原创 Bonferroni校正
特性Bonferroni校正目的解决多重比较问题,严格控制整体假阳性风险(FWER)方法优点简单,严格,解释性强缺点过于保守,导致统计功效降低,假阴性率高适用场景当检验次数不是特别多,或者任何一个假阳性的后果都非常严重时。在本论文中的角色为确保数百万次检验结果的可靠性和严谨性,作者选择了最严格的Bonferroni校正,虽然会错过一些弱信号,但能保证报告的每一个关联都是高度可信的。
2025-08-29 16:02:21
965
原创 SMOTE paper note
然而,应用的性质要求少数类别具有相当高的正确检测率,并且允许多数类别的错误率较低,以实现这一目标。Lee, 2000)。我们的方法(Chawla、Bowyer、Hall & Kegelmeyer,2000)将多数类的欠采样与一种特殊形式的少数类过采样相结合。使用各种数据集和 C4.5 决策树分类器 (Quinlan, 1992)、Ripper (Cohen, 1995b) 和朴素贝叶斯分类器进行的实验表明,我们的方法比使用 AUC 或 ROC 凸包的其他先前重新采样、修改损失率和类先验方法有所改进。
2025-07-15 11:25:46
513
原创 SMOTE
实现的 SMOTE 代码(无第三方库依赖),并示范它在不均衡二分类任务中的典型用法。代码已写成可复用 class,便于插入到常见的 Dataset / DataLoader 流程中。随后解释 SMOTE 的工作机理、常见超参数以及在实践中如何选择它们。
2025-07-15 10:36:43
927
原创 提高 AUC(Area Under the ROC Curve)一些针对性的策略
在样本不均衡(二分类任务中,正负类比例严重偏斜)的情况下,提高。
2025-07-15 10:08:11
581
原创 LightGBM 在处理**不均衡二分类任务**时,能在 **AUC 和 Accuracy** 两个指标上表现良好
LightGBM 不局限于优化 Accuracy,而可直接优化 AUC在调参和 EarlyStopping 时依据 AUC 而非 Loss,更适合不平衡问题✅直接提升 AUC:优化目标对齐✅间接提升 Accuracy:更合理地找到分类阈值机制影响 AUC 的方式影响 Accuracy 的方式类别权重调整提升少数类排序得分平衡预测数量分布Leaf-wise 策略提升局部精度与识别能力更好建模边界样本信息增益分裂保证少数类能主导决策更准确识别易混类别直方图分裂。
2025-07-14 17:13:35
426
原创 LightGBM(Light Gradient Boosting Machine)
特性描述带来的好处每次扩展增益最大的叶子更高精度,更快收敛直方图分裂近似搜索分裂点更低内存,更快训练原生支持类别特征无需 One-Hot更快更简洁内建稀疏优化自动跳过 0 / NaN适合高维稀疏特征支持分布式训练高效扩展大数据场景更友好类别不均衡处理机制易于处理不均衡问题LightGBM 是一种高效、可扩展、支持稀疏特征和类别不均衡的梯度提升框架,其通过 Leaf-wise 策略和直方图加速大幅提升了训练效率与预测性能。
2025-07-14 17:05:11
543
原创 提高 **神经网络模型** 的表现
调整类别权重:使模型对少数类样本更敏感。加权损失函数:使用加权交叉熵、Focal Loss 等损失函数增强少数类样本的影响。过采样和欠采样:调整训练集的样本比例,使类别分布更平衡。焦点损失(Focal Loss):关注难以分类的少数类样本。自适应学习率:使用学习率调度器,避免过拟合。输出概率:利用概率输出计算 AUC 等指标,评估模型在不平衡数据上的性能。通过结合这些策略,你可以让神经网络在类别不平衡的任务中,既保持较好的Accuracy,又提升AUC和F1-score。
2025-07-06 15:06:55
798
原创 LightGBM 类别不平衡任务
参数,可以通过调整正负样本的权重来提高对少数类的预测能力。Leaf-wise分裂策略,使得 LightGBM 在训练过程中能够更加精细地关注到难以分类的样本,特别是少数类。Boosting 框架,通过加权训练样本,使得模型能够自动关注误分类的少数类样本。内建的类别权重调整和样本重采样技巧,可以进一步提高模型对少数类的识别能力。这些特性使得 LightGBM 在类别不平衡的二分类任务中往往能够获得较好的AUC和F1-score,比其他模型(如神经网络)在此类任务中的表现更为稳健。
2025-07-06 14:59:47
1061
原创 四种学习范式
学习范式数据要求主要任务示例任务监督学习完全标注的数据分类(预测标签)、回归(预测数值)图像分类、情感分析、房价预测弱监督学习部分标注、不完全或噪声标签数据分类、回归、增强模型鲁棒性弱标注图像分类、噪声标签文本分类自监督学习无标注数据,通过生成伪标签学习预训练特征表示,迁移到下游任务图像预训练、BERT文本表示学习无监督学习无标签数据聚类、降维、异常检测K-means聚类、PCA降维、异常检测不同的学习范式根据数据的可用性、任务的复杂度以及计算资源的不同,在实际应用中各有优劣。
2025-06-27 17:34:20
1043
原创 概率密度基本概念
(Probability Density)是概率论中用于描述随机变量分布的一种方式,特别适用于连续随机变量。它并不是一个概率值,而是表示单位范围内的概率大小或“浓度”。更具体地说,概率密度表示在某个特定值附近,随机变量可能取到某个值的相对可能性。
2025-06-27 11:00:20
1058
原创 lightgbm
机制优势自动或手动处理类别不平衡leaf-wise 策略更快更精确建树,敏感于少数类样本加权精确调节各类影响力一阶+二阶梯度优化关注梯度变化大的少数类灵活的评估指标更适合实际场景(AUC、F1)高效稀疏特征处理能应对高维不均衡特征。
2025-06-26 09:41:28
987
原创 类别不均衡二分类任务
问题根源调整策略类别不平衡导致优化误导使用F1/AUC作为贝叶斯优化目标模型预测倾向多数类使用FocalLoss或加权BCELoss十折交叉验证折间分布不均使用评估指标不敏感加入MCC等评估指标固定0.5阈值不合理动态调优阈值提升性能。
2025-06-24 16:25:38
417
原创 多实例学习
在多实例学习中,标签并不是直接分配给单个样本,而是分配给样本的集合,通常称为“袋”(bag)。一个袋子包含多个实例(样本),而该袋子的标签只有一个,即“袋标签”。每个实例可以有不同的特征和标签,但它们共同组成一个袋子,且袋标签表示该袋子整体的标签。实例标签:袋子中的每个实例没有明确的标签,只有在特定情况下通过袋标签推断出来。文本分类:对于某些任务,一个文档可能包含多个段落,而每个段落有不同的信息,但是整个文档的标签是给定的。袋标签:每个袋子(即一个实例集)有一个标签,但袋标签不能完全反映个别实例的标签。
2025-06-24 14:13:59
193
原创 多模态融合任务问题
各个模态的特征规模差异很大时,模型可能会倾向于某个特定模态(通常是信息量更大的模态),从而忽视其他模态的信息。在多模态融合任务中,对于同一个模型,有时单模态的性能比多模态的性能还要好,这是为什么?例如,基因表达和基因突变的特征可能在某些任务中有较强的关联性,但在其他情况下,它们之间的关系可能并不明显,导致多模态融合时没有显著提升。对不同模态的特征进行筛选和去噪,减少冗余信息的影响。可以使用对抗训练的策略,如生成对抗网络(GANs),帮助模型在训练时更好地利用不同模态的信息,避免某些模态过度影响模型学习。
2025-04-23 09:39:29
547
原创 残差连接、跳跃连接
信息多样性增加: 通过拼接,网络能够将来自多个层的不同信息融合在一起,使得模型能够从多种特征中学习,而不是仅仅依赖于某一层的变换。增强特征复用: 拼接方式使得每一层都能访问到前面所有层的特征图,因此每一层不仅能够“使用”当前层的特征,还能够复用之前层的特征信息。更强的表达能力: 由于拼接操作将多个特征图合并,网络在每一层接收的信息量大大增加,有助于学习更丰富的特征表示,尤其是在图像分割、目标检测等任务中,丰富的特征信息能够提供更高的精度。这种“跳过”层的方式,有助于避免过拟合,使得网络具有更好的泛化能力。
2025-04-16 14:11:04
1401
原创 VAE 训练出现nan
你可能需要尝试上述一个或多个策略,才能找到适合你的模型和数据的解决方案。尝试使用不同的初始化方法,例如Glorot初始化或He初始化,这些方法考虑到了输入和输出维度,有助于维持激活函数的输出分布。添加小的常数到KL散度计算中在计算KL散度时,添加一个很小的常数(比如1e-6)到对数计算中,可以避免对数函数中的数值不稳定(比如log(0))。遇到变分自编码器(VAE)的KL散度损失变成NaN的情况,通常是因为数值稳定性问题。逐步调试逐步运行你的模型,检查每一步的输出,确定是哪一部分导致了NaN的出现。
2025-04-10 16:40:39
345
2
原创 简单分布式模型训练(多GPU)
适用于较小规模的多 GPU 环境,容易实现并且代码较为简单。:适用于大规模的多 GPU 环境,能够提供更好的性能和扩展性,尤其是在多节点训练中更为高效。你可以根据硬件环境的规模和训练的复杂度来选择使用或。
2025-03-26 11:23:13
434
原创 EMA与迁移学习技术的结合
这使得EMA成为迁移学习中的一种有效的工具,能够提高跨领域迁移和快速适应的能力。EMA的作用:在领域适应中,源领域和目标领域的样本分布不同,训练过程中可能会产生大量的噪声,导致训练过程中的参数不稳定。EMA的作用:通过使用EMA,元学习中的参数更新可以更加平稳,使得在新的任务或少量样本下,模型能够快速而稳定地适应新任务的学习,避免过于依赖单一训练步骤的梯度信息。在元学习的训练过程中,EMA可以帮助平滑在多个任务间的参数更新,从而增强模型在面对不同任务时的适应能力,避免在快速更新过程中出现过拟合或过慢收敛。
2025-03-25 10:16:45
695
原创 信息瓶颈Information Bottleneck笔记
https://zhuanlan.zhihu.com/p/454571264https://zhuanlan.zhihu.com/p/708633712https://www.zhihu.com/question/655715111/answer/3497199536https://www.zhihu.com/question/65697409/answer/3529724531https://www.zhihu.com/question/65725209/answer/3550981900http
2025-03-21 16:43:16
109
原创 增量学习 ewc
知识蒸馏(Knowledge Distillation):强制新模型模仿旧模型的输出。弹性权重巩固(EWC):保护重要参数(通过Fisher信息矩阵量化参数重要性)课程学习(Curriculum Learning):按难度渐进式引入新样本。问题:模型在新任务上优化时破坏旧知识(例如:训练识别鸟类后忘记如何识别猫)回放机制(Replay):存储部分旧数据或生成伪样本(如使用GAN)灾难性遗忘(Catastrophic Forgetting)。医疗诊断:整合新发现的疾病亚型或治疗案例。
2025-03-13 16:35:46
623
原创 对比学习优化策略(QA by AI )
通过选择最具有挑战性的负样本来训练,可以减少计算复杂度。在训练中,负样本通常是那些距离当前样本较近的样本,即“困难负样本”,这样模型可以更专注于对这些“困难”的负样本进行学习,避免计算那些距离远的负样本对。Online Hard Example Mining (OHEM):在每次训练中,只选取那些最难的负样本,而忽略掉容易的负样本,从而减少负样本的数量。一些方法,如 Hard Negative Mining,会在每一轮训练中选择困难的负样本来计算损失,这不仅加速了训练,而且提高了表示学习的效果。
2025-02-07 09:56:59
883
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅