自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 复杂系统中的机器学习瓦解与解体早期预警信号

被移除的瞬间,LCC 才会发生断崖式下跌。这时再预警为时已晚。

2025-11-14 13:24:36 1091

原创 【文献阅读】网络复杂系统演化历史的重建

这种方法巧妙地避开了直接对漫长演化过程建模的困难,而是将其分解为大量可解决的二分类问题,从而实现了从静态网络结构反推动态历史的重要突破。

2025-11-13 22:19:45 690 1

原创 欧式与非欧式数据

欧式数据具有固定坐标系统,可用欧式距离测量,包括图像、视频、语音等规律性数据。非欧式数据缺乏固定坐标系和规则结构,如图结构、超图等,其节点连接和距离关系不规则,无法用传统几何方法处理。典型例子是社交网络中节点连接数量不等的图结构数据。

2025-11-05 15:47:54 256

原创 【文献阅读】Transformer的前馈层是键值记忆系统

摘要:MorGeva等人在EMNLP 2020发表的论文揭示了Transformer前馈层的本质功能。研究发现前馈层实质上是键值记忆系统,其中"键"负责检测输入模式,"值"存储对应输出信息。通过分析训练好的语言模型,作者发现下层网络主要捕捉语法模式,而上层网络则专注于语义模式。研究还表明,模型预测是通过激活数百个记忆单元组合产生的,并通过残差连接逐层精炼。这项工作首次系统阐释了占Transformer参数三分之二的前馈层的实际作用,为理解模型内部工作机制提供了重要洞见

2025-11-04 21:29:16 645

原创 GNN家族

传统的卷积方式在欧式数据空间中大展神威,但是在非欧式数据空间中却哑火。很重要的一个原因就是传统的卷积方式在非欧式的数据空间上无法保持“平移不变性”。为了能够将卷积推广到Graph等非欧式数据结构的拓扑图上,GCN横空出世。的开创性研究之上,他们首次将卷积操作从欧几里得空间(如图像)推广到图结构数据,定义了在。可能带来的数值不稳定问题,他们引入了自环并使用了归一化后的邻接矩阵。来近似谱卷积核,避免了昂贵的特征分解,使得卷积操作是。,这使得模型训练更加稳定,并能应用于更深层的网络。的工作是一个重大推进。

2025-10-31 19:00:52 154

原创 基于神经元的多重分形分析在大模型神经元交互动力学中的应用

这是最关键的一步。在原始神经网络中,两层神经元之间有一个权重矩阵 W,其中的元素 wab​ 可以是正数或负数。问题:传统的图分析工具(如最短路径算法)通常处理非负的边权重。负权重的存在会使得“距离”的概念失去意义。解决方案:将原始的连接权重 wab​ 转换为一个非负的距离值ωab​。参数解释∣wab∣:取绝对值,因为相互作用的强度不应为负。一个很大的负权重和一个很大的正权重,都表示两个神经元之间有非常强的相互影响。p:是一个指数参数。在本文中,他们设定 p=−1。为什么这样设计?

2025-10-28 23:15:38 873

原创 【文献阅读】将 CNN 推广到图数据

Patchy-san 是一种将 CNN 推广到图数据的有效方法,通过局部邻域提取 + 图归一化解决了图结构无序和非对齐的问题,在多个任务上表现出色,为图深度学习提供了一个通用且高效的框架。

2025-10-28 17:54:39 666

原创 【文献阅读】预测临界转变的发生与类型

本研究提出了一种基于分岔理论和经验动态建模的新型早期预警信号——DEV,它不仅能够定量预测临界转变的发生,还能区分转变类型,在理论和实际应用中均表现出显著优势,为复杂系统的预警与管理提供了有力工具。

2025-10-28 12:17:46 747

原创 【文献阅读】网络动力系统临界转变的早期预测指标

这篇文章提出了一种基于深度学习的框架,用于来。以下是该方法的和。

2025-10-28 11:32:44 300

原创 【文献阅读】语言模型在过训练和下游任务中可靠地遵循扩展规律

过训练指的是在训练语言模型时,使用的训练数据量(Token数量)超过了在给定计算预算下为实现最低验证损失所推荐的“计算最优”数据量。为了理解这一点,我们首先需要了解“计算最优”训练(Chinchilla 最优)核心思想:由DeepMind的Chinchilla论文提出。对于固定的计算预算(以FLOPs衡量),存在一个模型参数规模(N)和训练数据量(D)的最佳配比,使得模型的验证损失最低。结论:Chinchilla发现,当时的大模型(如GPT-3)是“参数过大、数据不足”的。他们建议,

2025-10-28 11:26:03 903

原创 【文献阅读】涌现的渗流模型:分析在形式语言上训练的Transformer

尤其是在Transformer模型中观察到的一些能力(如上下文学习)为何会“突然出现”。作者批评现有文献中对“涌现”的定义模糊,将其与“性能突变”混为一谈,并提出一个更严格的、

2025-10-27 15:12:55 1030

原创 【文献阅读】大语言模型的涌现能力

将“涌现能力”定义为性能随规模变化的曲线中,在临界点后从随机水平。

2025-10-27 13:46:26 941

原创 读论文AI prompt

这里有几个。

2025-10-26 20:48:05 406

原创 网络渗流:爆炸渗流

渗流是统计物理研究的重要方向之一。物理学家最初用规则网状结构上的渗流来解释小的分子是如何通过化学键形成大分子物质的问题。在2000年左右,统计物理学家开始研究具有复杂结构的网络上的渗流,并以此为基础研究互联网上病毒传播、信息传播、网络上的破坏传播、社会行为传播、疾病传播等,成功描述了复杂网络上不同的微观传播机制与宏观的传播现象之间的丰富相变关系。

2025-10-25 23:38:44 758

原创 【文献阅读】Deep-learning-aided dismantling of interdependent networks

编码器用于对多层网络进行表示学习,捕捉层内和层间的结构信息。包含:① 节点级层间注意力机制:动态计算不同层之间节点的影响力权重。(box1)② 层内图卷积网络:聚合每层内邻居节点的信息。解码器基于编码器输出的节点嵌入和状态嵌入,计算每个节点的 Q 值(预期回报),指导节点拆除策略。包含:① 层级注意力机制:融合不同层的 Q 值,得到全局节点重要性评分。② MLP:用于计算每层内节点的 Q 值。box1。

2025-10-25 21:02:57 1091

原创 SPP-CNN解决CNN只能处理固定大小的输入图片

SPP-Net通过引入空间金字塔池化层,解决了传统CNN需要固定输入尺寸的问题,使网络能够接受任意大小的图片作为输入,并在卷积层与全连接层之间实现特征向量的统一尺寸输出,从而提升了检测精度与计算效率。⚠️ 如果输入图片尺寸改变,例如从 224×224改成 256×256,输出特征图大小就不再是 7×7, 可能变为 8×8,这种操作与输入图像的宽高无关(只要比卷积核大),所以输入可以是 32×32、128×128、224×224……把这张图片(或者更准确地说,是“卷积层输出的特征图”)。

2025-10-22 12:59:16 818 1

原创 【文献阅读】Learning Interpretable Dynamics of Stochastic Complex Systems from Experimental Data

分离式建模:通过三个独立的神经网络模块显式地分离了动态的不同来源。图结构感知:利用消息传递机制自然融入了网络拓扑结构。可解释性:通过两阶段符号回归,从黑箱神经网络中提取出白箱的数学方程。处理随机性:专门设计了扩散模块来建模内在随机性,并通过最大似然训练来避免过拟合。

2025-10-08 20:09:46 667

原创 【文献阅读】相依网络中的级联失效临界动力学

相互依赖网络的失效以及类似的雪崩现象,其驱动力源于级联故障。在临界点处,级联过程以临界分支过程的形式开始,即每个失效节点(元素)平均会触发另一个节点的失效。随着节点持续失效,网络脆弱性逐渐加剧,分支因子不断增大。若失效过程在临界阶段未达到终止状态,网络将发生突变性崩溃。本文通过建立该动力学过程与生灭过程之间的类比关系,推导出新的解析结果,并显著优化了数值计算。基于此方法,我们分析了该动力学过程的三个关键特征:崩溃概率、雪崩持续时间以及崩溃前级联平台期的长度。

2025-09-28 22:35:33 376 1

原创 【文献阅读】基于机器学习的网络最差鲁棒性可扩展快速评估框架

鲁棒性对于理解、设计和优化网络以及网络修复至关重要,而仿真攻击是当前主流的评估方法。然而,仿真攻击往往耗时甚至难以实施;更关键但长期被忽视的缺陷在于,任何攻击策略仅能提供一种潜在的瓦解范式。核心问题是:在最坏情况下或面临最严峻攻击时,给定系统的鲁棒性极限(称为"最差鲁棒性")究竟为何?理解系统的最差鲁棒性,对于掌握其可靠性边界、评估防护能力以及确定相关设计与安全维护成本具有决定性意义。为解决这些挑战,我们提出基于知识堆叠思想的"最大破坏攻击"(Most Destruction Attack, MDA)概念。

2025-09-26 21:34:25 375

原创 【文献阅读】基于空间金字塔池化卷积神经网络的网络鲁棒性评估综合分析

连通鲁棒性作为网络理解、优化与修复的关键指标,传统上依赖于耗时且往往难以实施的仿真评估。所幸机器学习为此提供了创新解决方案,但以下挑战仍未解决:在更普适的边移除场景中的性能表现、通过攻击曲线而非直接训练来捕捉鲁棒性特征、预测任务的可扩展性以及预测能力的迁移性。本研究通过以下途径应对这些挑战:设计融合空间金字塔池化网络(SPP-net)的卷积神经网络(CNN)模型、改进现有评估指标、重构攻击模式、引入合适的过滤规则,并将鲁棒性数值作为训练数据。

2025-09-26 20:34:58 856

原创 【复杂系统for精准医学】Processes at the intracellular scale 细胞内尺度的过程

这次继续阅读这篇文章,挖掘一下里面的引文。——Challenges and opportunities for digital twins in precision medicine from a complex systems perspective 从复杂系统视角看数字孪生在精准医学中的挑战与机遇。

2025-09-24 21:19:04 1070

原创 【复杂系统for精准医学】大规模人类行为数据 for 精准医学

如今,我们能够从和中提取与生物医学相关的,包括新的患者分层原则和未知的疾病关联。—— Challenges and opportunities for digital twins in precision medicine from a complex systems perspective 从复杂系统视角看数字孪生在精准医学中的挑战与机遇 DOI:10.1038/s41746-024-01402-3。

2025-09-22 15:16:33 1132 2

原创 Nature Physics综述:“多者异也”在真实世界多层网络中如何体现?

本文系统回顾了多层网络理论在过去十年的重要进展及其在复杂系统研究中的应用。作者指出,多层网络框架能够有效刻画系统间的互依性和多重性关系,揭示单层网络无法观测的新现象,如增强扩散、涌现的介观组织和相变等。文章从数学表示、结构特征、动力学过程到实际应用展开论述,重点探讨了多层网络在生物物理系统(如细胞互作网络、脑网络)、生态系统和社会系统中的建模优势。研究表明,多层网络分析能够更好地理解从分子到社会各尺度系统的结构与功能关系,并为系统干预提供新思路。未来研究需进一步整合多尺度信息流,发展更完善的网络干预理论框架

2025-08-25 19:22:06 695

原创 L1、L2正则化的几何解释

图中用几何方式形象地解释了 Ridge 回归(L2正则化)的原理。可以理解为(w1^2 + w2^2)​≤R^2,圆周表示目标函数的约束线,这个圆表示了我们的参数 (w1,w2)可以活动的范围。在图中心的黑点,就是普通线性回归的最小二乘解,也就是“拟合训练数据最好的点”:不是单纯让损失最小,而是让损失和权重大小都要“

2025-08-02 17:11:32 518

原创 【数理统计】正态分布和对数正态分布有什么关系

对数正态分布的随机变量XX的对数(自然对数)Y=ln⁡(X)服从正态分布,即:Y∼N(μ,σ2)其概率密度函数(PDF)表达为:2. 推导我们开始定义对数正态分布。给定一个随机变量 XX,如果它的对数 Y=ln⁡(X)Y=ln(X) 服从正态分布,即:Y∼N(μ,σ2)正态分布的概率密度函数为:我们通过对数变换得到 XX 的概率密度函数。由于 Y=ln⁡(X),我们需要找到 X的概率密度函数。首先,设则 y=ln⁡(x)。然后,我们需要对 x进行求导,得到。

2025-06-30 16:01:06 610

原创 jupyter notebook Kernel Restarting内核崩溃的解决

一直报错Kernel Restarting The kernel for grokking/attention matricx.ipynb appears to have died. It will restart automatically.

2025-06-26 18:11:39 506

原创 【Transformer】Transformers without Normalization

在深度学习里,数据就像水流一样,在网络的各层之间流动。但每层网络的参数不一样,处理数据的“口味”也不同。这就会导致一个问题:数据在流经每一层时,分布会发生变化,变得越来越“歪”。这不仅会让网络学习效率变低,还可能导致梯度爆炸或消失,让训练直接“崩掉”。归一化层就像一个“水质净化器”,把每层输出的数据“过滤”一下,调整到合适的分布,让网络训练更稳定、更快。常见的归一化方法有 batch Normalization或Layer Normalization,等等。

2025-06-18 11:26:26 812

原创 【机器学习】Teacher-Student框架

【代码】【机器学习】Teacher-Student框架。

2025-06-12 10:39:37 648

原创 【文献精读】Explaining grokking through circuit efficiency

当训练处于 𝐷 ≈ 𝐷crit附近时(此时记忆电路 𝐶mem与泛化电路 𝐶gen的效率大致相当),收敛后的最终网络应满足以下两种情形之一:1.完全由最高效的电路构成;2. 𝐶mem与 𝐶gen以近似比例共存。若为第二种情形,我们应观察到:在训练精度接近完美后,测试精度会显著延迟地过渡至中等水平。在实践中展示半顿悟(semi-grokking)的实例存在若干困难。首先,随着数据集规模 $D$的减小,顿悟所需时间呈超指数级增长(Power et al.,2021,图1),而临界数据集规模。

2025-06-03 23:47:26 693

原创 【Transformer】Rank Collapse

例如,Dong等人的研究表明,在仅包含注意力层的 Transformer 中,所有Tokens的表征会随着网络深度的增加以双指数速率收敛到同一个单一表征,即深度Rank Collapse。研究指出,宽度Rank Collapse是由注意力矩阵谱中的一个谱隙驱动的,并且它会进一步加剧已知的深度Rank Collapse以及梯度爆炸问题。LayerNorm 在防止Rank Collapse方面扮演着比以往认知更复杂和积极的角色,它不仅可以阻止表征完全塌缩,还能在保持高秩的同时允许各向异性表征的存在。

2025-05-29 11:54:37 407

原创 降维方法:PCA,t-SNE, Umap

几篇不错的博客:

2025-05-29 11:10:27 304

原创 优化器optimizer及实例化代码

Nesterov动量由Yurii Nesterov在1983年提出,它是一种动量优化方法,通过结合前几步的梯度信息来调整当前的更新。Nesterov动量的主要思想是,利用历史梯度信息来预测当前梯度的方向,从而更有效地进行参数更新。

2025-03-07 21:38:38 762

原创 MCC(Matthews Correlation Coefficient)分数

MCC(Matthews Correlation Coefficient)分数是一种用于评估的指标。它综合考虑了真正例(TP)、假正例(FP)、真负例(TN)和假负例(FN)的数量,能够提供一个更全面的模型评估,尤其是在类别不平衡的情况下。

2025-03-05 15:10:36 826

原创 F1分数,调和平均数

精确率 (Precision): 在所有被模型预测为正类的样本中,实际为正类的比例。其中:TP(True Positives): 真阳性,正确预测为正类的样本数量。FP(False Positives): 假阳性,错误预测为正类的样本数量。召回率 (Recall): 在所有实际为正类的样本中,被模型正确预测为正类的比例。其中:FN(False Negatives): 假阴性,错误预测为负类的样本数量。F1 分数什么是调和平均数?为什么使用调和平均数?

2025-03-05 14:32:06 940

原创 【机器学习】训练(Training)、验证(Validation)和测试(Testing)

这种三阶段的划分方法是机器学习中的最佳实践,能够帮助我们建立既能在训练数据上表现良好,又能很好地泛化到新数据的模型。- 这种划分方法有助于评估模型的真实性能,避免过拟合。- 通常使用最大的数据集比例(60-80%的数据)- 这个阶段可能会多次重复,直到找到最优的模型配置。- 这个阶段只进行一次,用来评估最终模型的实际性能。- 使用测试集对最终选定的模型进行评估。- 使用验证集来评估模型的泛化能力。- 防止过拟合,选择最佳的模型配置。- 通常使用 10-20% 的数据。- 通常使用 10-20% 的数据。

2025-02-06 17:40:15 1434

原创 【Msys2】

除了常用的开发库和工具之外,MSYS2还提供了许多专门针对Windows平台的库和工具,方便开发人员进行跨平台开发和移植工作。很多人都觉得 Linux 相比于 Windows 而言更适合开发,但由于 Windows 在 PC 上占有量巨大,一些程序即使原本在 Linux 上开发的,最终往往需要部署到 Windows 环境。由于MSYS2拥有比较完整的Linux工具链和库,因此它成为了许多跨平台开发和移植项目的首选工具。在跨平台开发中,宏特别有用,因为它可以帮助我们根据不同的操作系统编写适配的代码。

2025-02-06 17:38:19 347

原创 【Orca】Orca - Graphlet 和 Orbit 计数算法

Orca(ORbit Counting Algorithm)是一种用于对网络中的小图进行计数的有效算法

2025-01-08 15:33:34 1194

原创 【深度学习】EMA指数移动平均

EMA通过对参数进行平滑处理,使得较新的参数值对应的权重较大,较旧的参数值对应的权重较小。这样可以更好地反映参数的变化趋势,并在模型训练中提供更稳定的更新。下面是一种常见的使用EMA进行参数更新和优化的方法,称为。

2025-01-07 10:31:10 1211

原创 【文献精读笔记】Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)(五)

***非斜体正文为原文献内容(也包含笔者的补充),灰色块中是对文章细节的进一步详细解释!五、 解释评估(Explanation Evaluation)在前面的章节中,我们介绍了不同的解释技术和它们的用途,但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类:传统微调范式的局部解释评估(第5.1节)和提示范式中自然语言CoT解释的评估(第5.2节)。评估的两个关键维度是和。从技术上讲,评估解释包含和。人工评估通过模型依据(model rationales)与人类依据。

2025-01-01 19:11:33 1094

原创 【文献精读笔记】Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)(四)

发现在保持或提高T5-XL模型在保留数据集上的性能的同时,可以移除60%。此外,一些研究还深入研究了LLMs生成的。

2025-01-01 14:44:46 1461

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除