frostmelody-优快云博客

原创神经网络能不能完全拟合y=x² ？？？

先说结论：关键看激活函数的选择是的，ReLU神经网络对非线性函数（如yx2）的拟合只能是逼近，而无法实现数学意义上的完全重合。这一结论源于ReLU的分段线性本质与目标函数的非线性结构之间的根本性差异。

2025-04-04 01:35:06 590

原创如何理解神经网络中的“分段线性单元”，优雅解析前向和反向传播

虽然每一段都是线性的，但在不同段之间，斜率（或截距）的变化会导致整体函数在转折点处出现变化，这种变化就提供了非线性特性。

2025-04-03 21:28:00 1186

通过这个例子，可以看到 GANs 的具体实现其实是将生成器和判别器的对抗思想转化为代码。生成器从噪声生成图像，判别器判断真假，两者交替训练，最终生成器能生成逼真的手写数字。如果运行这段代码，经过足够多的轮次（比如 100 轮），会发现生成的图像越来越接近真实的 MNIST 数字。附：论文中提到了马尔可夫链（Markov Chain）和近似推理网络（Unrolled Approximate Inference Networks），它们是什么？马尔可夫链是一种随机过程，用来描述系统在不同状态之间转换的规律。

2025-04-03 20:15:41 534

原创结构化剪枝（Structured Pruning）与动态蒸馏（Dynamic Distillation）

结构化剪枝通过的方式去除冗余参数，保留关键子网络。：生成规则稀疏模式（如4×4权重块），便于GPU/TPU等加速器并行计算。：模块化操作更贴近人类对神经网络功能的理解。Sgradw∣∣∇wL∣∣2SacthVarhx))Stotalα⋅Sgrad1−α⋅SactW∈R16×16通过，使小模型（学生）逐步学习大模型（教师）的全局语义与局部特征，弥补参数量差距带来的性能损失。

2025-04-02 16:53:34 864

原创自动化网络架构搜索（Neural Architecture Search，NAS）

确定所有可能的网络架构组成部分，如卷积层、全连接层等。

2025-04-02 15:11:47 688

原创 LLM的Sink(水槽) Token

Sink Token 是特殊的标记(如预定义的BOS或可学习的占位符)，其隐藏状态在特定维度(Dsink)上表现出异常高的激活值。这些标记会吸引大量注意力权重，但对模型最终输出的实质性贡献极低。

2025-04-01 21:13:01 597

原创复合缩放EfficientNet原理详解（代码实现）

更深的网络可以学习更复杂特征，但容易导致梯度消失/爆炸问题，且计算量随深度线性增长。：深层网络训练困难，性能提升呈现明显的收益递减。更宽的网络能捕捉更丰富的特征，但参数量和计算量随通道数平方增长。：过于浅层的宽网络可能浪费计算资源，无法有效捕捉高阶特征。高分辨率输入保留更多细节，但计算量随分辨率平方增长。：分辨率过高时，特征信息冗余且计算成本激增。传统模型的浪费：若仅增加网络深度（层数），可能导致梯度消失且计算量激增；若仅加宽通道数，参数量会平方级增长；若仅提高分辨率，冗余计算增多。

2025-04-01 20:29:42 614

原创掩码图像建模 (MIM) 中的对数似然与交叉熵

目标：让模型对真实标签的预测概率尽可能高。数学实现：通过最大化对数似然（等价于最小化交叉熵损失）。代码实现：直接使用交叉熵损失函数，无需手动计算对数似然。

2025-04-01 14:58:13 843

原创相对位置嵌入和旋转位置编码(RoPE)

特性相对位置嵌入旋转位置编码位置信息存储方式可学习的偏置矩阵预设的旋转角度计算复杂度OL2O(L^2)OL2OLO(L)OL长度扩展性需插值或截断天然支持任意长度显式相对位置是通过旋转隐式包含参数量随窗口大小增长零参数（仅计算）典型应用。

2025-03-29 17:23:42 624

原创 NLP语言模型训练里的特殊向量

在第 ( t ) 个时间步，只能看到 ( y_1, y_2, \ldots, y_{t-1} ) 这些前面的 token，不能看到未来的信息。，但它们出现在不同类型的 NLP 模型中，并承担不同的功能。在 Transformer 类模型中，DEC token 也。用于文本生成、机器翻译、问答任务（如 GPT、T5）。依赖“过去的输出”来预测下一个词，典型的自回归结构。，但它们的使用方式略有不同，取决于具体的模型和任务。这两种损失都用于 NLP 任务，但应用场景不同。，并在训练过程中通过梯度下降不断优化。

2025-03-29 15:34:35 696

原创高斯噪声简介

在机器学习、计算机视觉、信号处理和深度学习的各种应用中，我们经常会遇到高斯噪声（Gaussian Noise）。它不仅仅是一个数学概念，更是一种广泛用于数据增强、图像处理、信号去噪以及生成模型（如扩散模型）的重要技术。

2025-03-27 15:10:05 794

原创多GPU使用与并行训练

环境变量控制 GPU 可见性：在命令行设置可以灵活选择使用哪几块 GPU。单 GPU 训练：通过将模型和数据移动到指定 GPU 上进行训练。多 GPU 训练：简单易用，但存在主 GPU 负载过高等问题，适合小规模场景。：更高效、扩展性更好（支持多机多卡），需要额外设置分布式环境（例如使用 torchrun 启动）。混合精度训练：使用可以减少显存使用并提高训练速度。数据采样：在 DDP 中使用确保各进程数据不重叠并且均衡。

2025-03-27 12:39:52 763

原创 MCP（Model Context Protocol，模型上下文协议）

MCP 全称为，是由 Anthropic 推出的一项开放标准，旨在解决当前大型语言模型（LLM）只能依靠训练数据回答问题这一局限。简单来说，MCP 就像 AI 应用领域的“万能插座”或“USB-C 接口”，为 AI 模型与外部数据源、工具和服务之间提供一个统一、标准化的连接方式，从而实现实时信息获取与动态任务执行。

2025-03-26 18:42:46 645

原创 Pytorch对tensor进行变换的函数

view与reshape都可用于改变 tensor 形状：view要求 tensor 连续，返回的是共享内存的 view。reshape更灵活，当 tensor 非连续时会自动复制数据，返回新 tensor，内存不共享。transpose和permute用于调整维度顺序：transpose只交换两个维度，适用于二维或简单交换。permute可一次性重新排列所有维度，适用于多维 tensor 的任意维度调整。如果只是调整形状且确保 tensor 连续，view速度快且节省内存。

2025-03-26 15:44:33 1084

原创集成学习算法

Bagging基本思想全称：bootstrap aggregation思想：对原始训练样本集采用自助随机采样（Boostrap Sampling）法（即有放回地随机采样），产生n个新的训练样本子集，以此分别训练n个基学习器，最后采用某种组合策略集成为强学习器典型代表：随机森林随机：数据采样随机，特征选择随机森林：很多个决策树并行放在一起Boosting基本思想思想：从弱学习器开始加强，通过加权来进行训练典型代表：AdaBoost、XgboostAdaBoost（Adaptive B

2024-11-02 20:52:49 360

原创决策树算法

信息熵是一件事不确定性的度量，信息熵越大，不确定性越大。

2024-11-02 16:31:40 159

原创 K近邻(K-Nearest Neighbor, KNN)算法

【代码】K近邻(K-Nearest Neighbor, KNN)算法。

2024-11-02 13:46:32 297 1

原创隐私计算相关知识

在这个网络中，数据的所有者可以控制数据的使用权限，数据处理者只能在指定的条件下访问和使用数据，同时保证数据的完整性和机密性。通过加密、脱敏、匿名化等手段，隐私计算能够确保数据在处理过程中不被泄露，同时还能实现数据的共享和分析，为数据的安全共享和流通提供了新的解决方案，也为人工智能、大数据等领域的发展带来了新的机遇。一旦确定了交集，就可以基于这些共享的记录进行更深入的数据融合和分析，例如，可以将共同的用户数据整合在一起，用于建立更全面的用户画像，或者将共同的产品数据组合，以进行更精确的市场分析。

2024-09-23 16:13:12 893

原创差分隐私与安全多方计算

差分隐私目的是保护你的个人信息，即使你的数据被用于分析，也不会泄露你的隐私。差分隐私要求这样的一个属性：无论某个人的记录是否包含在数据库中，查询这个数据库的结果应该不会有太大的不同。如果你从数据库中随机移除一个人的数据，然后再计算平均体重，根据差分隐私的定义，前后两次计算的结果差异应该很小。这种结合能够提升整体系统的隐私保护水平，既保护了数据持有者的隐私，又保证了模型训练的有效性和准确性。差分隐私是一种数学定义的隐私保护技术，旨在保证对数据库进行的查询结果不会泄露任何单个数据项的信息。

2024-08-12 16:16:35 859

原创第 12 课：星河杯隐私计算大赛-黑名单共享查询

赛题介绍方案设计与实现

2024-08-08 16:47:32 220

原创第 11 课：多方安全计算在安全核对的行业实践

业务背景：安全核对产生的土壤产品方案：从试点到规模化的路技术共建：与隐语的共同成长

2024-08-08 16:22:30 202

原创第 10 讲：联邦拆分推荐SplitRec

跨域推荐场景的挑战隐语的拆分学习基础架构跨域推荐的全链路解决方案

2024-08-08 15:29:43 226

原创第 9 课：隐语联邦学习

隐语水平联邦框架介绍隐语垂直联邦框架介绍大模型微调技术联邦大模型现状可信执行环境(Trusted Execution Environment)联邦大模型训练阶段存在的安全问题

2024-08-08 13:55:42 244

原创第 8 课：密态引擎SPU框架介绍

为何做SPUSPU简介现状和展望

2024-07-24 12:08:43 201

原创第 7 课：XGB算法与SGB算法开发实践

基于纵向分割数据集训练的决策树模型隐语提供的纵向树模型算法：可证安全算法SS-XGB和纵向联邦算法SGB。

2024-07-19 18:10:01 442

原创第 6 课：逻辑回归LR与广义线性模型GLM

广义线性模型是一种统计模型，可以帮助我们找到数据中的模式。一个广义线性模型有三个关键组件。

2024-07-19 16:23:06 315

原创第 5 课：基于隐私保护的机器学习算法介绍

隐语提供多种预处理工具来处理这些数据，可以直接使用 DataFrame API 处理数据，或者使用sf.preprocessing 包内的各类预处理组件处理。

2024-07-19 11:00:12 533

原创第 4 课：Linux环境安装隐语Secretflow和Secretnote

【代码】第 0 课：Linux环境安装隐语Secretflow和Secretnote。

2024-07-18 18:19:09 231

原创 RAG(Retrieval-Augmented Generation)优化

RAG是通过检索来增强生成模型的能力：将用户的查询与检索过程中获取的文档见解直接整合到prompt里，输入给语言模型。

2024-07-18 17:20:59 1832

原创第 3 课：隐语架构概览

Secure Collaborative Query Language：一种多方安全数据分析系统，可以让互不信任的参与方在保护自己数据隐私的前提下，完成多方数据分析任务在原始数据不出域的前提下，通过交换中间数据完成机器学习建模在Ray基础之上所构建的专注于跨机构的分布式计算调度框架https://github.com/ray-project/rayfed （已成为ray的孵化项目）面向跨机构场景，提供单机构内计算任务独立调度和跨机构计算任务协作的能力隐语和其它厂商的平台可以互联互通，共同完成一个

2024-07-17 14:09:18 343