明朝百晓生-优快云博客

原创强化学习[chapter8] [page17] Value Function Methods

值得注意的是，虽然准确估计给定策略的动作价值需要多次运行(8.35)式，但在算法中，每次策略改进前只执行一次价值更新，这与表格型Sarsa算法是一致的。在算法8.2和8.3中，虽然价值是用函数表示的，但策略 π(a∣s)仍然以表格形式表示。本章节介绍如何估计动作价值函数。在第8.2节讨论了状态价值估计问题的基础上，本节重点将表格型Sarsa算法和表格型Q-learning算法扩展到函数逼近（值函数近似）的场景中。通过将状态价值替换为动作价值，可以很容易地从公式(8.13)推导出函数近似下的Sarsa算法。

2025-12-29 15:15:34 326

原创强化学习 [page16][chapter8] Value Function Methods

在离散且有限的状态与动作空间中，该方法为每一个状态（或状态-动作对）分配独立的存储单元，以表格形式（如 Q 表）精确记录其对应的价值估计。：函数逼近器能够根据输入状态的特征自动产生输出，对未被访问过的状态也能给出合理的价值估计，从而显著加速学习进程，提升智能体在复杂环境中的适应性与决策能。，凭借其强大的非线性表征能力，能够拟合极其复杂的高维值函数，已成为解决像围棋、机器人控制等复杂问题的主流方法。（如线性情况下的 TD(0)）的隐含优化目标，它确保了在函数逼近空间内的最优解，从而带来可靠的学习过程。

2025-12-22 16:14:11 687 1

原创强化学习 [page15][chapter7]TD learning 总结

到目前为止，我们已经介绍了不同的时序差分算法，如Sarsa、n step-Sarsa和Q-learning。本节将引入一个统一的框架，以涵盖所有这些算法以及蒙特卡洛学习。的不同形式而具有不同表达式（详见表 7.2）。如表所示，除 Q-learning 旨在求解贝尔曼最优方程外，其余算法均以求解贝尔曼方程为共同目标。的随机近似算法(stochastic approximation algorithm)。表示时序差分目标（TD target.）。不同的时序差分算法对应不同的。TD算法可视为求解统一方程。

2025-12-18 11:11:11 317

原创强化学习 [page14][chapter7] Q-learning

当智能体。

2025-12-17 11:14:07 907

原创强化学习【chapter7】[page15]SARSA

SARSA是一种基于时序差分(TD)的在线强化学习算法，用于解决马尔可夫决策过程(MDP)。其名称来源于算法中依次使用的五个关键元素：S - 当前状态(State)A - 在当前状态下采取的动作(Action)R - 执行动作后获得的奖励(Reward)S - 转移到的下一个状态(Next State)A - 在下一个状态将采取的动作(Next Action)SARSA遵循。

2025-12-12 15:32:12 357

原创强化学习[page14]【chapter7】Temporal-Difference Learning (TD learning)

环境说明。

2025-12-10 14:53:53 643

原创强化学习[page13]【chapter7】时序差分方法算法介绍

其次，式(7.1)中的TD算法仅能估计给定策略的状态值。尽管如此，本节介绍的TD算法非常基础，对理解本章其他算法至关重要。例如，本章介绍的所有算法都属于时序差分学习的范畴。为简洁起见，式(7.2)常被省略，但必须意识到若缺少该式，算法在数学上将不完整。TD 方法的一个特点是，它在每个时间步更新其值估计，而 MC 方法则要等到回合结束才更新。TD学习的核心思想是基于新获得的信息来修正当前对状态值的估计。因此，TD误差不仅反映两个时间步之间的差异，更重要的是反映了估计值。反映了时间步t与t+1之间的差异。

2025-12-01 15:41:43 554

原创【强化学习】[page11]随机梯度下降的收敛模式

本章节并未介绍新的强化学习算法，而是重点讲解了随机逼近的基础知识，如Robbins-Monro（RM）算法和随机梯度下降（SGD）算法。与许多其他求根算法相比，RM算法的独特优势在于。研究证明，SGD算法实质上是RM算法的一个特例。均值估计作为贯穿本章的核心议题，其算法(6.4)成为本书介绍的首个随机迭代算法。我们通过分析表明，该算法可视为特殊形式的SGD算法。后续第七章将揭示时序差分学习算法具有与之相似的表征形式。问：什么是随机近似？

2025-11-26 15:09:41 603

原创强化学习[page11] 随机近似与梯度下降-1

在机器学习和深度学习中，优化算法是模型训练的核心。梯度下降算法家族中的三个重要成员：GD、BGD和SGD，并探讨为什么SGD可以被看作是RM（随机逼近）算法的一种特例https://www.youtube.com/watch?v=0YdpwSYMY6I一 GD (Gradient Descent) 梯度下降是深度学习或者机器学习里面一种经典的优化算法标准的梯度下降算法在每次迭代时使用整个训练集来计算梯度：也叫 true graident二 BGD (Batch

2025-11-25 14:20:01 367

原创强化学习【page10】随机近似与梯度下降

目录：随机近似理论背景与动机Robbins- Monro(RM) algorithm 罗宾斯-蒙罗算法Robbins- Monro(RM) algorithm Python 例子Robbins- Monro(RM) algorithm 收敛条件强化学习在大模型训练中的运用。

2025-11-21 17:08:23 983

原创强化学习【page9】MC Epsilon-Greedy

前面我们介绍了基础蒙特卡洛方法和探索开局蒙特卡洛。本章将重点讲解，通过对比其的设计与探索开局方法的差异，帮助您深入理解不同算法在解决问题上的核心思路与优劣。通过探索开局保证充分探索，进行策略迭代探索开局不现实，必须回合结束，高方差MC Basic(用于评估) ->(用于控制，但假设不现实) ->(用于控制，更现实和实用)。这三种算法共同构成了理解现代强化学习算法（如Q-learning、SARSA等）的重要基石。MC Exploring Starts 算法。

2025-11-19 10:41:28 829

原创强化学习【page8】【Monte Carlo Exploring Starts】

前言本篇主要回顾一下 Monte Carlo Basic Algorithm，然后结合一个python 例子介绍一下Monte Carlo Exploring Starts 原理，Monte Carlo Exploring Starts 主要是提高了每轮episode里面的数据使用效率核心是计算,有两种方法：2: model-free 定义法：基于 model-free定义法的策略迭代也就是 MC Basic algorithm。

2025-11-14 14:48:22 805

原创 MTBF 指标

通讯产品我们有的时候会用到MTBF 指标来评估产品的性能质量。平均故障间隔MTBF定义例子作用缺点MTBF到底是什么？平均故障间隔时间，顾名思义，是指一个可修复的产品或系统在两次相邻故障之间正常工作的平均时间。简单来说，它衡量的是“系统平均能无故障运行多久”。MTBF值越高，意味着系统越可靠，故障发生的频率越低。MTBF能测量什么？可靠性与可用性MTBF在追踪系统可靠性和可用性方面扮演着核心角色。可靠性：指系统在特定时间段内无故障运行的概率。MTBF本身就是可靠性的基本度量标准。

2025-11-10 15:28:09 801

原创强化学习【Monte Carlo Learning][MC Basic 算法]

状态转移概率往往是未知的，在这种情况下，我们通常会采用蒙特卡洛（Monte Carlo）方法进行求解（该方法本质上是通过大数定律来计算数学期望）。在使用基于模型（model-based）的强化学习方法，特别是进行策略迭代时，我们通常会通过上述公式来求解。在 Policy iteration 的时候计算了 state-action 的均值（大数定律里面的切比雪夫不等式）值迭代（value-iteration）和策略迭代（policy iteration）。蒙特卡洛 ε-贪婪算法（MC ε-greedy)

2025-10-17 17:11:32 1011

原创强化学习【Truncated Policy Iteration Algorithm】

是强化学习中一种结合策略迭代（Policy Iteration）和值迭代（Value Iteration）思想的优化算法，通过在计算效率与收敛性之间取得平衡。这是一种迭代算法解Bellman公式给定一个初始的状态值每次更新 Vk+1(s) 时，实际代码实现中这一步是并没有,，无需显式存储或输出。：在策略评估阶段，而是仅执行有限次（如 k 次）更新后即进入策略改进。这减少了计算量，同时保留了收敛性保证。

2025-09-18 16:00:03 753

原创强化学习算法：值迭代与策略迭代深度解析

主要步骤。

2025-09-16 14:50:24 941

原创强化学习【value iterration】【python]

值迭代（Value Iteration）是解决马尔可夫决策过程（MDP）的经典动态规划算法。其核心基于，通过迭代方式求解最优价值函数。1.2 矩阵形式V(s)r(s,a)通过采取行动a目的是找到最优策略使得状态值V最大通过contraction mapping 理论,可知道最优状态值可以通过迭代更新求解。

2025-09-15 15:04:41 905

原创霍夫丁不等式

霍夫丁不等式是概率论中的一个基本定理，它描述了独立随机变量的和与其期望值偏差的概率界限。简单来说，它回答了一个这样的问题：当我们用有限样本（例如抽样调查）的平均值来估计真实平均值（总体的期望）时，这个估计的误差到底会有多大？霍夫丁不等式以一种非常清晰和严格的方式，给出了这个误差超过某个特定值的概率上限。

2025-08-26 13:56:05 928

原创临床医学 RANDOM SURVIVAL FORESTS（randomSurvivalForest）-2 python 例子

随机森林 (RF) 的早期应用侧重于回归和分类问题。随机生存森林(RSF) 的引入是为了将 RF 扩展到右删失生存数据的场景。RSF 的实现遵循与 RF 相同的一般原则：使用引导数据生长生存树；在拆分树节点时使用随机特征选择；树通常生长得很深；通过平均终端节点统计数据 (TNS t) 来计算生存森林集成。生存数据中存在删失是其独有的特征，这使得 RSF 的某些方面比用于回归和分类的 RF 复杂化。在右删失生存数据中，观测数据为T是生存时间和是。代表实际观察到的事件发生时间。

2025-08-08 15:38:40 765

原创临床医学 RANDOM SURVIVAL FORESTS（randomSurvivalForest）-1

我们引入了随机生存森林（Random Survival Forests），这是一种用于分析右删失生存数据的随机森林方法。本文提出了。

2025-08-06 14:41:27 1178 2

原创临床医学AI LogRank - Test

对数秩检验是一种统计学方法，用于在随机试验中比较两组或多组结果，例如治疗组和对照组。它分析短时间内发生的事件数量，以确定两组之间治愈人数的比例是否存在显著差异。它最有效地检测出一组相对于另一组的治愈人数比例是否较高，但在检测生存期仅延长时，其效果较差。本质上也是卡方检验卡方检验是一种非参数统计检验方法，主要用于分析分类变量之间的关系。它的核心思想是比较实际观测到的频数与在某种假设下期望得到的频数之间的差异。如果这种差异大到一定程度，我们就认为这种差异不太可能是由随机误差造成的，从而拒绝原假设。

2025-08-05 15:44:30 1367

原创临床医学AI 机器学习论文阅读指南

特征列表和降维/选择方法（PCA, LASSO，SelectKBest, 相关系数阈值过滤）？影像(CT/MRI/病理)/EHR/基因组/文本？优化器、学习率、批次大小、正则化(Dropout, L2)、早停策略？作者是否充分讨论（数据量/多样性、泛化性、潜在偏倚、计算成本、缺乏临床验证）？在不同患者子群（年龄、性别、疾病亚型）表现是否一致？快速扫读结论，确认其提炼的核心信息（问题、方法、结果、创新）是否与摘要一致。（处理3D/不平衡数据、多模态融合、注意力机制）（预测、诊断、分割、预后？

2025-08-01 14:27:48 683

原创 ACM SIGCOMM 2024论文精选-01：5G【Prism5G】

挑战：4G/5G中载波聚合（CA）的广泛采用显著提升了终端用户的可实现吞吐量。然而，在存在CA的情况下，尤其是在5G领域，准确建模终端侧的吞吐量性能变得尤为困难。具体挑战包括：（1）异质性：5G信道的多样性及其组合展现出不同特性，且这些信道的可用性和配置可能因地理位置和网络部署而异；（2）复杂性：CA配置中各信道间的复杂交互与相关性增加了模型解释难度；（3）数据稀缺性：测量工作的繁琐性及商业限制导致电信公司难以扩展从商业网络中获取的开源数据集，减少了可用于训练和评估机器学习（ML）模型的数据；（4）

2025-08-01 14:13:13 1108

原创 Cox Proportional Hazards Model（PYTHON例子）

Cox PH model 是基于K-M 分析的。Cox比例风险模型（Cox Proportional Hazards Model，简称Cox模型）是生存分析中一种半参数回归模型，由英国统计学家David Cox于1972年提出。它通过建立风险函数与协变量之间的线性关系，分析多个因素对生存时间的影响，同时允许基线风险随时间变化，因此广泛应用于医学、流行病学、工程可靠性等领域。1.风险函数（Hazard Function）的定义里面的参数是通过样本的极大似然估计求解出来的。

2025-07-31 17:11:18 1024

原创机器学习特征选择 explanation and illustration of ANOVA

机器学习里面进行特征选择经常用到 selectKBest,里面的ANOVA计算过程。

2025-07-27 21:34:00 412

原创生存分析机器学习问题

然而，随着人工智能 (AI) 和机器学习 (ML) 的兴起，科学家现在能够开发更复杂的模型，揭示这些数据集中的模式和特征，从而为癌症的生物学、诊断、预后、治疗和预后提供新的见解。病情更重的患者可能接受更强（或更弱）的治疗，导致治疗方案与不良预后（死亡）强相关。数据集中包含失访或研究结束时仍存活的患者（删失数据），他们的真实生存时间未知，仅知道其存活时间不低于观察到的最后一次随访时间。优先选择参数少、结构简单的模型（如带强正则化的线性模型、简单树模型），避免复杂模型（如深度神经网络）。时刻的状态是未知的。

2025-07-22 17:17:07 1108

原创 AI 临床医学课题【总结】

最近参与了几个临床医学课题，总结一下如何跨界结合1：确定研究的方向：这个是决定文章的核心研究方向的时候，就要确定要投的期刊，平时看论文的时候要把一些常用的术语记录下来，投的期刊，研究内容，方法记录一下。

2025-07-14 22:45:18 738

原创深入理解Vapnik-Chervonenkis(VC)维度：机器学习泛化能力的理论基础

在机器学习领域，模型的复杂度与性能之间存在着微妙的平衡，即欠拟合与过拟合的权衡。而过拟合则是模型过于复杂，过度拟合了训练数据中的噪声，虽然在训练数据上表现优异，但在测试数据上表现糟糕。模型的表示能力，即其学习或表示数据复杂模式的能力，是影响模型性能的关键因素。) 量化了一个模型类（例如，所有可能的线性分类器、所有特定深度的决策树）的“拟合能力”或复杂度。总之，在机器学习中，理解欠拟合与过拟合的权衡、模型的表示能力以及VC维等概念，对于选择和优化模型具有重要的指导意义。是衡量算法性能的核心指标。

2025-07-04 10:30:52 1744 1

原创强化学习【chapter1】-基本概念

智能体相对于环境的当前状态。

2025-07-03 17:25:36 786

原创强化学习【chapter0】-学习路线图

主要总结一下西湖大学赵老师的课程【强化学习的数学原理】课程：从零开始到透彻理解（完结）_哔哩哔哩_bilibili1️⃣基础阶段（Ch1-Ch7）：掌握表格型算法，理解TD误差与贝尔曼方程2️⃣进阶阶段（Ch8-Ch9）：动手实现DQN/策略梯度，熟悉PyTorch/TensorFlow3️⃣前沿阶段（Ch10：阅读论文（OpenAI Spinning Up / RLlib文档）Chapter 1：基础概念学习内容：核心术语与问题定义知识点State（状态）、

2025-07-01 15:15:21 693

原创【Survival Analysis】【机器学习】【3】 SHAP可解釋 AI

SHAP（SHapley Additive explanations) 是一种基于博弈论的可解释工具。现在很多高分的论文里面都会带这种基于SHAP 分析的图，用于评估机器学习模型中特征对预测结果的贡献度.

2025-06-06 16:37:55 1350

原创 NR[ RF - 简介 ]

这种架构尚未被广泛接受，但已在某些手机中应用了数年，并且随着手机技术的发展（例如从GSM/CDMA到UMTS，再从UMTS到LTE），其应用范围也越来越广。上图仅显示了一个方向（接收路径），以便更直观地理解，但大多数通信系统都同时包含接收路径和发射路径，如下图所示。这对于高层次的理解来说已经足够了，但如果您是一位从事这方面工作的射频工程师，您就会了解接收路径和发射路径所用组件之间的许多细微差别。就概念而言，它看起来可能相当简单，因为大多数射频系统都是由非常相似的概念模块组成的，如下所示。

2025-05-28 11:17:18 924

原创 NR 通讯的整体架构

在大多数通信系统中，物理层之上还包含许多其他复杂的层，如下图所示。图中所示的每个模块都需要大量工程师进行研究、开发和测试，而完整的结构构成了一个庞大的产业。并假设发射器发送了一个信号，如左下角所示（蓝色），接收器检测到的信号显示在右侧（红色）。您在图中注意到的第一件事是什么？那就是发送的信号和接收的信号并不完全相同。我们来看下面的例子。这个具体例子中的区别如下。

2025-05-22 10:33:22 365

原创【Survival Analysis】【机器学习】【3】deepseek流程图

这边是直接把写好的代码放到大模型，然后大模型总结一下，推荐使用deepseek.主要测试：豆包，文言一心，以及Kimi,以及Deepseek,通义千问。下图为deepseek的效果，其它几个都没办法用。提交论文的时候,有的时候需要提供code 的流程图。

2025-05-09 17:15:51 356

原创【Survival Analysis】【机器学习】【2】

事件（如员工离职）在研究期间内明确发生，且时间点被准确记录。

2025-04-11 11:00:01 1566

原创【Survival Analysis】【机器学习】【1】

生存曲线（Survival Curves）是生存分析（Survival Analysis）中的核心可视化工具，用于描述特定群体随时间推移的生存（或事件未发生）概率。自己一直是做通讯+AI方向的，这个系列主要参考卡梅隆大学的教程，以及临床医生的角度了解一下医学领域的相关背景，针对该任务的特殊性，在模型的方向，自己也想到了一个创新的点，目前代码刚刚写完，预计本周会把结果做出来。今年在做的一个博士课题项目，主要是利用病人的数据，训练出一个AI模型，做因果分析，当人是活着的，其生存时间是大于记录的时间。

2025-04-07 09:49:23 1173

原创【强化学习】【1】【PyTorch】【强化学习简介优化框架】

为帮助学习者系统掌握该领域的核心知识与实践技能，本课程整合西湖大学赵世钰教授权威课程体系、Python代码驱动的实战项目以及模块化知识图谱（ShareNote），构建"理论-算法-实现"三位一体的强化学习教学框架.延伸概念：回合(Episode)、策略(Policy)、回报(Return)、折扣因子。核心三要素：状态(State)、动作(Action)、奖励(Reward)同策略(On-policy) vs 异策略(Off-policy)对比。策略迭代(Policy Iteration)算法。

2025-04-01 14:41:30 1136

原创【PyTorch][chapter-39][MOE][Mixtral of experts -PyTorch】[4]

这里面重点通过PyTorch 实现Transformer MoE的模型部分。

2025-03-24 15:57:25 666 1

原创【PyTorch][chapter-38][MOE-load balancing】[3]

专家混合模型的基本思想是在深度学习时代之前提出的，可以追溯到 90 年代，当时罗伯特·雅各布斯 (Robert Jacobs) 与“人工智能教父”杰弗里·辛顿 (Geoffrey Hinton) 及其同事提出了“局部专家自适应混合模型”。他们提出了将神经网络划分为多个由门控网络管理的专业“专家”的想法。随着深度学习的兴起，MoE 再次浮出水面。2017 年，Noam Shazeer 及其同事（再次包括 Geoffrey Hinton）提出了用于循环神经语言模型的稀疏门控混合专家层。

2025-03-20 19:24:16 926

原创【PyTorch][chapter-37][MOE- Mixture of Experts Explained 】[2]

FasterMoE（2022 年 3 月）分析了 MoE 在高效分布式系统中的性能，并分析了不同并行策略的理论极限，以及倾斜专家流行度的技术、减少延迟的细粒度通信调度，以及根据最低延迟选择专家的调整拓扑感知门，从而将速度提高了 17 倍。在微调稀疏 MoE 时要考虑的最后一部分是，它们具有不同的微调超参数设置 - 例如，稀疏模型往往从较小的批量大小和较高的学习率中受益更多。另一个证实泛化问题的观察结果是，该模型在较小的任务中表现较差，但在较大的任务中表现良好。对于局部用例，可能需要使用较小的模型。

2025-03-19 19:20:23 1132

强化学习chapter8 page18Deep Q learning

PyTorch[chapter-33][transformer-6] RoPE

无标题WiFi Sensing with Channel State Information: A Survey-2

Inversion about Mobius

Wasserstein GAN and the Kantorovich-Rubinstein Duality - Vincent

python 机器学习手写数字数据集

决策树3种算法，以及原理

凸优化讲解PPT

数学知识-最优化方法 .docx

约会系统，手写数字分类系统 数据集以及CODE

空空如也

约会系统，手写数字分类系统数据集以及CODE