赵荏苒-优快云博客

原创 CS336第三课

这套“RMSNorm + 门控 FFN + 并行层/FlashAttention/GQA + RoPE + QK-norm/z-loss + KV cache”的组合拳，核心是把“数值稳定性”和“显存访问”当成一等公民，在同等成本下拿到更快的收敛与更稳的推理。• 形状：q/k/v 常 reshape 为 [B, heads, seq, head_dim]；• 思想：为 MLP 隐层引入门控，把“值流”（value）与“门”（gate）分离（GeGLU / ReGLU / SwiGLU 等）。

2025-09-18 20:07:03 1003

原创 CS336第二课笔记

精度选择（FP32, bfloat16, FP8） → 在速度 / 内存 / 数值稳定性间权衡。FLOPs 和 MFU → 衡量硬件利用率与优化目标。内存分解 → 需要关注参数、激活、梯度、优化器状态。优化器演化 → 从 SGD 到 Adam，逐步增加历史信息利用。大数据集处理 →memmap等技术至关重要。

2025-09-17 10:53:54 915

原创 2025.9.25大模型学习

跟着学 CS336，你不是在学“怎么调大模型”，而是在学“大模型本身是怎么构建出来的、它到底为什么work、它还有哪些可改进的地方”。偏好数据选择a和b DPO GRPO从经验中学习。模型要做什么：模型功能由数据决定。数据处理：把HTML变成文本。监督微调 DPO GRPO。Alignment？SFT监督微调一对一。

2025-09-15 17:49:29 486

原创无人机论文感想

VO障碍物---避障时间窗口（约束）----速度障碍法避障------模糊控制速度障碍物----时间窗口隶属度----去模糊化。速度避障策略实时调整速度、避障时间窗口应对环境变化模糊控制器变量。①无障碍物 DDPG P_DDPG(加入归一化的DDPG)状态转移奖励函数：避障、任务完成、碰撞、路径跟踪。路径跟踪P_DDPG+动态障碍物DVO=路径跟踪。5、DDPG ：①无障碍物 ②有动态障碍物。后者更收敛、更稳定、路径偏移更小。DVO更稳定、位移量低、碰撞率低。3、路径跟踪约束避障约束。

2025-06-03 16:46:59 466

原创 Python小白之Pandas1

df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])#三步：①生成一个随机序列6行四列②行名称为dates定义的③列名称为abcd。print(df3[0:2],df3['20241004':'20241005'])#打印切片选择前两行。print(df3.loc['20241004',['a','b']])#筛选列和行混合。print(df3.loc[:,['a','b']])#筛选列。

2024-10-04 14:50:13 745

原创 Python小白之numpy3-numpy完结篇

print(np.array_split(G,3,axis=1))#可以进行不等量的分割。print(np.split(G,2,axis=1))#1代表把行不动，把列切成两块；print(np.split(G,3,axis=0))#1代表把列不动，把行切成三块；b=a.copy()#deep copy，把a的值给b，但是不想让他们关联起来。print(np.hsplit(G,2))#对行进行分割。print(np.vsplit(G,3))#对行向分割。###以上全为一个变量#####

2024-10-03 16:39:00 271

原创高工相关概念

③三角不等式d(x,y)≤d(x,z)+d(y,z)对所有x,y,z属于X成立。则称d(x,y)为x，y之间的距离，并称X是以d为距离的距离空间，记作（X，d）①非负性：d(x,y)＞0，d(x,y)=0当且仅当x=y。主要写这篇博客就是想加深一下自己对相关概念的认识和理解。②对称性d(x,y)=d(y,x)1.1距离空间、极限与连续性。

2024-09-29 16:12:31 204

原创 Python小白之numpy2

numpy的array合并。print(np.clip(A,5,9))#给定最小值和最大值，滤波，让所有小于min的值都等于min，所有大于max的值都等于max，其他的保留不变。print(np.cumsum(A))#逐步累加，第一个是第一个的值，第二个是第一个加第二个，第三个是第一个加第二个加第三个。A=np.arange(14,2,-1).reshape(3,4)#打印一个从2开始有12个数字的数组，是三行四列的。print(np.transpose(A))#从矩阵的对称轴开始，行变列，列变行。

2024-09-23 20:06:16 575 1

原创机器学习之概念1

今天去上机器学习的课，其中我觉得可以套用之前学的强化学习，其中P是评估，T是任务，E是经验，就是利用经验来提高相关的评估任务，从数据中学习，从统计机器中学习，其中可以分为有监督的机器学习和无监督的机器学习。强化学习：agent通过奖惩来调整下一步动作，一般把一条记录存为列向量，编程的时候再转秩。①分类问题:输入集合，输出离散。首先假设函数，用已有数据训练，求未知常量，用新数据训练，判断是否拟合。代价/损失函数：预测值和真实值的差。②回归问题：输入集合，输出连续。③聚类问题：用数据找相似数据。

2024-09-23 16:31:00 573

转载对《海上无人搜索系统综述：理论、应用和未来方向》的一些总结

一艘无人潜航器、两架无人机、通信模块、制导模块和控制模块以及协同搜索控制中心组成，USV配备智能导航系统、舰载无人机库、风速计、姿态测量和数据交互服务器、视觉目标探测器、主机系统和舵机系统等。海上无人搜索系统的未来研究方向海上无人搜索是视觉探测、路径规划、自主跟踪控制、通信和构建的交叉学科，无人驾驶车辆必须向搜索中心传输实时信息，包括位置、姿态和图像数据。目前需要使用的方法就是路径规划、智能控制、目标检测、路径跟踪控制、高精度热像仪、高可靠性通信、自动识别系统、海上雷达、摄像头。一个是救，即海上救援。

2024-09-20 17:49:16 895

原创强化学习（Value Function Approximation）-Today9

Value Function Approximation主要是使用神经网络来求最优解问题，主要包括Algorithm for state value function、Sarsa和value function approximation的结合、Q-learning和value function approximation的结合、Deep Q-learning。,其实就是将Algorithm for state value function的state value换为action value。

2024-07-07 17:56:25 587

原创 numpy之数据处理

本博客包含对numpy的索引、array合并分割、copy&deep copy。

2024-07-07 16:31:37 177

原创强化学习（On-Policy Learning and Off-Policy Learning）-Today8加更版

target policy：在已有的基础上不断更新最优策略,和环境交互，然后改进策略，在从环境交互的情况下选出最优策略，只在最初和环境交互。1.behavior policy:和环境交互性强，探索性更强，和环境不断交互，再更新算法，在和环境交互......On-Policy Learning和Off-Policy Learning在于Policy Update算法是使用。,a=其他policy。

2024-07-06 22:04:40 510

原创强化学习（Temporal-Diffference learning）-Today8

Temporal-Diffference learning简称TD,是一种时序差分算法，以下主要包括TD算法的state value形式、TD算法的action value形式，如Sarsa、Expected Sarsa、n-Step Sarsa、Q-learning.，以下式子表述了在t+1时刻的state value和t时刻的state value的关系，使state value更接近最优的state value。证明：t+1时刻的state value更接近t时刻的state value。

2024-07-06 22:04:24 1227

原创强化学习（Stochastic iterative algorithms and Stochastic Gradient Descent)-Today7

主要基于Robbins-Monro algorithm 简称RM展开，其中介绍RM以及mean estimation、gradient descent（GD）、batch gradient descent（BGD）、stochastic gredient descent（SGD）、momentum batch gradient descent（MBGD），此条件保证g（w）有界且经过横轴，g（w）递增且是凸函数。，此条件保证g（w）可以收敛至0，方程有解。为对g（w）=0的第k次估计，也就是最优解的估计，

2024-07-05 23:27:35 949

原创强化学习（Monte Carlo learning）-Today6

Monte Carlo learning简称 MC，是model-free算法，也就是不基于模型的算法，Today5发布的value iteration and Policy iteration algorithm是model-based算法，是基于模型的算法，也就是说，没有模型的构建，需要数据的支撑，MC包括三个算法，分别是MC Basic 、MC Exploring Starts 和。时，服从均匀分布，每个policy的概率相等，是more exploration，更多的探索。

2024-07-05 21:18:08 1290

原创强化学习(Value iteration and Policy iteration Algorithms)-Today5

value iteration 和policy iteration的区别在于value iteration是从state value开始的，而policy iteration是从策略policy开始的。开始，value iteration相当于只计算了一步，而policy iteration相当于计算了无穷步，由于取一个收敛的折中情况得到truncated policy iteration，由于policy iteration在理论上不存在，所以存在了这个截断策略迭代。:也分为两个步骤（包含内嵌迭代算法）

2024-07-03 20:38:54 388

原创 Python之小白numpy

调用还是很方便哒，加油加油。

2024-07-02 21:15:22 153

原创强化学习(Bellman Optimality Equation)-Today4

对所有的策略π都成立，可以想象一下在不同抽奖箱抽奖，在A箱获奖概率为50%，在B箱获奖概率为80%，那么我们如果抽十次，一定希望每次都是B箱，可问题如果是搞混了两个箱子，并不知道哪个是A哪个是B呢？时，相应的policy也会随之做出改变，而如果r线性变为ar＋b，则最优策略不会改变。

2024-07-02 21:08:51 196

原创强化学习Bellman Equation-Today3

return是针对一个策略求最优解，而state value是可以针对多个策略求最优解，所以在贝尔曼公式中，return是state value求解策略的特例。贝尔曼公式是策略评估的一个工具，policy evaluation就是给出policy，列出贝尔曼公式，求解贝尔曼公式，最后得到state value进行评估，value就是价值，价值越大，策略越好。return为整个轨迹所获得的reward，求解贝尔曼公式就是找到一个最优策略来获得return最多。为state value。时，通过不断迭代求解。

2024-07-02 20:26:31 531

原创强化学习感悟

今天看了李老师的强化学习，不太明白，打算先学赵老师的强化学习数学课和Python。

2024-06-28 21:14:32 164

原创强化学习 Basic Concepts-Today2

⑤reward：即从一个state选择action所对应的奖励，如果走到禁止forbidden区域，则reward=-1。④policy：目标在一个状态下做出的行动，就是在一个位置下是怎样走可以赢得比赛所对应行走方向。趋于0时，则函数结果着眼于最近的reward，反之趋于1时，则趋于较远的reward。为0到1之间的数字，防止五子棋走到终点之后仍移动，使整个学习过程是收敛的即。①state：状态，就是我们所观察到的东西，如五子棋在棋盘的位置。②action：行动，即五子棋的移动，即可以前后左右移动。

2024-06-28 21:12:42 432

m0_52094641的博客