自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 问答 (2)
  • 收藏
  • 关注

原创 CS336第三课

这套“RMSNorm + 门控 FFN + 并行层/FlashAttention/GQA + RoPE + QK-norm/z-loss + KV cache”的组合拳,核心是把“数值稳定性”和“显存访问”当成一等公民,在同等成本下拿到更快的收敛与更稳的推理。• 形状:q/k/v 常 reshape 为 [B, heads, seq, head_dim];• 思想:为 MLP 隐层引入门控,把“值流”(value)与“门”(gate)分离(GeGLU / ReGLU / SwiGLU 等)。

2025-09-18 20:07:03 1003

原创 CS336第二课笔记

精度选择(FP32, bfloat16, FP8) → 在速度 / 内存 / 数值稳定性间权衡。FLOPs 和 MFU → 衡量硬件利用率与优化目标。内存分解 → 需要关注参数、激活、梯度、优化器状态。优化器演化 → 从 SGD 到 Adam,逐步增加历史信息利用。大数据集处理 →memmap等技术至关重要。

2025-09-17 10:53:54 915

原创 2025.9.25大模型学习

跟着学 CS336,你不是在学“怎么调大模型”,而是在学“大模型本身是怎么构建出来的、它到底为什么work、它还有哪些可改进的地方”。偏好数据选择a和b DPO GRPO从经验中学习。模型要做什么: 模型功能由数据决定。数据处理:把HTML变成文本。监督微调 DPO GRPO。Alignment?SFT监督微调一对一。

2025-09-15 17:49:29 486

原创 无人机论文感想

VO障碍物---避障时间窗口(约束)----速度障碍法避障------模糊控制速度障碍物----时间窗口隶属度----去模糊化。速度避障策略 实时调整速度、避障时间窗口应对环境变化 模糊控制器 变量。①无障碍物 DDPG P_DDPG(加入归一化的DDPG)状态转移奖励函数 :避障、任务完成、碰撞、路径跟踪。路径跟踪P_DDPG+动态障碍物DVO=路径跟踪。5、DDPG :①无障碍物 ②有动态障碍物。后者更收敛、更稳定、路径偏移更小。DVO更稳定、位移量低、碰撞率低。3、路径跟踪约束 避障约束。

2025-06-03 16:46:59 466

原创 Python小白之Pandas1

df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])#三步:①生成一个随机序列6行四列②行名称为dates定义的③列名称为abcd。print(df3[0:2],df3['20241004':'20241005'])#打印切片选择前两行。print(df3.loc['20241004',['a','b']])#筛选列和行混合。print(df3.loc[:,['a','b']])#筛选列。

2024-10-04 14:50:13 745

原创 Python小白之numpy3-numpy完结篇

print(np.array_split(G,3,axis=1))#可以进行不等量的分割。print(np.split(G,2,axis=1))#1代表把行不动,把列切成两块;print(np.split(G,3,axis=0))#1代表把列不动,把行切成三块;b=a.copy()#deep copy,把a的值给b,但是不想让他们关联起来。print(np.hsplit(G,2))#对行进行分割。print(np.vsplit(G,3))#对行向分割。###以上全为一个变量#####

2024-10-03 16:39:00 271

原创 高工相关概念

③三角不等式d(x,y)≤d(x,z)+d(y,z)对所有x,y,z属于X成立。则称d(x,y)为x,y之间的距离,并称X是以d为距离的距离空间,记作(X,d)①非负性:d(x,y)>0,d(x,y)=0当且仅当x=y。主要写这篇博客就是想加深一下自己对相关概念的认识和理解。②对称性d(x,y)=d(y,x)1.1距离空间、极限与连续性。

2024-09-29 16:12:31 204

原创 Python小白之numpy2

numpy的array合并。print(np.clip(A,5,9))#给定最小值和最大值,滤波,让所有小于min的值都等于min,所有大于max的值都等于max,其他的保留不变。print(np.cumsum(A))#逐步累加,第一个是第一个的值,第二个是第一个加第二个,第三个是第一个加第二个加第三个。A=np.arange(14,2,-1).reshape(3,4)#打印一个从2开始有12个数字的数组,是三行四列的。print(np.transpose(A))#从矩阵的对称轴开始,行变列,列变行。

2024-09-23 20:06:16 575 1

原创 机器学习之概念1

今天去上机器学习的课,其中我觉得可以套用之前学的强化学习,其中P是评估,T是任务,E是经验,就是利用经验来提高相关的评估任务,从数据中学习,从统计机器中学习,其中可以分为有监督的机器学习和无监督的机器学习。强化学习:agent通过奖惩来调整下一步动作,一般把一条记录存为列向量,编程的时候再转秩。①分类问题:输入集合,输出离散。首先假设函数,用已有数据训练,求未知常量,用新数据训练,判断是否拟合。代价/损失函数:预测值和真实值的差。②回归问题:输入集合,输出连续。③聚类问题:用数据找相似数据。

2024-09-23 16:31:00 573

转载 对《海上无人搜索系统综述:理论、应用和未来方向》的一些总结

一艘无人潜航器、两架无人机、通信模块、制导模块和控制模块以及协同搜索控制中心组成,USV配备智能导航系统、舰载无人机库、风速计、姿态测量和数据交互服务器、视觉目标探测器、主机系统和舵机系统等。海上无人搜索系统的未来研究方向海上无人搜索是视觉探测、路径规划、自主跟踪控制、通信和构建的交叉学科,无人驾驶车辆必须向搜索中心传输实时信息,包括位置、姿态和图像数据。目前需要使用的方法就是路径规划、智能控制、目标检测、路径跟踪控制、高精度热像仪、高可靠性通信、自动识别系统、海上雷达、摄像头。一个是救,即海上救援。

2024-09-20 17:49:16 895

原创 强化学习(Value Function Approximation)-Today9

Value Function Approximation主要是使用神经网络来求最优解问题,主要包括Algorithm for state value function、Sarsa和value function approximation的结合、Q-learning和value function approximation的结合、Deep Q-learning。,其实就是将Algorithm for state value function的state value换为action value。

2024-07-07 17:56:25 587

原创 numpy之数据处理

本博客包含对numpy的索引、array合并分割、copy&deep copy。

2024-07-07 16:31:37 177

原创 强化学习(On-Policy Learning and Off-Policy Learning)-Today8加更版

target policy:在已有的基础上不断更新最优策略,和环境交互,然后改进策略,在从环境交互的情况下选出最优策略,只在最初和环境交互。1.behavior policy:和环境交互性强,探索性更强,和环境不断交互,再更新算法,在和环境交互......On-Policy Learning和Off-Policy Learning在于Policy Update算法是使用。,a=其他policy。

2024-07-06 22:04:40 510

原创 强化学习(Temporal-Diffference learning)-Today8

Temporal-Diffference learning简称TD,是一种时序差分算法,以下主要包括TD算法的state value形式、TD算法的action value形式,如Sarsa、Expected Sarsa、n-Step Sarsa、Q-learning.,以下式子表述了在t+1时刻的state value和t时刻的state value的关系,使state value更接近最优的state value。证明:t+1时刻的state value更接近t时刻的state value。

2024-07-06 22:04:24 1227

原创 强化学习(Stochastic iterative algorithms and Stochastic Gradient Descent)-Today7

主要基于Robbins-Monro algorithm 简称RM展开,其中介绍RM以及mean estimation、gradient descent(GD)、batch gradient descent(BGD)、stochastic gredient descent(SGD)、momentum batch gradient descent(MBGD),此条件保证g(w)有界且经过横轴,g(w)递增且是凸函数。,此条件保证g(w)可以收敛至0,方程有解。为对g(w)=0的第k次估计,也就是最优解的估计,

2024-07-05 23:27:35 949

原创 强化学习(Monte Carlo learning)-Today6

Monte Carlo learning简称 MC,是model-free算法,也就是不基于模型的算法,Today5发布的value iteration and Policy iteration algorithm是model-based算法,是基于模型的算法,也就是说,没有模型的构建,需要数据的支撑,MC包括三个算法,分别是MC Basic 、MC Exploring Starts 和。时,服从均匀分布,每个policy的概率相等,是more exploration,更多的探索。

2024-07-05 21:18:08 1290

原创 强化学习(Value iteration and Policy iteration Algorithms)-Today5

value iteration 和policy iteration的区别在于value iteration是从state value开始的,而policy iteration是从策略policy开始的。开始,value iteration相当于只计算了一步,而policy iteration相当于计算了无穷步,由于取一个收敛的折中情况得到truncated policy iteration,由于policy iteration在理论上不存在,所以存在了这个截断策略迭代。:也分为两个步骤(包含内嵌迭代算法)

2024-07-03 20:38:54 388

原创 Python之小白numpy

调用还是很方便哒,加油加油。

2024-07-02 21:15:22 153

原创 强化学习(Bellman Optimality Equation)-Today4

对所有的策略π都成立,可以想象一下在不同抽奖箱抽奖,在A箱获奖概率为50%,在B箱获奖概率为80%,那么我们如果抽十次,一定希望每次都是B箱,可问题如果是搞混了两个箱子,并不知道哪个是A哪个是B呢?时,相应的policy也会随之做出改变,而如果r线性变为ar+b,则最优策略不会改变。

2024-07-02 21:08:51 196

原创 强化学习Bellman Equation-Today3

return是针对一个策略求最优解,而state value是可以针对多个策略求最优解,所以在贝尔曼公式中,return是state value求解策略的特例。贝尔曼公式是策略评估的一个工具,policy evaluation就是给出policy,列出贝尔曼公式,求解贝尔曼公式,最后得到state value进行评估,value就是价值,价值越大,策略越好。return为整个轨迹所获得的reward,求解贝尔曼公式就是找到一个最优策略来获得return最多。为state value。时,通过不断迭代求解。

2024-07-02 20:26:31 531

原创 强化学习感悟

今天看了李老师的强化学习,不太明白,打算先学赵老师的强化学习数学课和Python。

2024-06-28 21:14:32 164

原创 强化学习 Basic Concepts-Today2

⑤reward:即从一个state选择action所对应的奖励,如果走到禁止forbidden区域,则reward=-1。④policy:目标在一个状态下做出的行动,就是在一个位置下是怎样走可以赢得比赛所对应行走方向。趋于0时,则函数结果着眼于最近的reward,反之趋于1时,则趋于较远的reward。为0到1之间的数字,防止五子棋走到终点之后仍移动,使整个学习过程是收敛的即。①state:状态,就是我们所观察到的东西,如五子棋在棋盘的位置。②action:行动,即五子棋的移动,即可以前后左右移动。

2024-06-28 21:12:42 432

原创 强化学习框架(Reinforcement learning frame)-Today1

强化学习的主要目的是在环境中互动为达成目标进行学习,其实就像我们学高数一样,通过不断的学习获得知识,也通过不断做题学习解决方法,学习参考答案的方法,也有自己的解法。(3)value iteration 与 Policy iteration 的结合 即Truncated Policy iteration。以上主要是对赵老师第一节课的相关课堂笔记,个人目前认为强化学习需要长时间的架构,可能面临构建模型跑代码需要很长时间,加油加油。③核心元素:policy value。

2024-06-27 20:55:25 1223

原创 强化学习+嵌入式

毕业大概一个月左右啦,但是在家感觉自己内驱力很不足,学习强化学习感觉很难,想不只是自己学习,还想每日去输出,总结自己学习过程,感觉研究生以后是要自己去学习的,所以当自己一个人的时候也应该有所输出,也打算不定时更新自己本科期间的一些嵌入式学习经验。

2024-06-27 10:43:36 312

原创 STM32两个按键控制跑马灯的开始和停止

按键控制跑马灯停止,按下按键二跑马灯停止,所有灯熄灭,再按按键一跑马灯 从头开始运行;

2021-06-18 11:09:21 11050 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除