- 博客(11)
- 收藏
- 关注
原创 CPU 架构:位数、指针、寄存器、SIMD 与高性能计算
CPU 位数(Bit Width)通常指的是 CPU 内部通用寄存器(General Purpose Registers)的宽度。它定义了 CPU单次时钟周期内能处理的一个整数(Word, 字长)的二进制位数。传统 CPU 运算模式是SISD(单指令单数据),即“一条指令处理一个数据”。而SIMD允许“一条指令同时处理多个数据”。A[0]+B[0]到A[3]+B[3]。普通模式:需执行4 次加法指令。SIMD 模式:利用128 位宽的寄存器(容纳 4 个 32 位 float),一次性打包加载,执行。
2025-11-21 10:11:45
971
原创 CMake学习
目录结构bin :全称binary,含义是二进制。该目录存储的都是一些二进制文件,文件都是可以被直接运行的。dev:全称device,主要存放的是外接设备,例如串口/dev/ttyUSB。etc:主要存储一些配置文件proc:全称process,表示进程,该目录中存储的是Linux运行时的进程。root:该目录是root用户自己的家目录。home:表示除了root用户以外其他的家目录。
2025-10-29 17:54:55
898
原创 (一) 嵌入式学习——通信分类
本文介绍了通信系统的分类与分层结构。通信系统可按信号通道数量(并行/串行)、通信方向(单工/半双工/全双工)、时钟同步方式(同步/异步)、连接方式(点对点/总线型/网络型)等进行分类。嵌入式通信体系分为物理层(电气特性)、数据链路层(帧结构)和应用层(数据意义)三层。还介绍了流量控制的两种方式:硬件流控(RTS/CTS信号)和软件流控(XON/XOFF字符),分别适用于高速/低速通信场景。在嵌入式系统中,短距离小数据量通信可简化流控机制。
2025-10-23 18:59:43
529
原创 强化学习数学基础(七):时序差分方法
qt1statqtstat−αtstatqtstat−qˉtqt1statqtstat−αtstatqtstat−qˉt其中qˉt\bar{q}_tqˉt为TD target,不同的TD算法有不同的TD targetqˉt\bar{q}_tqˉt图10. 不同算法的TD target。
2025-05-15 09:07:40
1154
原创 强化学习数学基础(六):随机近似理论与随机梯度下降
在蒙特卡洛算法中,需要对stochastic episode的action value进行多次采样取平均值,从而得到该state-action pair的估计值。在上节中使用的方法为:E(x)≈xˉ=1N∑i=1NxiE(x)\approx\bar{x}=\frac{1}{N}\sum_{i=1}^{N}x_iE(x)≈xˉ=N1i=1∑Nxi这种方法的缺点是,如果采样值是按照周期性获取,这样就必须等待所有的采样值收集好后,再做平均,效率较低。因此可以采用 迭代增量式 的计算方法提高计算效率:
2025-05-12 18:22:39
1269
原创 强化学习数学基础(三):贝尔曼最优公式
以问题的形式进行总结:贝尔曼最优公式(BOE)存在解吗?答:由于收缩映射定理,BOE存在解。贝尔曼最优公式的解唯一吗?答:由于收缩映射定理,BOE的解唯一。如何求解贝尔曼最优公式(BOE)?答:收缩映射定理的迭代求解法。为什么要研究贝尔曼最优公式?答:可以求解最大的状态值与最优的策略。
2025-04-26 23:43:19
1243
原创 强化学习数学基础(二):贝尔曼公式
概念:从不同状态出发 的return依赖于 从其他状态出发 得到的return。首先引入符号Gt,用来引入state value的概念。St→AtRt+1,St+1 S_t \xrightarrow{A_t} R_{t+1},S_{t+1}StAtRt+1,St+1上述过程可以描述为:在 St 状态下采取动作 At 得到的reward为 Rt+1,进入的下一个状态为 St+1。并且这三个量分别由概率决定。At→π(At=a∣St=s)Rt+1→p(Rt+1=r∣St=s,At=a)St+
2025-04-25 16:56:04
846
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1