- 博客(94)
- 收藏
- 关注
原创 思维链(Chain-of-Thought, CoT)与强化学习区别
思维链(Chain-of-Thought, CoT)与强化学习(如RLHF、DPO)在LLM中的核心区别体现在功能定位、方法论和应用场景三方面。以下是具体对比:在大型语言模型(LLM)中,思维链(Chain-of-Thought, CoT)与强化学习(RL)的联合使用主要通过以下方式实现互补与协同,从而提升模型的推理能力、训练效率和生成质量:核心机制:通过强化学习(如PPO、GRPO)对CoT生成的中间步骤进行动态调整,选择最优推理路径。例如:案例:DeepSeek-R1-Zero模型通过纯强化学习(无
2025-04-03 16:32:19
307
原创 线性注意力机制
特性Linformer核心方法特征映射 + 结合律优化低秩投影压缩KKK和VVV复杂度ONO(N)ON(严格线性)ON⋅kON⋅k(近似线性)是否保留 Softmax❌ 替换为线性近似✅ 保留原始 Softmax是否需要投影矩阵❌ 无额外参数✅ 需学习EKEVE_K, E_VEKEV适用场景通用序列任务(生成、分类)超长序列(文档、图像)近似误差较高(依赖特征映射的合理性)较低(低秩假设成立时)开源实现GitHub。
2025-03-31 17:13:10
562
原创 高斯信道下分集和复用的信道容量比较
分集策略:C分集B⋅log21PN0C_{\text{分集}} = B \cdot \log_2 \left(1 + \frac{P}{N_0}\right)C分集B⋅log21N0P分集在低信噪比条件下增益更大。复用策略:C复用K⋅B⋅log21PKN0C_{\text{复用}} = K \cdot B \cdot \log_2 \left(1 + \frac{P/K}{N_0}\right)
2025-03-24 17:23:06
817
原创 5G通信协议相关
TDD的帧时长为10ms,其由10个子帧组成(10个子帧又分为两个长达5ms的半帧,half-frame),而每个子帧可由2个连续时隙或者由DwPTS(下行导频时隙)、GP(保护间隔)、UpPTS(上行导频时隙)组成。3GPP Release 15(2018):第一个 5G 标准,定义了 5G NR(New Radio)和非独立组网(NSA)架构。3GPP Release 16(2020):引入了 5G 独立组网(SA)架构,支持超低延迟和高可靠性应用(如工业物联网)。
2025-03-23 16:27:16
1090
原创 LLM中的强化学习算法——RLHF、PPO、DPO、GRPO
在RLHF的PPO阶段,通常会用到四个模型:Actor模型(即需要训练的策略模型)、Critic模型(评估状态价值的模型)、奖励模型(RM)和参考模型(Reference Model,用于约束策略更新)。因此,RLHF需要训练的是Actor和Critic模型,而RM和Reference Model通常是在之前阶段训练好的,或者在PPO阶段保持冻结。例如,RLHF中的奖励模型和参考模型在PPO阶段是否参与训练,根据参考内容,它们通常是固定的,仅Actor和Critic需要训练。
2025-03-22 15:49:49
975
原创 DeepSeek-V3到DeepSeek-R1的演进
不依赖任何监督微调(SFT)数据,直接通过强化学习激活推理能力。:输出可读性差(如语言混杂、格式混乱),泛化能力弱于R1。:提升模型稳定性、可读性及通用能力。
2025-03-22 15:48:53
667
原创 为什么DDPG需要目标网络而A2C不需要?
虽然A2C和DDPG都使用了下一状态的价值估计,但A2C依赖当前Critic的即时估计(通过On-policy数据同步修正偏差),而DDPG必须冻结目标网络参数来稳定Off-policy场景下的Q值目标。DDPG需要同时维护Actor和Critic的主网络与目标网络(共4个网络),而A2C仅需Actor和Critic两个网络。,其目标值的计算涉及下一个状态的最大Q值。,直接使用当前策略生成的最新数据,Critic和Actor的更新同步进行,无需考虑历史策略数据带来的不一致性问题。
2025-03-09 18:04:46
861
原创 解决机器翻译重复生成问题的Trick
数学基础:重复生成本质上是概率分布Pyt∣ytPyt∣yt的偏态问题,上述方法通过调整分布(惩罚、采样、平滑)或搜索策略(束搜索、N-gram 阻塞)解决问题。效果:这些技巧在实践中显著减少重复,同时保持翻译的语义准确性。例如,N-gram 阻塞可降低重复率 20%~30%,而 Top-p 采样可提升生成多样性约 15%(BLEU 分数略有波动)。如果您有具体的 Transformer 实现代码,我可以进一步结合代码分析这些技巧的集成方式!有什么想深入探讨的吗?
2025-03-09 11:08:58
541
原创 Transformer 训练Trick
是指在训练过程中保存多个模型检查点(checkpoints),并在训练结束后对这些检查点的参数取平均值,作为最终的模型参数。是一种常用的优化算法,结合了动量(Momentum)和自适应学习率的特点。mtβ1mt−11−β1gtvtβ2vt−11−β2gt2θtθt−1−η⋅vtϵmt其中,mt是一阶矩,vt是二阶矩,η是学习率,ϵ。
2025-03-08 13:18:29
574
原创 详解旋转位置编码
通过数学公式和代码的对应关系,可以看出旋转位置编码的核心是通过复数旋转将位置信息融入查询和键向量中。,帮助你更好地理解旋转位置编码(Rotary Position Embedding, RoPE)的实现。旋转位置编码的核心思想是通过复数旋转将位置信息融入查询和键向量中,从而增强模型对序列位置的感知能力。,查询和键向量会被旋转一个与位置相关的角度,从而在计算注意力分数时引入位置信息。这种方法能够在不增加额外参数的情况下,显著提升模型对序列位置的感知能力。旋转位置编码的核心思想是通过。应用旋转位置编码后,
2025-03-04 10:14:22
773
原创 强化学习——A2C 和 PPO网络更新的比较
和都是基于 Actor-Critic 框架的强化学习算法,但在更新 Critic 网络和 Actor 网络的方式上有显著不同。Critic 网络的目标是估计状态值函数Vs,用于评估当前策略的好坏。
2025-02-27 17:06:27
953
原创 强化学习——策略更新时机对比
通过优化Bellman方程误差(MSE Loss)更新Q网络,策略隐含表现为argmax(Q(s,a))每个算法的更新设计都平衡了样本效率、稳定性和计算成本,实际应用中需根据环境特性选择适合的更新节奏。:Actor网络直接输出确定性动作,Critic评估后立即反向传播更新策略参数。:每次环境交互后均可更新,但通常设置为1-10个梯度步骤/环境步的更新比例。:通过多环境并行实现更稳定的梯度估计,更新频率由n-step长度决定。:通过重复利用数据实现高效采样,clip机制保证了策略更新的稳定性。
2025-02-26 11:02:11
507
原创 比特信噪比与信噪比SNR的换算公式
高阶调制(如 64-QAM)提高频谱效率,但需要更高的。越低(冗余越高),相同 SNR 下。在理想系统中,通常假设噪声带宽。低码率编码可补偿性能损失。越低,但需权衡频谱效率。
2025-02-24 22:34:13
573
原创 块对角化预编码(Block Diagonalization, BD)原理以及实现
(从接收端角度来讲,MU-MIMO的上行建模其实和单用户MIMO是一样的,接收端采用ZF/MMSE算法即可解调得到所有数据)
2025-02-22 17:33:12
1155
原创 MIMO系统信道容量(开环与闭环)
矩阵AA∗(其中A是一个复数矩阵,A∗:由于AA∗是正定或至少是半正定的,。因为矩阵的迹等于其所有特征值的和,所以AA∗的迹也是非负实数。:在某种意义上,AA∗的迹可以看作是矩阵A各列向量之间内积的总和。具体来说,如果将A的列视为向量,则AA∗的迹实际上是这些列向量各自的模长平方和,反映了A在空间中扩展或压缩体积的能力。:在应用中,AA∗的迹常被用来衡量矩阵的总体“规模”或“能量”。例如,在信号处理领域,对于信号的自相关矩阵(通常形如AA∗。
2025-02-20 21:24:49
1024
原创 OFDM系统中高峰均比(PAPR)以及DFT-S-OFDM
DFT-S-OFDM,通过预编码技术,将信号转换成类似单载波的特性,PAPR较低,接近0 dB。,使PA能高效工作在接近饱和区,从而延长电池寿命并提升发射效率,尤其适合移动终端功率受限的上行链路场景,同时保留OFDM抗多径衰落和频域调度的优势。OFDM信号的时域波形由多个正交子载波的叠加产生,当多个子载波在某一时刻相位对齐时,信号幅度会达到极大值,导致高PAPR。通过上述分析,DFT-S-OFDM通过频域扩展和子载波映射,在保持OFDM优势的同时显著降低PAPR,适用于上行链路等对功率效率要求高的场景。
2025-02-20 17:24:19
1151
原创 李雅普诺夫优化方法
李雅普诺夫优化的核心步骤定义李雅普诺夫函数衡量系统稳定性。推导漂移上界,结合惩罚项构造优化目标。在每个时隙最小化漂移加惩罚项,得到在线策略。通过参数VVV调节稳定性和最优性的权衡。优势将复杂随机优化问题分解为单时隙优化。不依赖先验统计信息,适用于非稳态系统。理论保证稳定性和最优性间隙。公式总结Qit1maxQit−bitait0Qit1maxQit−bitait0LQt12∑Qi2。
2025-02-19 20:37:17
1346
原创 预编码与信号检测——二选一?
在单用户MIMO系统中,若基站仅服务一个用户,预编码的目标转为最大化该用户的信道容量或可靠性。在多用户MIMO系统中,若基站同时向多个用户发送独立数据流,且用户间共享相同的时频资源,预编码是。在接收端应用MIMO信号检测技术(如ZF、MMSE)与发送端的预编码技术有显著区别,主要体现在。在资源受限的物联网(IoT)设备或低功耗场景中,复杂预编码算法可能不适用。基站通过预编码向多个用户同时发送独立数据流,消除用户间干扰。发送端预编码主动消除干扰,接收端只需简单检测(如匹配滤波)。
2025-02-16 15:35:37
961
原创 BatchNorm与LayerNorm
目的: 在每个小批次(mini-batch)上对输入数据进行标准化,使得每层网络的输入分布更加稳定,减少所谓的“协变量偏移”问题。计算公式:xi−μB,其中 ϵ\epsilonϵ 是为了数值稳定性添加的一个小常数。最后,应用缩放和平移:yi=γx^i+βy_i = \gamma \hat{x}_i + \betayi=γx^i+β,这里 γ\gammaγ 和 β\betaβ 是可学习参数。示例: 如果你有一个形状为 (32, 64) 的输入张量(代表一个小批次中的32个样本,每个样本有64
2025-02-15 14:33:29
658
原创 迭代、递归、回溯和动态规划
将问题分解为相互关联的子问题,并存储子问题的解避免重复计算。比如斐波那契数列,算f(5)需要f(4)和f(3),而f(4)又需要f(3)和f(2),此时存下中间结果能大幅减少计算量。像俄罗斯套娃,大问题拆成小问题,解法完全相同。比如算5的阶乘,先算4的阶乘,再乘以5。代码特征是函数自己调用自己,直到触发终止条件(如n=1时返回1)。每次存钱都是相同操作,用循环实现,依赖前一次结果(当前总额)推动进度。迭代是手动循环,递归是自动分解,回溯是带撤销的递归,动态规划是聪明的递归(存结果防重复)。
2025-02-14 17:44:29
303
原创 信号检测和信道均衡的联系
假设一个通信系统的数学模型如下:接收信号可以表示为:y=Hs+n\mathbf{y} = \mathbf{H} \mathbf{s} + \mathbf{n}y=Hs+n其中:信道均衡的目标是从接收信号 y\mathbf{y}y 中消除信道失真 H\mathbf{H}H 的影响,恢复出接近原始发送信号 s\mathbf{s}s 的信号 s^eq\hat{\mathbf{s}}_{\text{eq}}s^eq。ZF 均衡器通过直接求逆信道矩阵 H\mathbf{H}H 来消除信道影响:s^eq=H†y
2025-02-13 21:58:37
753
原创 3×2 MIMO系统和2×2 MIMO系统对比
SVD 预编码是一种基于信道状态信息(CSI)的 MIMO 技术,通过对信道矩阵进行奇异值分解,将 MIMO 信道分解为多个并行的独立子信道(称为奇异值通道)。,尤其是在信道条件复杂或需要高可靠性的场景中。尽管两者的最大子信道数相同(均为 2),但。,为优化功率分配提供了更高的自由度。经过预编码和后编码后,等效信道变为。是对角矩阵,对角线元素为奇异值。:两者的最大子信道数相同,但。其中每个子信道的增益为奇异值。从 SVD 预编码的角度看,是酉矩阵(正交矩阵)。:信道矩阵的最大秩为。:信道矩阵的最大秩为。
2025-02-13 17:53:14
845
原创 视频编码标准(H.264/AVC、H.265/HEVC、AV1、MPEG-2 和 MPEG-4 Part 2)
编码标准发布年份压缩效率优点缺点主要应用场景H.264/AVC2003高兼容性广,成熟,适合实时编码对 4K 支持不足,硬件要求较高流媒体、视频会议、移动设备H.265/HEVC2013非常高压缩效率高,支持 4K/8K 和 HDR专利费用高,硬件要求高4K 流媒体、超高清电视、VR/ARAV12018极高开源免版税,压缩效率优于 H.265编码复杂度极高,硬件支持尚未完全普及开源流媒体、网页视频、WebRTCMPEG-21995低兼容性广,技术成熟。
2025-02-13 14:58:47
1357
原创 OFDM系统接收机全流程
对接收信号进行时域采样,得到复数信号rnr[n]rn。去除循环前缀,得到有效OFDM符号rnoCPnrnoCPn。对rnoCPnrnoCPn进行FFT,转换到频域RkR[k]Rk。通过信道估计与均衡,得到均衡后的符号Sk\hat{S}[k]Sk。对Sk\hat{S}[k]Sk进行QPSK解调,恢复比特对。将所有比特对组合,得到最终的比特流。这一过程通过复数信号处理和频域操作,高效地恢复了发送的比特流信息。
2025-02-12 14:15:19
833
原创 注意力机制(Attention Mechanism)和自注意力机制(Self-Attention Mechanism)
来源不同:注意力机制中的查询可以从外部提供,而键和值来自某个序列;自注意力机制中,查询、键和值都来源于同一个输入序列。作用范围:注意力机制可以在不同序列之间建立联系,而自注意力机制专注于捕捉单个序列内部的关系。应用场景:注意力机制常用于编码器-解码器架构中,如机器翻译任务;自注意力机制广泛应用于Transformer模型及其变体,在自然语言处理、计算机视觉等多个领域都有出色表现。通过上述公式描述,可以看出两者在计算逻辑上的相似性和应用背景上的差异。
2025-01-24 13:46:26
754
原创 Karmarkar算法(一种内点法)
在Karmarkar算法中,我们首先将问题转化为一个“中心化”的形式,这样可以避免在可行域的边界上搜索,而是在可行域内部寻找最优解。
2024-12-30 21:17:45
1047
原创 基于Bregman的交替方向乘子法
原始问题分解:将原问题转化为多个子问题,使得每个子问题可以通过优化一个变量来求解。交替更新:交替更新各个变量,同时通过乘子法确保子问题的约束得到满足。
2024-12-28 11:16:26
913
原创 无线信道常识(符号与多径、窄带与宽带)
窄带系统是指系统的带宽远小于信道的相干带宽(Coherence Bandwidth)。相干带宽是信道的一个特性,表示信道在频率上保持相对平坦的频率范围。宽带系统是指系统的带宽接近或大于信道的相干带宽。宽带系统的带宽较大,信号的频谱范围较宽。窄带系统:带宽小,多径效应影响小,符号间干扰小,信道模型简单。宽带系统:带宽大,多径效应影响大,符号间干扰大,信道模型复杂,通常需要采用OFDM等技术来应对多径效应。
2024-12-20 21:58:32
975
原创 泊松到达过程(Poisson Arrival Process)
初始条件N00N(0) = 0N00。独立增量对任意非重叠时间区间t1t2[t_1, t_2]t1t2和t3t4[t_3, t_4]t3t4,对应的事件数Nt2−Nt1Nt2−Nt1和Nt4−Nt3Nt4−Nt3是独立的。增量服从泊松分布对任意时间区间ttτttτ,增量Ntτ−NtNtτ−NtPNtτ−Ntkλτk。
2024-11-22 10:24:57
1316
原创 深度强化学习中收敛图的横坐标是steps还是episode?
在深度强化学习(Deep Reinforcement Learning, DRL)的收敛图中,横坐标选择steps或者episodesstepsstepsstepsstepsepisodes。
2024-10-06 10:57:42
768
原创 TDD-LTE和FDD-LTE
在FDD-LTE系统中,上行链路和下行链路使用不同的频段,即两个独立的频率范围。:由于上行和下行链路使用不同的频段,FDD-LTE系统能够在任何时间点同时进行上行和下行数据传输。综上所述,TDD-LTE系统的上下行链路共享同一频段是通过时间分割实现的,而不是指资源块在时间上同时被上下行链路共享。:TDD-LTE系统通过时间分割来共享同一个频段,即在不同的时间间隔内分别进行上行和下行传输。:FDD-LTE的频谱效率相对较高,因为上行和下行传输是独立进行的,没有TDD系统中上下行切换所引入的开销和延迟。
2024-08-07 17:42:27
919
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人