强化学习基础知识笔记[4] - 时间差分法

本文深入探讨了强化学习中的时间差分法(TD方法),包括策略评估与改善、回报函数与值函数的定义。介绍了动态规划、蒙特卡罗方法与TD方法的异同,特别是TD方法通过结合两者优点,减少方差。进一步讲解了TD(λ)方法,从前向和后向视角阐述其工作原理,以及如何在Sarsa(λ)算法中应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考资料
[1] 强化学习入门 第四讲 时间差分法(TD方法)
本文主要是对该资料学习的笔记,并且加入了一些自己的想法,如有错误欢迎指出。

强化学习的分类

aaa

无模型强化学习 - 理论

强化学习的核心问题

强化学习的核心问题为:

  1. 策略评估部分:值函数、状态-行为值函数的估计问题!
  2. 策略改善部分:给定值函数下, π ( a ∣ s ) \pi(a|s) π(as)的选取问题!

回报函数、值函数定义

累计回报函数
G t = R t + 1 + γ R t + 2 + . . . = ∑ k = 0 ∞ γ k R t + k + 1 (1.1) G_t = R_{t+1} + \gamma R_{t+2} + ... = \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} \tag{1.1} Gt=Rt+1+γRt+2+...=k=0γkRt+k+1(1.1)
状态值函数
v π ( s ) = E π [ G t ] = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] (1.2) v_\pi (s) = E_\pi[G_t] = E_\pi \left[ \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} | S_t = s \right] \tag{1.2} vπ(s)=Eπ[Gt]=Eπ[k=0γkRt+k+1St=s](1.2)
行为值函数
q π ( s , a ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] (1.3) q_\pi (s,a) = E_\pi \left[ \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} | S_t = s , A_t = a \right] \tag{1.3} qπ(s,a)=Eπ[k=0γkRt+k+1St=s,At=a](1.3)
可见状态值函数和行为值函数的定义是在策略 π \pi π下各次实现中累计回报函数的数学期望。

动态规划方法值函数:
V ( s t ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ′ P s

### C语言实现合并两个有序数组 在C语言中,可以采用双指针方法来高效地合并两个已排序的数组。这种方法利用了输入数组已经排序的特点,在不额外占用大量空间的情况下完成合并操作。 对于给定的任务——将`nums2`合并入`nums1`并保持其非递减顺序排列,可以从两个数组的有效部分末端开始向前遍历比较,并逐步填充至`nums1`的尾部位置[^5]。 下面展示一段具体的代码示例: ```c void merge(int* nums1, int nums1Size, int m, int* nums2, int nums2Size, int n){ int end1 = m - 1; // 指向第一个数组最后一个有效元素的位置 int end2 = n - 1; // 指向第二个数组最后一个有效元素的位置 int end = m + n - 1; // 指向合并数组应放置下一个较大值的位置 while (end1 >= 0 && end2 >= 0) { if (nums1[end1] > nums2[end2]) { nums1[end--] = nums1[end1--]; } else { nums1[end--] = nums2[end2--]; } } // 如果num2还有剩余,则全部复制过来;因为如果此时有任一数组未处理完毕, // 剩下的一定是较小者,而这些较小者的原始位置已经在正确的地方(即nums1前面) while(end2 >= 0){ nums1[end--] = nums2[end2--]; } } ``` 此函数接收五个参数:目标数组`nums1`及其大小`nums1Size`、实际长度`m`;源数组`nums2`及其大小`nums2Size`、实际长度`n`。通过调整索引来避免越界访问的同时完成了两数组合并工作[^4]。 该算法的时间复杂度为O(m+n),其中m和n分别是两个输入数组的实际长度。这是因为每个元素最多只会被访问一次。此外,由于是在原地修改`nums1`,因此不需要额外的空间开销,除了几个用于追踪进度的变量外[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值