酒饮微醉--优快云博客

原创进化强化学习

进化强化学习（Evolutionary Reinforcement Learning，简称EvoRL）是一种将进化算法（Evolutionary Algorithms，EAs）与强化学习（Reinforcement Learning，RL）相结合的混合优化方法。它通过融合两种方法的优势，旨在解决传统强化学习和进化算法在复杂优化问题中面临的局限性。核心概念进化强化学习的核心在于利用进化算法的全局搜索能力和强化学习的策略优化能力。进化算法通过模拟自然选择过程（如交叉、变异和选择操作）来优化策略，而强化

2025-02-14 16:26:52 321

原创论文阅读--Decision-making in Autonomous Driving by Reinforcement Learning Combined with Planning

在本文中，选择了DDQN作为模型自由深度强化学习（DRL）决策模型的算法，选择了A*作为路径规划器的算法，选择了PID作为控制器的算法，在CARLA中进行演示，以在考虑实际车辆动力学模型和动作实施误差的同时做出准确决策，并提高RL决策算法的鲁棒性和现实转移性。近年来，RL决策制定在自动驾驶研究领域非常活跃。实验结果证明了所提出的方法和改进措施的有效性，通过结合RL决策模型与规划&控制模块，并引入引导训练、状态表示网络、安全规则和Dueling网络架构，显著提高了自动驾驶车辆在模拟环境中的决策性能和安全性。

2024-10-24 17:10:34 665 1

原创论文阅读--Decision-making in Autonomous Driving by Reinforcement Learning Combined with Planning

这些曲线显示了不同模型在训练过程中的表现，包括基线DDQN、带有引导训练的DDQN（G-DDQN）、带有引导训练和状态表示网络的DDQN（GR-DDQN）、带有引导训练、状态表示网络和安全规则的DDQN（GRS-DDQN），以及带有引导训练、状态表示网络、安全规则和对决网络架构的DDQN（GRSD-DDQN）。这个框架说明了如何将自动驾驶车辆的自我状态和周围车辆的状态合并，通过卷积神经网络（CNN）进行编码，然后将编码的信息与自动驾驶车辆的状态合并，形成新的输入状态向量，输入到策略网络中。

2024-10-23 10:34:05 1027 1

原创论文阅读--Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving（二）

如图1所示，我们定义了可靠的状态空间 SfSf 和不可行的状态空间 SinfSinf。在自动驾驶中，车辆的状态轨迹需要被限制在可靠的状态空间内，以确保安全。短实体线和长虚线分别表示车辆的短期和长期轨迹，蓝点代表这些轨迹中的状态。解释：该图展示了如何通过区分可行和不可行状态空间来定义长期和短期约束，以确保自动驾驶车辆在训练过程中的安全性。

2024-10-11 20:53:33 474 1

原创论文阅读--Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving

然而，RL在训练过程中需要与环境进行大量的交互，这带来了很高的风险，尤其是在安全性至关重要的自动驾驶领域。此外，现有的安全RL方法虽然通过引入预期安全违规成本作为训练目标来提高安全性，但在训练过程中达到不安全状态的概率仍然很高，且难以在成本和回报之间取得平衡。本文提出的基于长期和短期约束的安全强化学习方法为自动驾驶领域提供了一种新的训练方法，通过在模拟器上的实验验证了其有效性。这种方法在提高自动驾驶训练过程的安全性和算法性能方面显示出了显著的优势，为未来的研究和实际应用提供了新的方向。

2024-10-11 20:52:50 945 1

原创论文阅读--End-To-End Training and Testing Gamification Framework to Learn Human Highway Driving（二）

端到端学习框架能够模拟人类驾驶技能，并在游戏环境中控制车辆。尽管由于硬件限制导致模型推理速度受限，但研究结果仍然令人满意。未来的工作将集中在量化模型性能，并探索不同的用户和场景。本节介绍了如何利用现有的游戏化解决方案，例如《侠盗猎车手V》(GTA V)，在典型的高速公路驾驶地图场景下，通过端到端学习的方法来学习人类驾驶技能。

2024-10-10 09:49:59 1120 1

原创论文阅读--End-To-End Training and Testing Gamification Framework to Learn Human Highway Driving

本研究旨在开发一种基于游戏的端到端学习和测试框架，用于学习人类在高速公路上的驾驶技能，以提高自动驾驶汽车的性能。：利用流行的视频游戏《侠盗猎车手V》（GTA V）作为模拟环境，收集真实感强的驾驶数据，这在自动驾驶研究中是一种新颖的方法。：通过使用预训练的VGG-19模型，并采用转移学习策略，研究减少了训练时间和资源消耗，同时提高了模型的学习效率。：研究中使用了虚拟控制器技术，将神经网络的预测输出转化为游戏内车辆的控制信号，实现了数据到控制的直接映射。一、🤔研究的创新点具体体现在哪些方面？

2024-10-10 09:25:35 683 1

原创论文阅读--Planning-oriented Autonomous Driving（二）

在这篇文献《Planning-oriented Autonomous Driving》中，作者提出了一个创新的自动驾驶系统框架UniAD，它以规划为核心，将感知、预测和规划任务集成在一个统一的网络中，通过基于查询的设计实现不同模块间的有效通信和信息共享。UniAD采用端到端的训练方法，允许直接从传感器数据学习到规划结果，强调了对规划模块的专门设计，包括自我车辆的显式建模和环境交互。此外，系统引入了非线性优化策略来提高运动预测的物理可行性，并通过同时考虑实例级和场景级信息来增强占用预测的准确性。

2024-09-19 11:19:36 1086 1

原创论文阅读--Planning-oriented Autonomous Driving（一）

在UniAD框架中，使用了基于Transformer的解码器结构来处理感知和预测任务，利用注意力机制来捕捉实体间的不同交互。：文献中提出的一个全面的框架，它将所有驾驶任务集成在一个网络中，以规划为导向，优化各个模块以促进规划任务。：在运动预测中，为了处理上游模块的预测不确定性，采用了非线性平滑器来调整目标轨迹，使其在物理上可行。：在自动驾驶领域，多任务学习是一种常见的方法，它通过共享特征提取器来同时训练多个任务特定的模型。：在规划模块中，通过优化策略来避免与预测的占用区域发生碰撞，确保规划的安全性。

2024-09-18 20:57:35 586 1

原创阅读笔记--Guiding Attention in End-to-End Driving Models（二）

性能提升实验结果表明,引入注意力损失可以在数据资源有限的情况下显著提高模型的驾驶性能在低数据量和高数据量条件下,引入注意力损失的模型均优于基线模型泛化能力模型在不同的城镇和天气条件下展示了良好的泛化能力在未见过的Town02和Town05中,引入注意力损失的模型性能更优未来工作计划将引入注意力损失的方法应用于更复杂的非纯视觉模型探索使用真实数据进行测试,并在真实车辆中部署模型这部分内容详细描述了实验的设置、验证方法、训练超参数、定量和定性结果,以及实验总结。

2024-09-09 09:52:46 845

原创阅读笔记--Guiding Attention in End-to-End Driving Models

问题背景：论文讨论了基于视觉的端到端自动驾驶模型，这些模型通过模仿学习进行训练，但通常需要大量数据，并且缺乏直观的激活图来展示模型的内部工作机制。研究目标：提出了一种方法，通过在训练过程中添加损失项来引导模型的注意力，以提高驾驶质量和获得更易于理解的激活图。方法介绍：介绍了一种注意力引导学习方法，该方法在训练时仅应用于CIL++模型，不需要修改模型架构，也不需要在测试时提供显著性图。实验设置：使用CARLA模拟器和不同的数据集（14小时和55小时）来评估所提方法的有效性。实验结果。

2024-09-06 10:25:36 974

原创学习笔记--DQN（Deep Q-Network）、Dueling DQN和Double DQN三种算法，它们各自具有不同的优势和局限性

在处理高维输入数据时，DQN、Dueling DQN和Double DQN各有优势和局限性。DQN是基础算法，适用于多种环境，但在高维数据上可能面临泛化和过估计问题。Dueling DQN通过更精细的价值估计提供了更好的泛化能力，但训练更复杂。Double DQN通过减少过估计提高了学习效率，但需要管理两个网络的同步。在实际应用中，选择哪种算法取决于具体任务的需求、数据的复杂性以及可用的计算资源。通常需要通过实验来确定哪种方法更适合特定的高维数据处理任务。

2024-09-04 09:11:13 1196

原创学习笔记---自动驾驶

通过共享底层特征提取网络，模型可以更有效地学习到对所有任务都有用的通用特征，同时通过特定于任务的网络层来处理每个任务的独特需求。这通常意味着网络中有一部分是共享的，用于提取对所有任务都有用的特征，而网络的某些部分则是特定于每个任务的，用于处理与特定任务相关的信息。- 硬参数共享：在网络的底层使用相同的参数（权重和偏置）来处理所有任务，而在网络的高层为每个任务设计特定的层，这些层的参数不共享。：在网络的适当位置融合来自不同任务的特征，这有助于模型学习到更丰富的表示，从而提高每个任务的性能。

2024-09-03 11:14:28 922

原创论文阅读- A $(\frac32+\frac1{\mathrm{e}})$-Approximation Algorithm for Ordered TSP

A问题定义：论文首先定义了有序旅行推销员问题（OTSP），这是经典度量旅行推销员问题（TSP）的一个变体。在OTSP中，需要在输出的哈密顿回路中按照给定顺序包含一组特定的顶点。算法介绍：作者提出了一个新的近似算法，用于解决OTSP问题。这个算法的近似保证为((3/2 + 1/e))，相对于之前已知的最佳近似保证(5/2)有显著改进。线性规划松弛：论文引入了一个新的线性规划（LP）松弛方法，专门针对OTSP问题。这个松弛基于Held-Karp松弛，并通过使用不相交的变量集合来考虑顶点的给定顺序。算法设计。

2024-07-08 09:54:46 901 1

原创论文阅读-A Survey on Reinforcement Learning for Combinatorial Optimization

A背景介绍：论文首先介绍了组合优化问题，特别是旅行商问题（TSP），并强调了开发低复杂度算法来估计最优解的重要性。历史回顾：论文回顾了自20世纪50年代以来组合优化的发展历程，包括动态规划（DP）和贝尔曼方程的引入，以及它们在解决NP-hard问题中的应用。算法比较：通过比较20世纪70年代的二次分配算法和现代RL算法，论文展示了随着机器学习和计算技术进步，RL算法在解决TSP方面的发展。深度学习集成：论文介绍了深度RL（Deep RL）的概念，并探讨了如何通过注意力机制和特征编码来生成TSP的近似最优解。

2024-06-25 10:11:35 820 1

原创论文阅读-Less Is More - On the Importance of Sparsification for Transformers and Graph Neural Networks f

A问题背景：论文探讨了如何使用机器学习模型，特别是基于图神经网络（GNN）和变换器（Transformer）的编码器，来解决旅行商问题（TSP）。研究动机：作者指出，现有的研究直接在密集的TSP图上应用这些编码器，这会导致信息在节点间无差别地传播，使得节点嵌入包含大量不相关信息。稀疏化方法：为了解决这个问题，论文提出了两种数据预处理方法——k-最近邻（k-NN）启发式和1-树（1-Trees）方法——来稀疏化TSP图，使得编码器能够专注于图中最重要的部分。集成方法。

2024-06-24 12:04:45 1055 1

原创论文阅读-Approximation Schemes for Orienteering and Deadline TSP in Doubling Metrics

A: 这篇论文主要研究了在特定图结构上的旅行商问题（TSP）及其相关变体的近似算法方案。问题定义：论文考虑了几种TSP的变体，包括k-漫步问题、点到点定向问题、截止时间TSP问题。这些问题都是在加权图中寻找路径，目标是在满足特定约束（如访问至少k个顶点、在预算内、在截止时间前）的同时，优化路径长度或访问顶点的数量。研究背景：论文提到了之前的研究工作，包括在欧几里得空间和一般度量空间上的TSP近似算法，以及对定向问题的研究。

2024-06-11 08:34:55 1058 1

原创论文阅读-Quantum Annealing and Graph Neural Networks for Solving TSP with QUBO

A: 这篇论文主要探讨了如何利用量子退火（Quantum Annealing, QA）和图神经网络（Graph Neural Networks, GNNs）解决旅行商问题（Travelling Salesman Problem, TSP）。问题背景：介绍了TSP作为组合优化中的一个经典问题，以及其在物流、电子制造等领域的应用。量子退火（QA）：QA是一种量子启发式优化方法，利用量子隧穿效应来逃避局部最小值，加速发现全局最优解。图神经网络（GNN）

2024-06-06 09:13:03 966 1

原创论文阅读- CycleFormer : TSP Solver Based on Language Modeling

A: 这篇论文提出了一个名为CycleFormer的新型Transformer模型，专门用于解决旅行商问题（TSP）。问题背景：介绍了旅行商问题（TSP）及其在计算机科学中作为NP-hard问题的代表性，同时概述了传统解决方法，包括启发式算法和早期的深度学习尝试。CycleFormer模型：提出了一个新的Transformer模型，专为TSP设计。该模型考虑了TSP独特的特点，如无限和动态的token集合，以及解的循环性质。主要贡献。

2024-06-05 10:54:54 1384 1

原创论文阅读-Combined Constraint on Behavior Cloning and Discriminator in Offline Reinforcement Learning

强化学习（RL）因其能够自动学习最优行为策略而受到广泛关注。- 传统的RL需要与环境反复交互以获取经验，这在现实任务中可能成本高昂或危险。- 离线RL（Offline RL）作为一种研究领域，它不与环境交互，而是从预先准备好的经验数据中学习。- 直接应用常规RL方法到离线RL会遇到分布偏移（distributional shift）问题。- 本研究提出了一种新的离线RL算法，该算法在TD3+BC算法基础上引入了生成对抗网络（GANs）中的鉴别器（discriminator）约束。

2024-06-04 17:29:08 753 1

原创 TD3的定义离线强化学习在医疗领域的应用

5. **手术模拟和机器人手术**：在虚拟环境中训练RL模型，可以模拟手术过程，优化手术策略，甚至指导手术机器人执行精确的手术操作。2. **个性化治疗计划**：利用患者的医疗历史和基因信息，离线RL可以设计个性化的治疗方案，以最大化治疗效果和最小化副作用。6. **患者监护和管理**：离线RL可以用于分析患者的生命体征数据，预测病情变化，并制定相应的监护和管理计划。10. **临床试验设计**：离线RL可以帮助设计更有效的临床试验，通过模拟不同试验方案的结果来优化试验设计。

2024-05-21 15:28:00 337

原创论文阅读-THE GENERALIZATION GAP IN OFFLINE REINFORCEMENT LEARNING（ICLR 2024）

不过，所有的方法都有类似的generalization gap即二者的差值，证明了它们的泛化能力是类似的，同时也说明了BC在多样的数据集下训练能够获得非常好的性能，即使这些demonstration是suboptimal的。在次优数据集上(图18 )，所有方法的训练和测试性能都很差，与先前的工作相反，在我们的设置中，当我们从行为策略的训练日志中的子集上采样并训练离线学习算法时，得到的离线学习策略根本没有泛化能力，甚至在200个训练水平上也没有表现出良好的性能。对于其余算法，见附录中的图16。

2024-05-07 11:02:11 1339 1

原创论文阅读--Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

通过离散每个动作维度并将每个动作维度的Q值表示为单独的token，我们可以将有效的高容量序列建模技术应用于Q学习。的最后一步才有奖励。虽然这种设置对于广泛的偶发机器人操纵问题是合理的，但它并不具有普遍性，我们希望 Q-Transformer 在未来也能扩展到更广泛的环境中。我们的自回归Q学习更新背后的直觉是将每个动作的维度本质上视为一个单独的时间步长。解决这种问题的一种方法就是通过低估分布外的动作的Q值，从而确保最大值动作是分布内的。在我们的工作中，我们考虑稀疏奖励的任务，奖励只有0，1，并且仅在。

2024-04-22 10:19:51 1257 1

原创论文阅读--Conservative Q-Learning for Offline Reinforcement Learning

在强化学习( RL )中有效地利用以前收集的大量数据集是大规模实际应用的关键挑战。离线RL算法承诺从先前收集的静态数据集中学习有效的策略，而无需进一步的交互。然而，在实际应用中，离线RL是一个主要的挑战，标准的离线RL方法可能会由于数据集和学习到的策略之间的分布偏移而导致的过高估计，特别是在复杂和多模态数据分布上的训练时。在本文中，我们提出了保守Q学习( CQL )，旨在通过学习一个保守的Q函数来解决这些限制，使得一个策略在这个Q函数下的期望值低于其真实值。

2024-04-09 10:13:18 1679 1

原创论文阅读-Policy Optimization for Continuous Reinforcement Learning

我们进一步扩展这些结果，以说明它们在PG (策略梯度)和TRPO / PPO (信赖域政策优化/近端政策优化)方法中的应用，这些方法在离散RL环境中是熟悉和强大的工具，但在连续RL中不发达。｡如果存在 q 函数 oracle,则可以获得策略梯度的无偏估计(其收敛分析遵循)｡由于缺少这样的预言,我们采用广义优势估计 (GAE) 技术来获得 q(Xt, at)≈(Q∆t(Xt, at;π)) /δt≈(rtδt + e−βδtV (Xt+δt)−V (Xt))/δt｡这产生了策略梯度算法 1｡

2024-03-28 10:41:26 1105 1

原创论文阅读--When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline

通过多个实验集合评估提出的算法，包括不同类型的数据集（medium-replay，medium，medium-expert）和三个环境（halfcheetah，hopper，walker2d）。在估计动态模型后，相应的算法（Offline ML-IRL和CLARE）将进一步利用专家示范数据集DE中的专家轨迹来恢复真实的奖励函数和模仿专家行为。在Offline ML-IRL的实现中，奖励网络使用（256, 256）的MLP参数化，其中输入为状态-动作对（s, a），输出为估计的奖励值r(s, a；

2024-03-28 08:29:42 684 1

原创论文阅读--Offline RL Without Off-Policy Evaluation

在本文中，我们证明了简单地使用行为策略的在策略Q估计进行约束/正则化策略改进的一步就表现出令人惊讶的好处。我们认为，迭代方法的相对较差的性能是由于在进行政策外评估时固有的高方差，并被政策对这些估计的反复优化所放大。本文主要介绍了一种离线强化学习算法——一步算法(one-step algorithm)，该算法只使用行为策略(beta)的一个在线Q值估计，进行一步的约束/正则化策略改进，从而实现强化学习。该算法在D4RL基准测试中的表现超过了迭代算法的表现，并且相对于迭代算法而言更加简单、鲁棒性更高。

2024-03-25 15:49:46 1116 1

原创学习笔记--在线强化学习、离线强化学习、连续强化学习的区别（4）

在连续强化学习中，状态和动作都是连续的，这意味着智能体可以采取无限数量的动作，并且状态空间是连续的，而不是离散的点。- 策略评估和模型选择：在离线学习中，如何有效地评估不同策略和模型的性能，是一个重要的研究问题。- 连续学习和迁移学习：在线学习中，学习者需要不断在不同任务和环境中学习，研究者致力于研究如何将之前学到的知识迁移到新任务中，以实现更高效的学习和决策。- 连续动作选择和优化：在连续动作空间中，智能体对动作的选择是无限的，研究者在连续强化学习中通常关注如何有效地选择连续动作，以达到最优决策策略。

2024-03-20 11:01:08 2832

原创学习笔记--在线强化学习与离线强化学习的异同（3）

2. 训练环境：在强化学习中，智能体的训练通常在一个实时的环境中进行，智能体可以根据当前环境的状态来选择动作，并根据奖励信号来调整其策略。而在离线强化学习中，智能体已经获得了一系列先前的状态、动作和奖励数据，训练过程不再需要实时的环境交互。- 离线强化学习：智能体使用历史数据进行学习，其中的奖励是在数据收集时已经获得的，不是在模型学习时实时获得的。- 离线强化学习：智能体根据历史数据集中的动作-状态-奖励序列学习，这些动作是在数据收集阶段由其他策略产生的，智能体通过学习这些历史数据来优化其策略。

2024-03-18 09:05:31 2155

原创学习笔记--离线强化学习（2）

离线强化学习（Offline Reinforcement Learning，简称Offline RL）是深度强化学习的一个子领域，离线强化学习最初英文名为：Batch Reinforcement Learning , 后来Sergey Levine等人在其2020年的综述中使用了Offline Reinforcement Learning（Offline RL）, 现在普遍使用后者表示。

2024-03-15 10:50:53 1132

原创学习笔记--强化学习（1）

可以感知环境的状态（State），并根据反馈的奖励（Reward）学习选择一个合适的动作（Action），来最大化长期总收益。奖励信号定义了强化学习问题的目标，在每个时间步骤内，环境向强化学习发出的标量值即为奖励，它能定义智能体表现好坏，类似人类感受到快乐或是痛苦。探索（即估计摇臂的优劣）和利用（即选择当前最优摇臂) 这两者是矛盾的，因为尝试次数（即总投币数）有限，加强了一方则会自然削弱另一方。简直函数是未来奖励的一个预测，用来评估状态的好坏（折扣因子：希望尽可能在短的时间里面得到尽可能多的奖励）

2024-03-14 11:43:35 1095

原创论文阅读---DeLF: Designing Learning Environments with Foundation Models

DeLF通过与大型语言模型的交互，从任务描述中提取出足够好的观测和动作表示，并生成初始的RL环境代码。总之，基础模型（如大型语言模型）设计观察和动作表示的方法是通过DeLF方法实现的，其包括初始化、通信和评估三个部分。本文详细讨论了如何利用大型语言模型（如GPT-4）设计和提取强化学习任务的观察和动作表示，并通过实验展示了DeLF方法在四个不同学习场景中的成功结果。充分动作空间：动作空间 A 的表示被称为与任务 τ 充分相关，如果在给定其他组件的正确设计时，A 导致任务 τ 的成功学习。

2024-03-11 10:07:08 1248 1

原创论文阅读--A Survey of Meta-Reinforcement Learning

元强化学习是将改进强化学习算法的发展看作是一个机器学习问题的方法，通过在给定任务分布的情况下学习一个能够适应任何新任务的策略，来提高强化学习算法的数据效率和泛化能力。文章详细描述了元强化学习的问题设定和主要变体，并根据任务分布和每个任务的学习预算将元强化学习研究进行了分类。总之，这篇论文并没有提出全新的理论，而是在已有理论的基础上，通过对元强化学习的全面调查、分类和应用分析，为该领域的研究方法提供了改进和优化。多次尝试的元强化学习：讨论多次尝试设置中的元强化学习，包括多任务和单任务问题。

2024-03-06 09:47:27 1211 1

原创论文阅读--Diffusion Models for Reinforcement Learning: A Survey

接着介绍了扩散模型的基础知识和在强化学习中的应用方法。然后讨论了扩散模型在强化学习中的不同角色，并对其在多个应用领域的贡献进行了探讨。在强化学习中，扩散模型可以用作数据合成器，通过从学习到的数据分布中生成合成数据，从而提高策略学习的效率和效果。通过使用扩散模型，可以生成逼真的轨迹，从而改善离线RL中的策略限制。在强化学习中，扩散模型可以用作数据合成器，生成与环境动态一致的合成数据，从而提高策略训练的效果。：这部分讨论了扩散模型的基础知识，以及在RL相关应用中特别重要的两类方法：引导采样和快速采样。

2024-03-02 17:43:22 2384 1

原创论文阅读---CASCADING REINFORCEMENT LEARNING

在实验中，CascadingVI与AdaptRM相比，实现了显著较低的遗憾值和运行时间，且随着N的增加，这种优势变得更加明显。在最佳策略识别目标下，CascadingBPI与AdaptBPI相比，具有较低的样本复杂度和运行时间，且随着N的增加，这种优势变得更加明显。qk,h(s',A)和q'k,h(s',A)分别表示在第k个episode的第h步，状态s'选择动作A的吸引概率。然而，如何在不枚举所有的A∈A的情况下关闭√H的差距仍然是一个未解决的问题，这将留待未来的研究。论文中的实验是如何设计的？

2024-02-29 09:24:31 1359 1

原创论文阅读--BRIDGING STATE AND HISTORY REPRESENTATIONS: UNDERSTANDING SELF-PREDICTIVE RL

此外，文章还讨论了使用stop-gradient来解决自预测损失中的表示崩溃问题，并提出了一种基于ALM算法的解耦表示学习和策略优化的方法。通过将状态和潜在状态相互关联起来，可以设计出一个简单的算法，用于学习自预测表示，从而提高强化学习任务的性能。根据任务特点，选择合适的表示学习目标，如自预测表示、观测预测表示或奖励预测表示。对于不确定的任务特点和目标选择，可以通过实验验证来确定最佳的表示学习目标和优化算法。通过这种方法，作者成功地在含有部分可观测性和稀疏奖励的POMDP任务中学习到了有效的历史表示。

2024-02-27 10:29:47 1033 1

原创论文阅读--EFFICIENT OFFLINE POLICY OPTIMIZATION WITH A LEARNED MODEL

MuZero的离线版本算法（MuZero Unplugged）为基于日志数据的离线策略学习提供了一种很有前途的方法。它使用学习模型进行蒙特卡罗分析树搜索( MCTS )，并利用重新分析（Reanalyze）算法从离线数据中学习。为了获得良好的性能，MCTS需要精确的学习模型和大量的仿真，从而耗费巨大的计算时间。本文研究了MuZero的离线版本算法（MuZero Unplugged）在离线RL设置下可能无法正常工作的几个假设，包括1 )数据覆盖范围有限的学习；2 )从随机环境的离线数据中学习；

2024-01-02 23:03:58 1710 1

原创算法分析与设计（耿国华第二版）

【问题一】设有四个矩阵A1、A2、A3、A4，它们的维数分别是:50x10，10x40，40x30，30x5考察这4个矩阵的连乘积A1×A2×A3×A4，问如确定计算阵连乘积的计算次序使得依此次序计算矩阵连乘积需要的数乘次数最少?所以最小数乘次数为10500.最优计算次序为 A1（A2（A3 A4））。

2023-12-28 17:32:34 1698 2

原创算法分析与设计（耿国华第二版）

(2) 这个装载问题具有贪心选择性质，因为我们在每一步都做出了在当前看来最好的选择（选择重量最小的集装箱），并且这个局部最优选择能够导致全局最优解（装入轮船的集装箱数量最大）。在这个问题中，我们没有必要重新考虑以前的选择，也就是说，如果我们从轮船上卸下一个集装箱，那么剩下的集装箱仍然是最优装载方案。首先，我们将所有集装箱按照重量从小到大排序，得到：20、50、50、80、90、100、150、200。最后，我们得到的结果是：20、50、50、80、90、100，共6个集装箱可以装入轮船。

2023-12-26 19:56:54 785 2

原创算法设计与分析（耿国华第二版）

分治法与动态规划主要区别:① 分治法将分解后的子问题看成相互独立的.② 动态规划将分解后的子问题理解为相互间有联系,有重叠部分.（分治法是将一个问题划分成一系列独立的子问题，分别处理后将结果组合以得到原问题的答案。问题的复杂过程和规模的线性增长导致时耗的增长和空间需求的增长，对低效的算法来说是超线性的，绝非计算机的速度和容量的线性增长得来的时耗减少和存储空间的扩大所能抵消的。分支限界法：将问题分支为子问题并对这些子问题定界的步骤称为分支限界法，它对有约束条件的最优化问题的所有可行解的空间进行搜索。

2023-12-25 23:55:18 1297 2

空空如也

空空如也