Can LLMs Play Oˆ An Quan? ˘ A Study of Multi-Step Planning and Decision Making

文章主要内容和创新点

主要内容

本文以越南传统棋盘游戏(\hat{O} Ấn Quan)为测试平台,探究大型语言模型(LLMs)的多步规划与决策能力。该游戏为完全可观察、确定性的回合制游戏,包含循环移动和资源循环机制,要求玩家通过分配代币(Scattering Phase)和捕获代币(Capturing Phase)进行战略博弈。

研究中,作者基于不同规模的Llama模型(Llama-3.2-3B-Instruct、Llama-3.1-8B-Instruct、Llama-3.3-70B-Instruct)构建了具有不同行为角色(如进攻型、防守型、平衡型等)的智能体,通过实验评估模型在游戏中的表现:

  • 分析不同策略(角色)对游戏结果的影响,发现平衡型策略整体表现更优;
  • 比较不同规模LLM的性能,发现较小的Llama-3.1-8B-Instruct在对抗最大模型时胜率最高(38%),而更大的模型(如70B)规划深度更深;
  • 研究模型推理类型,发现小模型更倾向短期收益(70.18%),大模型更注重长期策略(64.86%),且所有模型的规划深度随游戏进程下降。
创新点
  1. 独特的测试平台选择:与现有研究多关注不完美信息游戏(如狼人杀、阿瓦隆)不同,(\hat{O} Ấn Quan)为完全可观察、确定性回合制游戏,具有循环移动和资源循环特性,为评估LLMs的结构化推理能力提供了新场景。
  2. 角色化Agent设计:通过自然语言定
MORepair 是一种通过多目标微调让大语言模型修复代码的方法。在软件开发过程中,代码修复是一项关键任务,而大语言模型在代码生成等方面展现出了一定能力,但如何让其更好地进行代码修复是研究的重点。 MORepair 的核心在于多目标微调。传统的微调可能只关注单一目标,而多目标微调意味着同时考虑多个目标来优化大语言模型。这些目标可能包括提高代码修复的准确性,即能够准确地找出代码中的错误并进行恰当的修复;还可能关注修复后代码的可读性,使得修复后的代码易于理解和维护;也许还会考虑代码执行的效率等方面。 通过多目标微调,MORepair 可以促使大语言模型在代码修复时不仅仅是表面上解决问题,而是综合多个维度来生成高质量的修复方案。它可以利用大量的代码数据进行训练,这些数据包含了各种类型的代码错误以及对应的正确修复示例,以此来让大语言模型学习到有效的代码修复模式和策略。 在实际应用中,MORepair 可以帮助开发者更高效地修复代码中的漏洞和错误,尤其是在处理复杂代码和大规模代码库时,能够节省开发者的时间和精力。同时,它也为代码修复领域带来了新的思路和方法,推动了大语言模型在软件开发领域更深入的应用。 ```python # 以下是一个简单示意代码,模拟多目标微调中部分步骤(实际情况要复杂得多) import torch import torch.nn as nn import torch.optim as optim # 假设的大语言模型 model = nn.Sequential( nn.Linear(10, 20), nn.ReLU(), nn.Linear(20, 1) ) # 定义多个损失函数(模拟多目标) criterion1 = nn.MSELoss() criterion2 = nn.CrossEntropyLoss() # 定义优化器 optimizer = optim.Adam(model.parameters(), lr=0.001) # 模拟训练数据 inputs = torch.randn(100, 10) targets1 = torch.randn(100, 1) targets2 = torch.randint(0, 2, (100,)) # 多目标微调训练过程 for epoch in range(10): optimizer.zero_grad() outputs = model(inputs) # 计算多个损失 loss1 = criterion1(outputs, targets1) loss2 = criterion2(outputs.squeeze(), targets2) # 综合多个损失(这里简单相加,实际可能有更复杂的加权等方式) total_loss = loss1 + loss2 total_loss.backward() optimizer.step() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值