基于Agent-Based Systems的拍卖博弈Bot设计与优化

本文原创,若引用,请注明

想象一个拍卖场景,各个玩家设计自己的Agent参与这场拍卖,并看谁在既定规则下取得胜利。该项目可能涉及到图表1的内容,为对此感兴趣的同学提供借鉴。

在这里插入图片描述

图1:本项目相关知识

1.背景介绍

拍卖场景:四位艺术家(Picasso、Van Gogh、Rembrandt、Da Vinci)的画作被逐轮拍卖。

规则:

  • 每个代理初始预算1001;

  • 每轮所有代理秘密出价,最高者得标并支付出价;

  • 获胜条件为获得 10-3-2-1 组合画作;

  • 最多进行200轮,首个满足条件者获胜。

基于拍卖胜利条件,我首先实现了一个基线代理(固定竞拍目标和静态出价)。经过三轮策略迭代后,最终的测试结果如下:

  • 测试 1:与使用固定出价、随机出价和半预算出价的代理机器人相比,最终Agent(u5581016_v3)在 6 组 50 场拍卖(每场包含 200 回合)的测试中,胜率始终保持在 90% 以上。
  • 测试 2:在测试 1 的基础上,我引入了三种更先进策略的机器人——如需求驱动竞价和竞争性调整Agent。最终,在更具挑战性的环境下,我的Agent依旧保持在 85% 或更高的胜率。

共有13 个代理机器人参与测试,概览如下:

  • 固定出价机器人:始终出价固定数额(10, 20, 30, 40, 50, 60),且不超过预算。一般命名为bot_flat_x。
  • 随机出价机器人:在预算范围内随机出价。一般命名为random_bot,或u1234321。
  • 半预算机器人:出价约等于当前剩余预算的一半。一般命名为mean_bot。
  • 基准机器人:出价约等于当前预算的三分之一。它基于 10-3-2-1 收集目标进行决策,并据此调整出价。一般命名为baseline_bot。
  • 需求驱动与竞争策略机器人:包括 u558_v1、u558_v2 和 u5581016_v3。这便是我在基线机器人之上3次迭代完成的最终Agent,其策略将在后续章节详细介绍。

2.策略概览与关键迭代

最终版本Agent(u5581016_v3)的核心策略通过三个方面介绍:测试结果、问题分析和关键迭代。这一结构有助于解释机器人如何逐步优化以在各种拍卖场景中稳定发挥。

2.1 基准代理:固定目标 + 静态出价,命名为(baseline_bot)

2.1.1 策略

在确保所有出价均不超过可用预算的约束下,基准机器人(baseline_bot)基于以下核心策略设计,并作为需求驱动拍卖的参考模型:

  • 目标策略:该机器人遵循10-3-2-1规则设定固定收藏目标,尝试按预设顺序——梵高、毕加索、伦勃朗和达芬奇——获取画作,且序列在开始时随机化。
  • 出价策略:对于目标画作,它出价约为当前预算的三分之一,并加入随机波动以增加变数。对于非目标画作,它则以0至3的随机小额出价进行竞拍,以节约资源。
  • 竞争策略:无。
2.1.2 测试与评估

如图2所示,在连续50轮拍卖(每轮包含200个回合,总计10,000个回合)中,基线机器人(baseline_bot)的胜率为0%。
在这里插入图片描述
图2:测试结果(baseline_bot)

通过对拍卖流程的进一步分析,确定了基准机器人失败的三个主要原因:

  • 目标策略问题:采用固定目标序列限制了机器人的竞拍行为,常导致错失良机。如图3所示,机器人一旦获得一幅达芬奇画作(按原计划),便不再将达芬奇作品视为目标。结果仅提交象征性的1元竞价,远不足以胜出。实际操作中,目标分配应根据收藏进度动态调整。此外,探索各类画作在时间维度上的出现频率具有重要价值,这能使机器人优先竞拍特定拍卖周期内更常见的艺术家作品。
    在这里插入图片描述
    图3:关于baseline_bot目标问题的错误日志

  • 出价策略问题:静态竞价规则要求当前预算支出约占三分之一,导致早期竞价过于激进,后期轮次资金不足。这种缺乏动态调整的机制使机器人效率低下。例如,如图4所示,当对手最高出价仅为250时,基准机器人却不必要地花费337赢得画作——远超实际所需。此类超额支出最终导致关键阶段预算耗尽。
    在这里插入图片描述
    图4:关于baseline_bot出价问题的错误日志

  • 竞争策略问题:基准机器人缺乏任何限制或干扰对手的机制,导致其完全丧失博弈论优势。该机器人既未考虑竞争对手的竞价模式,也未关注其达成10-3-2-1目标的进度。理想情况下,它应以最低中标价赢得目标画作,同时抬高非目标画作的次高竞价,从而耗尽对手资金。


2.2 第一次迭代:动态目标 + 动态出价 + 对手监控,命名为u558_v1

图5展示了经过10,000轮拍卖后四类画作的累计出现频率,每位艺术家的作品出现率均约为25%。这种均衡分布为设计动态目标选择策略提供了有益参考。
在这里插入图片描述
图5:竞拍作品中各画家的占比

2.2.1 策略迭代

首个策略迭代版本u558_v1基于基线机器人的问题点开发而成。与前代不同,优化的u558_v1更像一个战略推理代理,能在整个拍卖过程中主动调整决策。

  • 目标策略:根据
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值