基于聚类的机器人实力评估模型

在FIRST机器人竞赛中评估机器人实力及其在联盟成员选择中的应用

摘要

自FIRST机器人竞赛(FRC)及其特殊淘汰赛制度创立以来,机器人团队一直希望准确量化其所设计机器人的实力。FRC包含一个类似操场选人环节的阶段(联盟选艸),这可以说是比赛中最具变革性的部分:在锦标赛中根据FRC排名系统位列前8名的机器人团队将评估潜在的联盟成员,以期在季后赛阶段结成合作伙伴。在这种三对三的比赛中,已有多种评估指标和模型被用于刻画实际或相对的机器人实力。然而,由于现有模型在估计机器人实力时观测数量与机器人数量之比较小,导致估计不精确,因而其预测性能较差。因此,本文提出了一种更具普适性的回归模型,该模型引入了机器人实力的潜在聚类,以增强其预测能力。进一步地,开发了两种有效的估计方法,可同时估计聚类数量、机器人聚类以及机器人实力。同时,采用若干评估指标来衡量竞争模型的预测能力,分析已公布的FRC实力度量与基于模型的全部机器人、季后赛机器人及FRC前8名机器人实力之间的一致性,并评估FRC前8名机器人与基于模型选出的前几名机器人之间的一致性。此外,还研究了估计的机器人实力及其准确率的稳定性,以判断安排的比赛场次是否过多或不足。在对2018年FRC休斯顿和底特律锦标赛资格赛数据的分析中,本模型的预测能力也显著优于现有模型。采用新模型的队伍现在能够以前所未有的预测能力,更恰当地对季后赛联盟伙伴的选择进行排序。

1. 引言

For Inspiration and Recognition of Science and Technology(FIRST)是一个国际性青年组织,主办FIRST机器人竞赛(FRC),该联赛由每年发布的独特赛事规则决定,进行三对三的比赛。关于维基百科(2018年)上FIRST的条目提供了该组织及其历史的更详细描述。在FRC中赢得一场比赛需要一组三个机器人组成的联盟获得比对方联盟更多的积分。

自1989年由迪恩·卡门和伍迪·弗劳尔斯创立以来,越来越多的队伍根据每年特定的FRC比赛规则设计机器人。FRC已迅速发展至2018年的近4000支队伍,参加各地的区域锦标赛,争夺进入由800多支队伍组成的世界锦标赛的资格。从2017年开始,FIRST将其世界锦标赛分为在休斯顿和底特律举行的两场冠军锦标赛,每场比赛约有400台机器人参与。

在本文的术语中,侦察员和赛事工作人员经常使用“红队联盟”和“蓝队联盟”来指代上述由三台机器人组成的联盟。分析比赛原始录像的人员在数据收集中高度依赖机器人相应的彩色保险杠。此外,“队伍”指建造、管理和维护一台“机器人”的一群人,而“机器人”指的是实际参加比赛的机器装置。

随着始终不变的三对三赛制,多年来许多FRC战略家在分析过往锦标赛及其联盟选艸阶段时提出了这样的问题:哪些机器人支撑了他们的联盟,哪些机器人是由其联盟支撑的?人们如何利用对第一个问题的回答来预测假设性或即将到来的比赛?

多年来,FRC比赛经历了各种变化和任务,这些任务构成了竞赛的关键部分。在2017年,比赛中获得积分的任务包括:机器人越过一条线、使用机器人将比赛元件从一个位置运送到另一个位置,以及机器人攀爬绳索(图1)。通常情况下,无论哪一年,任务都与此类似,尽管比赛元件、运送位置和地形每年经常发生变化。除了类似的任务外,还有一些基本方面年复一年保持不变。历年的比赛都遵循相同的比赛时间格式:15秒的自动控制阶段,期间机器人通过预先编程的方式运行以获取积分,随后是远程控制阶段,也称为遥控操作阶段,持续至少两分钟。FIRST(2017a)提供了关于2017年FRC比赛如何得分的更详细的视频指南,并且每个赛季开始时都会提供类似的视频指南。

还存在许多规定以及这些规定的漏洞,影响着不同锦标赛之间的比赛结果关系。在2020年之前,理想情况下,同一机器人参加不同锦标赛时,其得分能力应在这些锦标赛中保持一致。然而,分析人员通常将同一队伍在不同锦标赛中的机器人视为相互独立的个体,因为尽管FIRST实施了“停止建造日”,规定队伍不能再对机器人进行重大更改,但仍存在一些漏洞,使得队伍的机器人可以在锦标赛之间显著改进。其中一个漏洞允许资金更充足的队伍建造第二台机器人用于测试新组件,这些组件可在赛前维护期间添加到主机器人上。自2020年起,停止建造日的规定已被取消,以便所有队伍都能在锦标赛之间更公平地进行改进。这一变化意味着在今后几年中,可以预测机器人在不同锦标赛之间的性能差异将比近年来更加显著,从而降低了以往锦标赛数据在预测未来锦标赛中机器人表现方面的可靠性。由于这些发展以及锦标赛之间长期存在的不一致性,在建模时,同一队伍在不同锦标赛中的参赛机器人将被视为完全不同的机器人。因此,本文提出的模型仅限于使用同一赛事的资格赛轮次的数据来预测该赛事的淘汰赛轮次结果。还必须指出的是,大多数轮次之间的维护对机器人的性能并没有显著的额外正面影响,因为大部分得分能力本质上是在比赛之外设计决定的。

FRC的规则提供了一个与传统体育运动有许多相似之处的结构。每年一月的开季活动会公布当年比赛的规则,并标志着“建造季”的开始。在此期间,各队伍通常会组织模拟赛或合作测试原型,其方式类似于美国职业棒球大联盟的春季训练、其他季前赛甚至自由球员训练。建造季结束后便是竞赛赛季,良好的锦标赛成绩将有助于晋级到更高层次的比赛,尤其是上述的冠军锦标赛。

截至2018年比赛,每个冠军赛场地由六个分赛区组成。每个分赛区举办一个小型锦标赛,以决出一个分赛区冠军联盟。六个分赛区冠军联盟进一步晋级至爱因斯坦分赛区,该赛区采用循环赛组形式,排名前两位的联盟将进行三局两胜制比赛,以决定场地冠军联盟。在某些年份,各场地冠军联盟还会在另一场名为“冠军庆典”的聚会上相互对决。这一机制在某种程度上类似于美国职业棒球大联盟(MLB)在引入跨联盟比赛之前的国家联盟和美国联盟:冠军赛场地、冠军分赛区以及通往世界锦标赛的资格地区,将来自世界各地的队伍划分为各自独立的互动组别,而冠军庆典则相当于MLB的世界大赛。

在整个赛季的各种锦标赛中,每个组别的小型锦标赛比赛分为资格赛阶段和淘汰赛阶段,这类似于主要体育联盟常规赛和季后赛的缩影,但时间仅持续两天,并且参赛队伍数量更多。在资格赛阶段,各队伍的机器人通过预设算法被分配到六支队伍组成的比赛中,分为三支队伍组成的蓝队联盟与另外三支队伍组成的红队联盟进行对抗。Deshpande 和 Jensen(2016) 在美国国家篮球协会 (NBA) 中发现了类似的数据,在该协会中,球员的贡献通过不同轮换时段的主队得分和客队得分来评估,轮换时段定义为比赛中场上十名球员保持不变的连续比赛时间段。这一概念同样适用于国家冰球联盟 (NHL)。

示意图0

在单场比赛的背景下,FRC 与传统体育运动也有许多相似之处。篮球是一项可以分解为独立单元的运动,例如回合,在每个回合中,一支队伍控制球权并试图通过将球投入篮筐来得分,而另一支队伍则防守该篮筐。上述描述定义了一个包含得分方式、防守和进攻的回合。FRC 中与 NBA 回合相对应的概念是循环特性,即机器人可以在比赛过程中反复使用相同的方法或一系列动作进行得分。与篮球回合的结构类似,每一次循环都包括一个进攻单元尝试以特定动作得分,有时还包括一个防守单元,其目标是阻止或防御对手的得分尝试。同一联盟中的机器人可以在每个循环中协同工作或并行运作,通常同时运行多个独立的循环,以期实现得分最大化。在这两种情况下,进攻方成功得分对进攻方的机器人是有利的,而对防守方的机器人则是不利的。FRC 允许存在同时且独立的循环这一事实不应削弱循环与回合之间的相似性,因为每个循环都可以用相同的方式建模。FRC 中的循环与 NBA 中的回合之间的对应关系,使得FIRST比赛中机器人的个人贡献可以像分析球员的个人贡献一样进行分析。然而,与 FRC 不同的是,NBA 的球员并非随机分配到轮换时段;如果将 NBA 的轮换时段类比为 FRC 中的单场比赛,那么在任何一场 NBA 比赛的特定轮换时段内,不同球队的球员在传统体育中不可能成为队友,而在 FRC 中,曾经的队友经常会在当天后续的比赛中共处一队或作为对手相遇。

尤其值得一提的是,对于FRC而言,由于比赛和场地设置是标准化的,几乎没有观众互动的机会,因此无需考虑主场优势效应。在我们的模型构建中,也不需要包含防守成分。由于设计的机器人具有无记忆性,不同比赛的得分可以合理地假设为相互独立。在传统体育运动中也存在这样的情况:某些球员之间可能具有极强的协同作用,以至于队伍根本没有提供机会(以及相应的数据)来测试这些球员被分开时的表现。而在FRC锦标赛的资格赛阶段,预设赛程算法(如2017年游戏手册“比赛分配”部分所述,FIRST, 2017b)提供了更多测试不同协同作用的机会,并且在可用数据中实现了两个或三个配合良好的机器人之间的分离。

实际上,FRC锦标赛的设计消除了传统体育教练对模型训练数据产生非理想影响的能力。然而需要注意的是,尽管2017年比赛与2017年之后的比赛在算法的更新措辞上存在细微差异,但算法本身并未改变。虽然排程算法并非真正随机,但它确实排除了许多明显不平衡的潜在赛程。因此,资格轮次的赛程安排方式有助于模型应对机器人评分中的不规则性。更重要的是,被排除的潜在赛程中还包括重复的比赛组合。这一控制措施增加了潜在联盟之间的一对一对阵多样性;但由于排程算法强制在单个锦标赛内实现对阵唯一性,并且同一支队伍的机器人在不同锦标赛之间被视为完全不同的实体,因此在整个赛季的所有资格赛中,在资格赛中,每场比赛都是独特且不可重复的。这使得模拟新比赛非常容易出错且难以控制,因为对同一联盟中的六个机器人的任何模拟都只能依赖于唯一的一对红队和蓝队得分(如果存在的话)。事实上,唯一可能出现相同六个机器人分成相同联盟进行比赛的情况是在季后赛的 −3场决胜制对决中,即便如此,也无法保证产生完全相同的比赛,因为在季后赛中,由四个机器人组成的联盟可以在不同比赛之间更换其替补机器人。

人们观察到,在某一场特定比赛的联盟中,获胜联盟中至少有一台机器人对胜利的贡献可能大于其他机器人,而失败联盟中至少有一台机器人在失利中未能尽到应有责任,其表现可能比其他机器人更差。例如,根据The Blue Alliance(蓝色联盟)的在线数据库显示,TheBlueAlliance,2018年霍珀赛区的254队在资格赛中保持不败,而同赛区的4775队在资格赛中则未能赢得任何一场比赛。这些现象促使我们去估计机器人实力,以确定哪些机器人对胜负的贡献最大。本文旨在建立一个模型,利用对单个机器人实力的估计来预测任意一场比赛的结果。

FRC队伍在资格赛阶段的官方排名采用排名积分(RP)系统。开季活动公布比赛规则后,会引入两个游戏内目标,完成每个目标可获得1个RP。此外,赢得一场比赛将为队伍带来2个RP,而失败则不会获得额外RP。季后赛前排名根据资格赛阶段获得的总RP确定,其中RP排名前八强队伍将确保进入季后赛。这前八强队伍有权在淘汰赛阶段组建由另外三名成员组成的季后赛联盟,其中一名作为替补,以保持三对三的比赛结构。当RP系统出现积分相同时,将使用平均得分(AS)指标来打破RP平局。

与资格赛阶段不同,淘汰赛阶段的联盟是在联盟选艸阶段由各队伍确定的。在联盟选艸阶段,特定锦标赛中的所有队伍会自行组建他们认为在淘汰赛阶段最有可能获胜的季后赛联盟。在此阶段结束后,这些由队伍自主选择的新联盟将完全掌控自己的比赛结果,不再受资格赛阶段因被带动或带动他人而产生的随机性影响。联盟选艸阶段紧接在资格赛结束之后进行,并直接影响即将开始的季后赛,它也标志着比赛从以RP为王(资格赛)转向以游戏内得分作为最终目标(季后赛)的过渡。正是由于这些原因,联盟选艸成为整个锦标赛中最具变革性和决定性的环节。因此,一些队伍在设计机器人时会专门针对完成游戏内目标进行优化,以期获得更高的RP排名,确保进入季后赛并能在联盟选艸中掌握更多主动权。选择实施这种设计策略的队伍有时会牺牲在淘汰赛阶段更为重要的得分能力。然而,这种为了争取联盟选艸控制权而做出的权衡有时是可以理解的,因为这类队伍通常会在对比赛的侦察与分析上投入更多,从而在进行联盟选择时拥有信息优势。

联盟选择期类似于NBA的自由代理期。在此期间,球员和管理层(除了赛季中交易外)会洽谈大部分合作关系,非重建球队希望借此为下一个赛季争取最佳夺冠机会。需要注意的是,与传统体育联赛不同,FRC在锦标赛内没有类似球队重建的机制,因此所有联盟选择都必须以最终夺冠为目标进行。同样,机器人团队将在联盟选艸阶段相互协商,以组成最适合淘汰赛轮次的最佳机器人联盟。协同作用在自由代理期和联盟选择中均起着重要作用,NBA管理层不会设想组建一支由五名中锋组成的队伍,正如一个FIRST团队也不一定会选择与自己机器人优化得分方式相同的团队建立合作关系。最佳联盟通常让每个机器人承担不同的任务,从而最大化得分机会,或根据当年比赛规则,通过其中某个任务执行整体防守来最小化对方联盟的得分机会。因此,NBA管理层和FRC战略家相当,两者都在追求全面性以及饱和能力,以实现冠军目标。其他传统体育运动的自由代理期也表现出球队类似的愿望和目标。

在淘汰赛阶段,八个联盟每场比赛派出四台机器人中的三台,以三局两胜的淘汰赛形式进行比赛,直到决出冠军。随着 FRC不断发展,参赛者也提出了越来越多关于提升联盟选艸质量和决策水平的问题。由于季后赛的目标是实际积分而非排名积分 (RP),许多人决定不依赖RP系统来进行联盟选艸决策。多年来,各队伍创建了新的评估指标,以评估实际或相对的机器人实力。机器人论坛中广泛使用的一些评估指标(例如 Weingart,2006;Law,2008;Gardner,2015;Fang,2017)包括进攻能力评分(OPR)、胜差能力评分(WMPR)以及胜差贡献值(CCWM)等。在一项针对这些评估指标的研究中,Gardner (2015)利用模拟及往届FRC和FTC锦标赛的数据进一步分析了这些评估指标的表现。然而,由于观测数量与机器人数量之比较小,导致估计不精确,OPR和WMPR模型被发现预测性能较差。此外,CCWM模型被证明是WMPR模型的一个特例,并且在我们的应用中被认为没有意义。

在2018年FRC休斯顿和底特律锦标赛的资格赛阶段,各分赛区包含67至68台机器人,进行了112至114场比赛。OPR模型的观测数量与机器人数量的比率范围为3.28至3.40,WMPR模型的比率范围为1.64至1.70。对这类成对比较数据的分析也未发现支持使用WMPR模型的强有力证据。这些因素促使我们探索一些可能的途径来提升其预测能力。考虑到机器人实力的潜在聚类,所提出的模型可以被视为OPR和WMPR模型中参数空间的降维。一个关键问题是如何估计聚类数量、机器人聚类以及机器人实力。我们提出方法的主要目标是以更准确和精确的方式评估机器人实力,并帮助排名较高的队伍评估潜在的联盟成员,以寻求在淘汰赛阶段合作的机会。据我们所知,目前尚无研究致力于探讨团队游戏中个体强度的潜在聚类。

本文其余部分组织如下。第2节概述了现有的机器人实力评估指标和模型。在第3节中,我们提出了一种更通用的带有机器人实力潜在聚类的回归模型,开发了两种有效的估计方法,并提出了若干一致性和稳定性评估指标。在第4节中,我们将所提出的方法应用于2018年FRC休斯顿和底特律锦标赛。结论与讨论见第5节。

2. 机器人实力的现有评估指标和模型

纵观历史,团队运动中对个人实力的评估一直吸引着分析师的关注,例如篮球运动中NBA球员的个人数据。在FRC中也是如此,在过去25年中,FRC的比赛设计包含了与传统体育相似的特征和组成部分。FIRST和FRC队伍均已建立了各自的系统来评估参赛机器人。在本节中,我们简要介绍并比较用于评估机器人实力的OPR、CCWM以及WMPR评估指标和模型。不同于文献中关于比赛结果的OPR、CCWM和WMPR模型,本研究进一步提出了一种更为通用的半参数化公式。此外,我们还回顾了其他团队游戏中用于评估个人实力的类似评估指标和模型。

2.1. 数据和符号

设K和M分别表示一个分区内机器人数量和比赛场数。在每场比赛s中,由三台机器人组成的蓝队联盟Bs与另外三台机器人组成的红队联盟Rs进行对抗。在资格赛阶段,前 ⌈1×K 6 ⌉场比赛的设计目的是确保每台机器人至少参加一场比赛,随后的 ⌈1×K 6 ⌉场比赛的设计目的是确保每台机器人至少参加两场比赛,总共M = ⌈m0×K 6 ⌉场比赛的设计目的是确保每台机器人至少参加m0场比赛,其中 ⌈⌉为向上取整函数。例如,在2018年休斯顿锦标赛的卡弗赛区,K = 68,M = 114,m0= 10。在总共 114场比赛中,每台机器人至少参加了十场比赛。由于恰好有四台机器人参加了十一场比赛,根据比赛手册(FIRST, 2017b)规定的规则,每台参加十一场比赛的机器人的第三场比赛成绩不计入其排名,从而确保所有机器人均有恰好十场比赛的表现机会。

为简化表述,令Y Bs和Y Rs分别表示Bs和Rs的得分; β1,…, βK表示对应编号1,…,K的机器人强度(或在约束 ∑ K i =1 βi= 0下的相对强度);i.i.d. 为独立同分布的缩写。 βi及其估计量中的上标进一步用于区分不同的评估指标。对于现有模型的线性模型构建,我们还定义以下符号:
Ds= I(YR s − YB s> 0),X B si= I(i ∈ Bs),X R si= I(i ∈ Rs),
Y(t)=(Y(t) 1,…, Y(t) M) ⊤ , and X(t)=(X(t) si)=(X(t) 1,…,X(t) M) ⊤ =(X(t) (1)
,…,X(t) (K)) ,
其中,I(·) 是指示函数,X(t) s =(X (t) s1 , . . . , X(t) sK ) ⊤ 和 X(t)(i) =(X (t) ⊤ 分别表示比赛s和机器人i的协变量信息,s = 1, . . . , M,i = 1, . . . , 机器人总数K,且(t) 可以为 B 或 R。

2.2. 概念模型

在应用中,联盟得分(AS)即平均得分,是评估机器人实力的一种简单方法。机器人的AS通过将参赛中的联盟得分相加,再除以比赛场次的三倍来计算。在此系统下,机器人i的实力通过以下方式估计
βˆi=

M s=1(X B siY B s + X R siY R s)
3∑ M
s=1( X B si + X R si)
, i= 1,…, K. (1)
与1950年代NHL蒙特利尔加拿大人队首次采用的正负值统计不同,AS类似于进球数或得分,而不是净得分,再除以球员数量。

与正负值统计的缺点相同,显然较强的(较弱的)机器人可能会因为与相对较弱(较强)的机器人配对而被低估(高估),尽管机器人是随机分配到比赛中的。即使比赛场数足够多,AS仍然不能很好地代表机器人实力。

正如 Fang(2017年)所述,2004年,FRC 1114队的卡西克·卡纳加萨帕提创建了一种称为计算贡献的指标,用于评估机器人对联盟得分的贡献。他开始研究OPR指标,该指标将联盟得分表征为联盟中各机器人贡献强度之和,并通过方程组的最小二乘解来估计机器人实力。相关计算细节如下

在Weingart(2006)发表的一篇帖子中进一步解释,他首次将计算贡献称为OPR。在以下OPR模型中,每场比赛的蓝队联盟得分和红队联盟Rs得分采用相同的方式进行公式化:
YsR=∑
{i∈Rs}
βi+ εsR and YsB=∑
{i∈Bs}
βi+ εsB, s= 1,…, M, (2)
其中 ε1R,…, εRM ε1B,…, εBM是均值为零、方差为 σ 2的i.i.d.变量。如我们所见,上述模型构建与麦克唐纳 (2011) 提出的
NHL球员模型类似,但OPR模型未考虑主场优势效应和防守成分。在独立误差假设下,使用2M个观测值来估计β1,…, βK。尽管该模型构建方式能够以合理的方式将预期联盟得分分解为单个机器人实力,但它完全忽略了对方联盟中机器人行为的影响。如
我们所见,在实践中, εR s与 εB s之间的独立性(s = 1,…,M)是不现实的。此外,在比赛s中,蓝队联盟Bs和红队联盟
Rs中的机器人可能受到某个共同的未观测因素(例如环境障碍)Zs的影响,使得E[Zs|{i : i ∈Bs或Rs}]= E[Zs]= β0 ̸= 0,s
= 1,…,M。为了实现更真实的解释,OPR模型可被修改为
YR s= β0+∑
{i∈Rs}
βi+ εR s and YB s= β0+∑
{i∈Bs}
βi+ εB s, s= 1,…, M, (3)
其中截距 β0可解释为所有机器人实力的平均值。此外,误差项 εR s和 εB s不能被假定为相互独立,s= 1,…, M。值得注意
的是,模型 (2)中回归系数的估计量是模型 (3)中回归系数的有偏估计量。

另一种常用的机器人实力评估方法是Gardner(2015)提出的WMPR指标。该指标考虑了机器人对对方联盟的影响。基于这一考量,WMPR模型中联盟之间的得分差异被表述为
YR s − YB s=∑
{i∈Rs}
βi −∑
{i∈Bs}
βi+ εs, s= 1,…, M, (4)
其中 ε1,…, εM是均值为零、方差为 σ 2的i.i.d.变量。在篮球、足球、排球和电子竞技比赛中,一些研究(如罗森鲍姆 (2004)、
麦克唐纳 (2011)、舒克尔斯等人 (2011)、塞博和赫瓦图姆 (2015)、哈斯和克雷格 (2018)、赫瓦图姆 (2019) 以及克拉克等人 (2020) 等)采用了调整后的正负评分(APMR),该方法类似于WMPR,用于评估每位球员相对于其他所有球员对每回合净得分的贡献。与WMPR模型相比,APMR模型考虑了主客场优势以及关键时刻/垃圾时间表现,这些因素在许多团队运动中很常见。

在传统体育中,该模型构建已被证明对成对比较数据具有实用性。对 ε1,…, εM施加了更一般的条件,尽管式(2)或式(3)中的
OPR模型也能得出
YR s − YB s=∑
{i∈Rs}
βi −∑
{i∈Bs}
βi+(εR s − εB s), s= 1,…, M, (5)
其中(εR 1 − εB 1)…,(εR M− εB M)是均值为零、方差为E[(ε R 1 − εB 1)2]的独立同分布随机变量。然而,在估计机器人实力时仅使用了 M个观测值。

通过考虑对手联盟得分的影响,Law(2008)提出了如下形式的CCWM模型:
YR s − YB s=∑
{i∈Rs}
βi+ ε
R s and YB s − YR s=∑
{i∈Bs}
βi+ ε
B s, s= 1,…, M, (6)
其中 ε R 1,…, ε RM ε B
1,…, ε BM是均值为零、方差为 σ 2的i.i.d.变量。显然,CCWM模型描述了对方联盟得分对参考联盟得分的净效应。机器人在其参与的比赛中的贡献进一步由胜率差来解释。然而,根据等式E[Y Rs −Y Bs ]= −E[Y Bs −Y Rs ],,可得∑{i ∈ Rs} βi= −∑{i ∈Bs} βi,s = 1,…,M,从而得到当M ≥K且 ε Rs = −ε Bs , s = 1,…,M时的 β1= · · ·= βK= 0。因此,
YR s − YB s = εs, s= 1,…, M, (7)
其中 ε1,… , εM是 i.i.d.,且均值为零、方差为 σ 2。这一事实表明,CCWM模型在我们的应用中是没有意义的。显然,式 (7)中CCWM模型的模型构建是式(4)中模型构建的特例,即β1= · · ·= βK= 0。因此,本文后续部分将不再研究CCWM模型。

注释1. 对于机器人的防御实力,有建议提出应考虑防御能力评分(DPR)。GardnerGardner(2015)的研究表明,DPR模型的估计的机器人实力可表示为OPR模型与CCWM模型之差。作者还引入了其他评估指标,如综合能力评分、基于混合的以太能力评分以及一些相关的联合评估指标。然而,在FRC系统的设定中,这些评估指标不适合用于刻画机器人实力。因此,本文不探讨这些指标的性质及其扩展。 □

2.3. 与其他团队游戏中的评估指标的比较

胜场贡献值(WAR)由Slowinski(2010)提出,球员替代价值(VORP)由Woolner(2001a,b)详细阐述,这些是棒球中用于表达球员对队伍个人贡献的统计指标。胜场贡献值(WAR)通过162场比赛赛季中的胜场数来衡量,而球员替代价值(VORP)则通过得分创造衡量球员的进攻贡献,通过失分平均衡量投球贡献。这些评估指标与本文分析的各种个人贡献统计相当。在这两个指标中,球员替代价值(VORP)更接近目前可用的机器人统计数据,因为资格赛的比赛场数较少,通常在2018年冠军赛中每台机器人不超过11场比赛,这意味着没有足够的数据来拟合类似胜场贡献值(WAR)的准确评估指标。

尽管APMR模型在描述篮球、冰球、足球、排球和电子竞技比赛方面似乎具有优势,但其背景与机器人竞赛有很大不同。此外,Ilardi 和 Barzilai (2008) 将每位球员在APMR模型中的角色(进攻或防守)纳入考虑。基于预期结果与实际观测结果之间的差异,Schuckers 等人 (2011) 提出了一种调整后的正负概率模型。在机器人锦标赛中,WMPR模型下每个组别中观测数量与机器人数量的比率低于二,而APMR模型中一个赛季内NBA球员的回合数与球员数量的比率约为十六(参见TeamRankings (2019) 中关于2018–2019赛季的数据)。这种限制通常导致WMPR模型对机器人实力的估计不准确,并且对未来结果的预测效果较差。因此,我们研究的一项重要任务是开发一种更优的预测模型。

2.4. 线性模型构建

由(2)和 (4)可得,OPR和WMPR模型可以表示为
Y= X β+ ε, (8)
其中 β=(β1,…, βK) T和 ε的均值向量为 0 ¯M×1,协方差矩阵为 σ 2I ¯M。就这种线性模型构建而言,我们有
1. Y=(YR YB), X=(X R X B), and ε=(εR 1,…, εR M, εB 1,…, εB M)⊤ with M¯= 2M in the OPR model; and
2. Y= YR − YB, X= X R −X B, and ε=(ε1,…, εM)T with M¯= M in the WMPR model.

由于WMPR模型中(XR(i) − XB(i))(即 ∑K i=1(XR(i) − XB(i))= 0)存在线性相关性,进一步施加约束条件∑ K
i =1 βi= 0,该约束条件也被卡泰兰等人(2013)用于布拉德利和特里(1952)及布拉德利(1953)提出的布拉德利‐特里规范,以解决 β的可识别性问题。因此,系数 βi相较于βK,被解释为机器人i的相对强度,其中i = 1, . . . , K −1。在该约束条件下,模型(8)可重写为
Y= X¯ β ∗ + ε, (9)
其中 ¯X是一个M ×(K −1)矩阵,其第i列为X(i) −X(K),且 β ∗ =(β1,…, βK−1) ⊤满足 βK= −∑ K−1 i=1 βi。在回归分析的背景下, β(或 β ∗)在高斯‐马尔可夫条件下自然通过最小二乘估计(LSE)进行估计,记为 β(或 β ∗)。

备注2。 在WMPR模型下,Gardner(2015)通过求解平方和对应估计方程的伪逆解,提出了 β的一个估计量。尽管对得到的估计量缺乏解释,比赛的估计或预测得分是唯一的。在应用中,还可以施加约束∑ K i=1 β
2
i= 1以获得相对机器人强度的估计量。
然而,对于 β对应的最小二乘估计,目前没有简单的表达形式。 □

注释3. 与Feamhead 和 Taylor (2011)提出的正负评分系统的发展类似,WMPR模型中的机器人实力 βi也可被表述为均值为
零、方差为 σ 2的i.i.d. 正态随机变量。结合对 ε的正态性假设以及 β与 ε之间的独立性,Fahrmeir 和 Tutz (2001)已证明 β 的相应预测量是一个岭估计量,这与Sill(2010)中所述相同,其正则化参数 σ 2

2 0在此贝叶斯框架下确定。由于岭回归主要用于应对协变量的多重共线性,因此其解释不同于所引入的贝叶斯估计量。此外,在大多数现有的成对比较模型中,该问题通过施加约束∑ K i=1 βi= 0来解决。在我们对2018年FRC锦标赛的应用中,也表明WMPR模型及其贝叶斯形式(下文称为WMPRR模型)在预测方面具有相当的性能。 □

2.5. 二元回归模型

OPR 和 WMPR 模型表明,比赛结果的相应条件概率具有以下形式:
P(Ds = 1|X B s = xB s ,X R s = xR s) = 1 −F(−(x R s −xB s) ⊤ β), s= 1,…, M, (10)

3. 机器人实力的潜在聚类

与现有模型相比,采用了一种更为通用的模型构建方法来刻画机器人实力的潜在聚类。本文进一步为所提出的回归模型开发了两种有效的估计方法。此外,本节还提出了一些评估指标,用于衡量模型的预测能力、FRC评分与基于模型的机器人实力之间的一致性,以及估计的机器人实力和准确率的稳定性。

3.1. 模型扩展

在 图2 和 3中,我们观察到在这两个冠军锦标赛中,OPR和WMPR模型对估计的机器人实力呈现出聚类特征。基于这一发现,这两个模型被扩展为一种更通用的形式,即引入机器人实力的聚类特征,也就是
β=(β c0
g1,…, β
c0 gK) ⊤
,
其中c0为未知的聚类数量,gi ∈{1,…, c0}表示机器人i所属的相应聚类,i = 1, . . . , K,且g =(g1, . . . , gK)⊤。除了减少OPR和WMPR模型中的参数数量外,我们不对得分差异和比赛结果(胜/负)的潜在分布做任何特定假设。事实上,将选手划分为若干技能等级的观点已被美国国际象棋联合会(USCF)和国家轮椅篮球协会(NWBA)所采用。通过使用埃洛(1978)定义的评级系统来评估选手的相对技能水平,USCF将国际象棋棋手分为十三个组:A级,…,J级,专家或候补大师,国家级大师和高级大师。根据球员执行基本篮球动作的身体能力,NWBA将球员分为八个类别之一(1, 1.5, …, 4, 和 4.5)。然而,这些分类标准在实际应用中略显主观。通过将βi= β c0gi(其中gi ∈{1,…, c0},i = 1, . . . , K)的信息引入模型构建Y = β1X
(1) + · · ·+ βKX(K) + ε(模型(8)),具有相同系数(例如 β c0j)的协变量X(i)’可进一步合并为一个新的协变量Xc0(j),j = 1, .
. . , c0。因此,Y可表示为 β c0 c0c0 Xc0(c0) + ε,且模型(8)是当 K > c0时模型(12)的过参数化版本。
因此,基于理论和实际考虑,提出如下扩展线性回归模型:
Y= X c0β c0 + ε, (12)
其中, β c 0 =(β
c 0 1, . . . , β c0c0 ) ⊤, ε的均值向量为 0 ¯M ×1,协方差矩阵为 σ 2 0 I ¯M,Xc 0 =(X c 0 0M ) ⊤ =(X c 0 (1)
…, Xc 0 (c0)) 是 XBc 0 和 XRc 0 的设计协变量矩阵,其中 XBc 0 (j) 和 XRc 0 (j) 分别基于 XB (i) 和 XR (i) 定义为 Xc 0 (j)。注意模型(
8)是当 c0= K 时的特例,且当 c0 小于 K 时该模型是过参数化的。除了推广(8)中机器人实力的模型构建外,我们不对误差项 ε假设任何特定分布。由于每个组别中比赛数量与机器人数量之比相当小,我们的研究为提升现有模型的预测能力提供了一种可能途径。与(10)中的推导相同,我们有
P(Ds = 1|X B s = xB s ,X R s = xR s) = 1 −F(−(x Rc 0 s −x Bc 0
s)
T
β
c 0), s= 1,…, M, (13)
用于具有机器人实力潜在聚类的OPR模型(OPRC)和具有机器人实力潜在聚类的WMPR模型(WMPRC)。

示意图1

示意图2

注释4。 在假设技能水平相当的国际象棋棋手相互对弈的前提下,Sismanis(2010) 提出了Elo++评分系统,以避免Elo评分系统中球员评级的过拟合问题。由于机器人在资格赛阶段被随机分配到比赛和联盟中,每个机器人没有明确的邻居,因此该技术不适用于估计OPRC和WMPRC模型。此外,所引入的 ℓ2–正则化中定义的邻居平均值具有较强的主观性。 □

3.2. 预测能力

在本小节中,我们考虑所有可能的回归模型形式
Y= X c β
c
+ ε, (14)
其中 Xc =(X c (1)…, Xc (c)) 和 β c
=(β
c 1, . . . , β
c
c ) ⊤,Xc (j) 根据 Xc0’s, c = 1, . . . , K 定义为 X(i)(j)。与许多科学研究一样,敏感性和特异性是诊断准确性的常用评估指标。我们进一步使用这两个评估指标分别检测蓝队联盟击败红队联盟的情况以及红队联盟击败蓝队联盟的情况。由于机器人被随机分配到两个联盟之一,胜场指示变量 D0 的期望值应为 0.5。因此,准确性 (即敏感性与特异性的加权平均)是评估模型预测能力的合理度量。更准确地说,该度量表示正确预测的期望比例。给定聚类数量 c、机器人聚类ˆg 以及 β c 的估计量 ˆβ c,基于模型 (14) 的预测器的准确性定义为
AC(c)= P(sign(Y R 0 − YB 0) · sign(ˆP c (x B 0 , x R 0) −0.5)> 0)+ 0.5P(sign(Y R 0 − YB 0) · sign(ˆP c (x B 0 , x R 0) −0.5)= 0), (15) 其中 ˆPc (x B 0 , xR Rc 0 −xBc 0) ⊤ˆβ c),且 ˆFc (v) = ∑ Ms=1 I(e cs ≤ v)/m 和 ecs =(Y Rs −Y Bs ) −(X Rcs −
XBcs ) ⊤ˆβ ( c ),c = 1, . . . , K ,s = 1, . . . , M。我们注意到,(15) 式右侧的第二项用于处理并列问题。只要 c0 和 g 已知,根据
马门(1996)的研究,在某些适当条件下,残差的经验分布函数 Fc 0 (v) 一致收敛于误差分布函数。对于红队联盟Rs与蓝队联盟之间的得分差异,即 (Y R 0 −Y B 0),采用以下均方预测误差:
MSPE(c)= E[((Y R 0 − YB 0)−(x Rc 0 −xBc 0) ⊤ˆβ c )
2 ], c= 1,…, K. (16)

与回归分析的背景下一样,该度量方法被发现有助于探索潜在有影响力观测值的影响以及选择多个竞争模型。
在资格赛阶段,AC(c) 和 MSPE(c) 通过留一场比赛交叉验证估计进行估计 AˆC(c)= 1 M
M

s=1
Ds(c) andˆ MSPE(c)= 1 M
M

s=1 ((YsR − YsB)−(X sR c−X sBc)⊤ˆβc −s) 2, respectively, c= 1,…, K, (17) 其中 Ds(c) = I(sign(Y Rs −Y Bs ) · sign(ˆPc −s(XBs ,XRs ) − 0.5) > 0)+ 0.5I(sign(Y Rs −Y Bs ) · sign(ˆPc −s(XB s ,XRs ) − 0.5) = 0),ˆPc −s(XBs BXRs )= 1 −ˆFc −s(−(XRcs −XBcs )⊤ˆβc −s),且 (ˆβc −sˆF c −s(v))通过移除比赛s 后计算得到,s = 1, . . . , M。无需使用数据 {Y−s, Xc −s},(ˆβc −sˆF −s(v)) 可通过每个 s 的 ˆβc −s ˆ 与 {βc, Xc,ec s} 之间的关系直接获得。计算细节见附錄。令 AC1 和 AC2 分别表示某一分区中任意两个通用模型的准确率,对应的估计为 ˆAC1= ∑M s=1 D1s/M 和 ˆAC2= ∑M s=1 D2s/M。
其中D1s和D2s定义为Ds(c)。根据ChiangandChiu(2012)中的定理1,√M(ˆACℓ−ACℓ)/ˆσℓ可由标准正态分布近似,其中 ˆσ 2 ℓ=∑ M s=1(Dℓs−ˆACℓ) 2/M, ℓ= 1,2。利用此性质,因此可构造ACℓ的一个近似(1 − α)‐置信区间如下: AˆCℓ ± z1−α/2 ˆ σℓ
√M
, ℓ= 1, 2, (18)
其中zq是标准正态分布的第q个分位数值。对于假设H0: AC1= AC2与假设HA: AC1 ̸= AC2(或假设H0: AC1 ≤ AC2与 假设HA: AC1> AC2),提出以下检验统计量:
T= √M(AˆC1 −AˆC2)
ˆσd , whereˆσ 2 d=
1 M
M

s=1
((D1s −D2s)−(AˆC1 −AˆC2)) 2
. (19)
在我们的测试中,H 0在|T| > Z1−α/2(或T> Z1−α)时,以近似显著性水平 α被拒绝 .

在淘汰赛阶段,我们用K ∗和M∗分别表示一个分区中的机器人数量和比赛场数;Y ∗(t)=(Y ∗ (t)1,…,Y ∗ (t)M∗)⊤和X ∗(t)=(
X ∗ (t)1,…,X ∗ (t)M∗)⊤表示设计的响应向量和协变量矩阵,其中(t)为B或R。通过将资格赛数据视为训练数据,评估方法在季后赛 数据上的评估指标AC(c)和MSPE(c)定义为
AC(c)=
1
M ∗
M∗

s=1
D∗ s(c) and MSPE(c)=
1
M ∗
M∗

s=1
((Y ∗R s − Y ∗B s)−(X ∗Rc s −X ∗Bc s) ⊤ˆβc)2, c= 1,…, K ∗, (20) 其中 D∗s (c) = I(sign(Y ∗R s −Y ∗B s ) · sign(ˆPc(X ∗Bc s ,X ∗Rc s ) −0.5) > 0)+ 0.5I(sign(Y ∗R s −Y ∗B s ) · sign(ˆPc(X ∗Bc s ,X ∗Rc s ) −0.5) = 0),其中 (X ∗Bc s ,X ∗Rc s ) 的计算方式与 (XBc s ,XRc s ) 相同。如我们在应用中 所示,当前模型和所提出模型对淘汰赛阶段比赛结果的预测能力较差。由于机器人分配至比赛并非随机,某些混杂因素在模型拟 合中不能简单视为干扰变量,这在一定程度上解释了预测能力较差的原因。

3.3. 估计方法

对于模型(12)中的未知参数c0, g和 β c0,通常不切实际去拟合(14)中的所有可能回归模型。这些模型候选者的总数可进一步表示为
SK=
K

c=1
1
c!
c−1

j=0 (−1)j( c j) (c −j) K
, (21)
即为Marx(1962) 和 Salmeri(1962) 所示的第二类斯特林数。在2018年FRC休斯顿和底特律锦标赛中,SK约为 1.67 × 1069
(当 K= 67时)和 3.66 × 1070(当 K= 68时)。本研究提出了两种有效的估计方法,以避免从大量可能的模型候选者中 选择合适模型所带来的计算复杂度和成本,这些模型候选者由不同数量的聚类和机器人聚类的组合所索引。
我们首先为模型提出以下估计方法(方法1)模型(12): ˆ步骤1. 拟合(8)中的回归模型(例如OPR和WMPR模型),并计算 β的 β最小二乘估计。 步骤2:对Sokal和Michener(1958)应用质心链接聚类方法 ˆ β并获得聚类估计量ˆg=(ˆg1,…,ˆgK) ⊤,其中ˆgi的 ∈{1,…, c}。
St第3步。拟合回归模型 Y= X β
c
+ ε,并计算 β c 的最小二乘估计 β c ,c= 1,…,机器人总数K。
步骤4. 计算一个估计 ˆ ˆMSPE(c))。
步骤5. 通过(ˆc ˆg,来估计(c0 ,g β c 0 ) ˆβˆ c ).

使用 β作为初始估计量的原因主要基于模型(8)的有效性,该模型是所提出模型在K > c0,情况下的过参数化ˆ版本,以及 β
对 β的一致性。如Portnoy (1984)所示,其收敛速率为机器人数量与观测数量之比的平方根。由于同一集群中机器人强度的恒定
性,即 βi’s ∈{β1c0,…, βc0c0},合理地采用质心链接聚类方法(一种层次聚类方法(Gordon, 1987))来度量任意两个聚类之 间的距离。对于c ≥ c0,,进一步确保了ˆβc——作为 βc的一致估计量,其中βc i ’s ∈{β1c0,…, βc0c0}——将随着c减小至c0而
变得越来越精确。因此,确定c0的问题可自然转化为此类参数空间降维中的模型选择问题。在上述估计过程中,OPRC模型的 β01 的最小二乘估计直接推导为ˆβ1= ∑M s=1(Y Rs +Y Bs )/6M,WMPRC模型则为ˆβ1= 0。不同于聚类分析中的现有准则(例如Krzanowski 和 Lai, 1985;Tibshirani 等, 2001;Sugar 和 James, 2003;王, 2010),最优聚类数量c0通过最大化留一场 比赛交叉验证的准确率AC(c)估计或最小化留一场比赛交叉验证的均方预测误差MSPE(c)估计来确定,相对于聚类数量c而言,其
中被剔除的比赛(测试数据)起到未来运行的作用,剩余比赛(训练数据)用于构建竞争模型。尽管性质AC(c0) > AC(c) + O(M−1)和MSPE(c0) < MSPE(c) + O(M−1)在c < c0 ≪ K时成立,但由于当c0< c ≪ K时存在性质AC(c) = AC(c0) +
O(M−1)和MSPE(c) = MSPE(c) + O(M−1),类似于赤池信息准则(AIC)(Akaike, 1974)的交叉验证准则在模型选择中是不一 致的。然而,在我们的应用中,发现形式为(14)的一组嵌套模型中机器人实力的不精确估计导致当c2> c1 ≥ˆc时有AC(c1) > AC(c2),以及当c2> c1 ≥ˆc∗时有MSPE(c1) <ˆMSPE(c2)。这隐含地表明ˆc和ˆc∗应远小于K并接近c0。更深入的研究 有待未来开展。值得注意的是,AC(c)和MSPE(c)不仅用于评估模型的预测能力,还用于估计模型(12)中的聚类数量c0。
事实上,可以通过对估计量进行聚类分析来获得机器人聚类ˆgi的 ˜ β(c+1) 按顺序与 c=机器人总数K − 1,…,2。作为方法1的替代方案,进一步提出第二种估计程序(方法2)如下:
步骤1. 拟合回归模型 Y = Xβ+ ε,并计算最小二乘估计 β 和 AC(K)(或 MSPE(K))。步骤2. 对 β˜K △ =ˆβ 执行质心链接
聚类方法,并获得聚类估计量 ˆg =(ˆg1, . . . ,ˆgK) ⊤,其中 ˆgi 的 机器人总数K 为 −1}。步骤3. 拟合回归模型 Y =X K−1βK−1+ ε,并计算最小二乘估计 ˆβK−1 和 ˆAC(K −1)(或 ˆMSPE (K −1))。步骤4. 对 ˆg, β˜c,ˆβc−1 以及 ˆ AC(c −1)(或 ˆMSPE(c −1)),c = K − 1, . . . , 2,重复步骤2–3。步骤5. 分别通过 ˆc = arg maxcˆAC(c)(或 ˆ
c∗ = arg mincˆMSPE(c))来估计 c0, g 和 ˆβˆc。
我们可以看到,机器人聚类ˆgi是通过对方法1中的 β˜K进行聚类分析得到的,而在方法2中则是对 β˜c+1c= K − 1,…, 2进行
聚类分析得到的。值得注意的是,方法2与方法1具有相同的渐近性质,因为该估计方法使用了相同的一致初始估计量。尽管两种 估计方法可能产生不同的估计聚类数量,但在我们的应用中,它们对所提出模型的估计精度彼此接近。
在所提出的模型(12)中,诸如Hochberg 和 Tamhane(1987)、Hsu(1996) 以及 Hothorn 等人(2008) 提出的多重比较程序, 是确定聚类数量和机器人聚类的可行途径。然而,如何控制同时推断 {βi−βj: i ̸=j}时的整体第一类错误率仍然是一个具有挑 战性的任务。此外,这种推断程序可能无法实现预测目的。正如引言中指出的,观测值数量与机器人数量的较小比率会影响 ˆ最小二乘估计 β的 β在(8)中的精度。这倾向于选择较少的聚类数量,从而导致对比赛结果的预测效果较差。

备注5。 WMPRC模型的(14)式表述可以重写为Y = Xc β
∗c + ε,其中Xc定义为X,其
第j列为Xc (j) −(n1/nc)X c (c),且β
∗c =(β c 1 ,…, β
c c−1) ⊤
满足β
c c = −∑
c−1
=1 j nj β
c j /nc以及nj =∑
n
i=1 I(gi=j),j = 1,
. . . , c。如同回归分析的情境中,在 OPRC模型中 β c的最小二乘估计为 ˆβ c =(X c⊤X c ) −1X c⊤Y (22)
WMPRC模型中 β c的最小二乘估计是
ˆβ c =(ˆβ ˆβ∗c withˆβ ∗c =(X¯ c ⊤ X¯ c )
−1 X¯ c ⊤Y andˆβ c c =
−∑
c−1 j=1
n jˆ β
∗c j nc
for c ≥ 2. □ (23)

备注6. 尽管贝叶斯信息准则(BIC)(Schwarz,1978)已在模型选择中被广泛使用,Giraud(2015)表明,BIC仅在M远大于
K时才有效,而本场景并不满足该条件。此外,由于我们设定中缺乏对Ys和Ds、s= 1、…、M的特定分布假设,BIC在此不可行。
由此可见,现有潜在聚类分析方法(Lazarsfeld 和 Henry,1968;Goodman,1974;Collins 和 Lanza,2010)由于主要关 注识别
潜在类别分析视角下, βi的聚类而非Ys的聚类。此外,当c大于1时,gi存在大量可能的类别成员组合(∑c=−01 j(−1)j(cj)(c −j)K)/ c!。对于不同的gi组合,还需要进行复杂的计算任务以推导出相应的ˆ设计协变量X c(j)和估计值βc j。 □

3.4. 一致性评估

˜令R0为所有、淘汰赛或FRC前8名机器人K0的FRC评分集合;R0的大小;以及 β0 R中机器人的估计的机器人实力R0。为了 评估FRC评分与基于模型的机器人实力之间的一致性,计算˜秩Han(1987)首次提出的R0与 β0之间的相关性如下:
RC(R0,β˜0)=
1
K0(K0 −1)∑∑
i̸=j
I(sign(Ri −Rj) · sign(β˜i −β˜j)> 0)+ 0.5I(sign(Ri −Rj) · sign(β˜i −β˜j)= 0), (24)
˜ ˜其中Ri和 βi分别是R0与 β0的对应元素。事实上,这种基于秩的评估指标
对于研究两个有序尺度测量之间的单调关联特别有用。其他评估指标,例如Kendall的 τ(Kendall,˜1938)和Spearman的 ρ
(Spearman,1904)也可用于评估R0与 β0之间的一致性。
与模式识别和信息检索领域类似,我们使用Perry et al.(1955)提出的精度和召回率评估指标,来评估FRC前8名机器人与基 于模型的前N名机器人(根据估计的机器人实力排序)之间的一致性。令RS0和RS(N)分别表示FRC前8名机器人和基于模型的前 N名机器人对应的集合。RS0与RS(N)的精度和召回率评估指标进一步定义为
Pr(RS0, RS(N))= |RS0 ∩ RS(N)|
N
and Re(RS0, RS(N))= |RS0 ∩ RS(N)|
8
, respectively. (25)
在诊断测试中,精度和召回率分别被称为Vecchio(1966) 提出的阳性预测值和Yerushalmy(1947) 提出的敏感性。值得注意的是, 敏感性是衡量测试内在准确性的指标,而阳性预测值仅取决于准确性和患病率。

3.5. 稳定性评估

在本研究中,我们评估了资格赛阶段需要进行多少场比赛才能清晰地反映机器人实力。这主要是为了对未来锦标赛中的最佳
比赛场数提出建议,以改进规划和后勤工作。设Y(t)
[ℓ]
和X(t)
[ℓ]
分别为Y(t)的前Mℓ个元素和X(t)的前Mℓ行所构成的对应向量和矩阵,
其中(t)为B或R,Mℓ= ⌈ ℓ×K 6 ⌉, ℓ= 6, . . . , m0。基于数据{Y B [ℓ]
,Y R
[ℓ]
,XB
[ℓ]
,XR [ℓ]} 以及(c0, g)的估计量(ˆcˆg)(或(ˆc∗,ˆg)), 我们将 β˜[ℓ]定义为通过模型(12)中 βc0的最小二乘估计得到的机器人实力估计值,或前8名机器人实力估计值, ℓ= 6, . . . , m0。
与(17)中ˆAC(c)和ˆMSPE(c)的公式类似,ˆAC 和ˆMSPE 基于数据{Y B , Y R
[ℓ]
,XB
[ℓ]
,XR [ℓ]} 以及 β˜[ℓ], ℓ= 6, . . . , m0进行计算。估计的机器人实力和准确率的稳定性可通过{RC(β˜[ℓ], β˜[ℓ+1]) ˆc)(或ˆMSPE ) : ℓ= 6, . . . , m0}来评估,其中秩相关函数RC(·, ·)在(24)中定义。根据这些评估指标和预设的容差 阈值,我们可以进一步确定资格赛阶段合适的比赛场数。

4. 在2018年FRC锦标赛中的应用

在本节中,将第2.2节和2.4–2.5节中的OPR和WMPR模型以及第3.1节中的OPRC和WMPRC模型应用于2018年FRC休斯顿 和底特律锦标赛。如注释3所述,WMPRR模型是具有随机机器人强度的WMPR模型,其缺陷也在本应用中进行了研究。在 2018年比赛中,每个冠军赛场地由六个分赛区组成:休斯顿的卡弗、伽利略、霍珀、牛顿、罗布林和图灵;底特律的阿基米德、 卡森、居里、戴利、达尔文和特斯拉。为了确定聚类数量和机器人聚类,第3.3节中开发的估计方法(方法1、方法2)分别记为 OPRC模型的(OPRC1,OPRC2)和WMPRC模型的(WMPRC1,WMPRC2)。为避免冗长,下文中将OPR和WMPR模型对应的估计 方法简称为OPR和WMPR估计方法。在表1中,我们总结了资格赛阶段和淘汰赛阶段各分赛区的比赛场数和机器人数量。表2 进一步展示了通过OPRC1、OPRC2、WMPRC1和WMPRC2估计方法得到的估计聚类数量。显然,与机器人数量相比,估计的聚 类数量相对较小。此外,在图4 和图5 中还可以看出,估计准确率与聚类数量之间存在倒U型关系,而估计均方预测误差与聚类数 量之间存在U型关系。
由于研究兴趣主要集中在预测比赛结果上,我们的研究基于估计的聚类数量ˆc。在十二个分赛区中,WMPRC模型的观测 数量与估计聚类数量的比率范围为22.33至45.33,而WMPRC模型的比率为6.48至22.67。

表1 资格赛阶段的比赛场数 M 和机器人数量 K ,以及淘汰赛阶段的比赛场数 M∗ 和机器人数量 K ∗。
| 锦标赛 | 分区 | M | K | M∗ | K ∗ |
| :— | :— | :— | :— | :— | :— |
| 休斯顿 | 卡弗 | 114 | 68 | 17 | 28 |
| | 伽利略 | 114 | 68 | 17 | 28 |
| | 霍珀 | 114 | 68 | 17 | 28 |
| | 牛顿 | 112 | 67 | 14 | 28 |
| | 罗布林 | 112 | 67 | 15 | 28 |
| | 图灵 | 112 | 67 | 18 | 27 |
| 底特律 | 阿基米德 | 114 | 68 | 16 | 27 |
| | 卡森 | 114 | 68 | 17 | 27 |
| | 居里 | 112 | 67 | 16 | 27 |
| | Daly | 114 | 68 | 16 | 26 |
| | 达尔文 | 112 | 67 | 18 | 25 |
| | 特斯拉 | 112 | 67 | 17 | 27 |

表2估计的聚类数量ˆ
c和ˆc∗,其中花括号内的数字是c0的聚类最大和最小尺寸,来自t OPRC1、OPRC2、WMPRC1 和 WMP 基于资格赛数据的RC2估计方法。

| 锦标赛 | 分区 | OPRC1 | OPRC2 | WMPRC1 | WMPRC2 | ˆc | ˆc∗ | ˆc | ˆc∗ | ˆc | ˆc∗ | ˆc | ˆc∗ |
| :— | :— | :— | :— | :— | :— | :— | :— | :— | :— |
| 休斯顿 | 卡弗 | 3(46, 3) | 11(15, 1) | 10(18, 1) | 11(15, 1) | 10(21, 1) | 11(14, 1) | 12(12, 1) | 11(15, 1) |
| | 伽利略 | 12(19, 1) | 9(19, 1) | 10(18, 1) | 8(18, 1) | 7(22, 1) | 8(17, 1) | 8(17, 1) | 8(17, 1) |
| | 霍珀 | 7(23, 1) | 9(15, 1) | 7(25, 1) | 9(15, 1) | 8(20, 1) | 10(12, 1) | 21(9, 1) | 10(12, 1) |
| | 牛顿 | 7(23, 1) | 10(17, 1) | 8(17, 1) | 9(17, 1) | 14(10, 1) | 13(10, 1) | 14(9, 1) | 10(17, 1) |
| | 罗布林 | 7(23, 2) | 9(15, 1) | 7(18, 2) | 8(18, 2) | 11(17, 1) | 10(17, 1) | 11(16, 1) | 11(16, 1) |
| | 图灵 | 8(16, 1) | 8(16, 1) | 11(13, 1) | 9(14, 1) | 11(20, 1) | 12(12, 1) | 10(25, 1) | 8(14, 1) |
| 底特律 | 阿基米德 | 15(20, 1) | 8(26, 1) | 14(20, 1) | 8(20, 1) | 14(15, 1) | 13(15, 1) | 9(26, 2) | 6(16, 2) |
| | 卡森 | 4(35, 8) | 10(13, 2) | 11(16, 2) | 9(16, 2) | 10(23, 1) | 12(12, 1) | 12(16, 1) | 10(22, 1) |
| | 居里 | 16(15, 1) | 12(15, 1) | 16(13, 1) | 10(17, 1) | 8(23, 1) | 12(12, 1) | 6(25, 1) | 10(13, 1) |
| | Daly | 6(31, 1) | 9(19, 1) | 6(31, 2) | 8(19, 2) | 14(14, 1) | 11(14, 1) | 16(9, 1) | 11(14, 1) |
| | 达尔文 | 9(13, 1) | 7(19, 1) | 8(16, 1) | 9(16, 1) | 8(15, 1) | 9(15, 1) | 8(21, 1) | 8(21, 1) |
| | 特斯拉 | 8(30, 1) | 9(20, 1) | 6(30, 1) | 8(15, 1) | 7(22, 1) | 12(11, 1) | 7(25, 1) | 12(15, 1) |

表3 展示了休斯顿和底特律锦标赛各分赛区资格赛数据上不同估计方法得到的(17)形式的估计精度。 对于研究模型的准确率,还 进一步在(18)中构造了近似0.95置信区间,并在表3中提供。尽管在同一赛事的所有分赛区中,每种估计方法的准确率之间没有 显著差异,但这并不意味着可以将各分赛区的结果合并以获得更稳健的准确性估计。这主要是因为某些分赛区的基础模型可能完 全不同。此外,AS、OPR、OPRC1、OPRC2、WMPR、WMPRC1、WMPRC2和WMPRR估计方法的总体估计准确率分别为 70.3%、71.0%、85.0%、85.2%、

内容概要:本文介绍了一个基于冠豪猪优化算法(CPO)的无人机三维路径规划项目,利用Python实现了在复杂三维环境中为无人机规划安全、高效、低能耗飞行路径的完整解决方案。项目涵盖空间环境建模、无人机动力学约束、路径编码、多目标代价函数设计以及CPO算法的核心实现。通过体素网格建模、动态障碍物处理、路径平滑技术和多约束融合机制,系统能够在高维、密集障碍环境下快速搜索出满足飞行可行性、安全性与能效最优的路径,并支持在线重规划以适应动态环境变化。文中还提供了关键模块的代码示例,包括环境建模、路径评估和CPO优化流程。; 适合人群:具备一定Python编程基础和优化算法基础知识,从事无人机、智能机器人、路径规划或智能优化算法研究的相关科研人员与工程技术人员,尤其适合研究生及有一定工作经验的研发工程师。; 使用场景及目标:①应用于复杂三维环境下的无人机自主导航与避障;②研究智能优化算法(如CPO)在路径规划中的实际部署与性能优化;③实现多目标(路径最短、能耗最低、安全性最高)耦合条件下的工程化路径求解;④构建可扩展的智能无人系统决策框架。; 阅读建议:建议结合文中模型架构与代码示例进行实践运行,重点关注目标函数设计、CPO算法改进策略与约束处理机制,宜在仿真环境中测试不同场景以深入理解算法行为与系统鲁棒性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值