休眠网络中的中继选择

原创于 2025-10-08 01:34:10 发布 · 405 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#无线传感器网络 # 休眠‐唤醒循环 # 中继选择 # 马尔可夫决策过程 # 探测成本

52 休眠‐唤醒循环的无线传感器网络中信道探测的中继选择

K. P. 纳文和Anurag Kumar，印度科学研究所

在具有休眠‐唤醒循环节点的大规模无线传感器网络（WSN）中进行数据包的地理转发时，我们关注的是一个节点所面临的局部决策问题：该节点“持有”一个数据包，需要从一组下一跳中继节点中选择一个将数据包向汇聚节点转发。每个中继都关联有一个“奖励”，用于概括通过该中继转发数据包所带来的收益。我们寻求这一局部问题的解决方案，其思想是，若每个节点都采用这样的解决方案，则可能为端到端转发问题提供一种合理的启发式方法。为此，我们提出一种局部中继选择问题，其包含一个转发节点和一组中继节点，其中中继以随机时间顺序依次唤醒。在每次中继唤醒时刻，转发器可以选择探测该中继以获知其奖励值，并据此决定是否停止（并将数据包转发给选定的中继）或继续等待其他中继唤醒。转发器的目标是选择一个中继，以最小化等待延迟、奖励和探测成本的综合值。该局部决策问题可视为运筹学文献中研究的资产出售问题的一种变体。我们将该局部问题建模为马尔可夫决策过程（MDP），并用停止集和探测集来刻画其解的结构。我们给出了关于停止集结构的结果，即（下界）阈值和阶段独立性特性。对于探测集，我们提出了一个有趣的猜想：这些集合由上界来刻画。通过仿真实验，我们对最优局部转发的性能及其作为端到端转发启发式方法的应用提供了有价值的见解。

类别与主题描述符：C.2.2[计算机通信网络]：路由协议；C.4[系统性能]：建模技术
通用术语：理论，算法，性能无线传感器网络，休眠‐唤醒循环，地理转发，马尔可夫决策过程，随机序，资产出售问题
ACM参考格式：
K. P. 纳文和Anurag Kumar。2015年。休眠‐唤醒循环的无线传感器网络中信道探测的中继选择。ACM Trans. Sensor Netw. 11, 3, 文章52 (2015年5月), 38页。数字对象标识符: http://dx.doi.org/10.1145/2757280

1. 引言

考虑一个用于检测罕见事件的无线传感器网络，例如森林火灾、边境地区的人类入侵等。在这些网络中，由于感兴趣的事件较为罕见，因此节点无需进行持续监控。相反，节点可以通过休眠-唤醒循环来节省电池电量，即在开启状态和低功耗关闭状态之间交替 [Abrardo 等，2013；郭等， 2009；Liu 等 2007]。我们关注的是低占空比的、异步休眠‐唤醒循环，其中各节点的唤醒时刻点过程并不同步 [Carrano 等，2014；Li 等 2014]。我们进一步考虑一种场景，即节点未知其邻居的休眠调度 [Kim 等人，2011；Naveen 和 Kumar 2013]。尽管节点可以通过初始配置阶段或在转发数据包时学习邻居的休眠调度，但由于事件发生稀少，到下一次需要转发时，所学习到的数据会因节点时钟会发生随机漂移而变得过时。此外，新增节点（新部署）或删除部分现有节点（由于电池耗尽）将进一步增加相继的邻居节点唤醒时间的不确定性。

在这种网络中，一旦检测到事件，就会生成一个报警数据包（包含事件位置和时间戳），并通过多跳（如图1所示）转发至控制中心（sink），以便采取适当的动作。尽管可能有多个节点检测到该事件，但为了避免引发网络中广泛的争用与碰撞（即所谓的广播风暴问题[Tonguz 等，2006；Tseng 等 2002]），我们考虑每事件仅生成一个告警数据包。这可以通过让检测节点之间相互协作，共同选择一个生成数据包的节点来实现[Kumar 等 2010]。

现在，由于网络处于休眠‐唤醒循环状态，转发节点（即当前持有报警数据包的节点）必须等待其邻居节点唤醒后，才能选择其中一个作为下一跳中继节点。随着各个潜在中继节点相继唤醒（随后又进入睡眠），转发节点面临一个序贯决策问题：在转发延迟与中继质量的某种度量（例如向汇聚节点前进的进度[Naveen 和 Kumar 2010]或到该中继的信道质量）之间权衡取舍，从而选择一个节点来转发数据包。基于这一局部权衡，端到端问题就转化为最小化一个

端到端平均延迟与某些全局指标（如平均跳数或每跳传输功率之和的平均总传输功率）的组合。此类全局问题可视为随机最短路径问题[Bertsekas 和 Tsitsiklis 1991],，可采用分布式贝尔曼‐福特算法（例如 Kim 等人[2011]提出的局部最优算法）来求解最优解。然而，这种方法的一个主要缺点是需要一个预配置阶段来运行这些算法，这将涉及交换多个控制消息。此外，每次网络拓扑发生变化时（例如由于节点故障或传播特性在长时间尺度上的变化），都需要重新执行此类全局配置。

我们的研究重点是设计仅使用转发节点处可用的局部信息的简单转发规则。在我们此前的相关工作中[Naveen 和 Kumar 2010, 2013],，我们将局部转发问题建模为在选定中继提供的奖励约束下最小化单跳转发延迟的问题。与中继相关的奖励是传输功率和数据包通过该中继转发时向汇聚点的进展的函数。我们考虑了该问题的两种变体：一种是转发节点邻居中潜在中继的数量已知的情况[Naveen 和 Kumar 2010]；另一种是仅知道潜在中继数量的概率质量函数的情况[Naveen 和 Kumar 2013]。对于每种情况，我们都推导出了最优策略的结构。此外，通过仿真实验发现，在某些运行机制下，在每一跳应用局部问题解所获得的端到端性能（即总延迟和总传输功率）与全局解（即Kim et al.[2011]提出的LOCAL‐OPT）所获得的性能相当，从而进一步支持了使用局部转发规则（尽管次优）这一方法。

然而，在我们早期的工作中，我们假设转发节点与中继之间的无线通信信道的增益是两者之间距离的确定性函数，而在实际中，由于称为阴影效应的现象，转发节点在给定距离处的信道增益并非恒定，而是在相同距离的空间上的点之间发生变化（这种统计变化通常被建模为对数正态分布[Rappaport 2001]）。除了不仅仅依赖于距离外，一对位置之间的路径损耗还随时间具有长期变化；例如，在森林中，这是由于植被的季节性变化所致。因此，每次节点获得数据包时，该节点必须发送探测分组以确定到唤醒的中继节点的信道增益，从而判断哪些中继节点“愿意”转发该数据包。此类探测会带来额外的开销（例如，参见Thejaswi 等 [2010],，其中探测使发射机能够获得更精确的信道增益估计）。因此，“是否探测”本身可能成为决策过程的一部分。在当前工作中，我们在选择下一跳中继时纳入了这些特征（即信道探测及其相关的功率开销），从而形成了运筹学文献中研究的资产出售问题[Bertsekas 2005, Section 4.4；Karlin 1962],的一个有趣变体。

我们强调，在本研究中，我们解决的是资源（特别是中继）分配问题；这与多个中继同时竞争信道所引起的介质访问竞争解决问题是不同的，如Guo等[2009],、Kim和Liu [2008],、Liu等[2007],以及Zorzi和Rao[2003b]中所述。在我们的情况下，由于低速率占空比循环，中继唤醒是随时间依次到达而非同时发生，因此不会产生此类竞争。此外，在我们的情况下，由于事件稀少，每次事件仅生成一个数据包，因此不同报警数据包的转发节点之间发生竞争的可能性（例如Guo等[2009]中所述）也微乎其微。

Outline and our contributions:我们将首先在第2节中通过描述数学模型来确定上下文，然后在第3节中讨论相关工作。第4和第5节致力于刻画一种称为RST‐OPT（受限最优）的策略结构，该策略在一类受限的中继选择策略中是最优的。在第6节中，我们将讨论全局最优的GLB‐OPT策略。第7节给出了数值结果和仿真结果。我们的主要技术贡献如下：

我们首先用停止集来表征最优策略RST‐OPT，即在状态空间的一个子集中，转发器的最优动作是停止并转发数据包。我们证明了停止集可以用下界阈值表示（定理5.3）。
我们进一步证明了停止集在各个决策阶段是相同的（定理5.6和5.7）。这一结果可以被视为对one-step-look-ahead规则的一种推广（见定理5.6后的备注）。
通过对单跳问题的数值研究，我们发现RST‐OPT的性能接近GLB‐OPT。该结果很有意义，因为次优的RST‐OPT在计算上比GLB‐OPT简单得多。我们还进行了仿真以研究 RST‐OPT的端到端性能。

我们将在第8节中进行总结。为了便于阅读，我们将大部分证明移至附录。

2. 系统模型

我们将在地理转发（也称为位置感知路由 [阿卡亚和优尼斯2005年；Mauve 等 2001]）的背景下描述系统模型。在地理转发中，假设网络中的每个节点都知道其自身位置（相对于某个参考点）以及汇聚节点的位置。由于我们的目标是设计局部转发规则，因此我们假设每个节点的转发区域（见图2）非空（即网络中不存在空洞）。这一假设可以通过考虑一个足够密集的网络来合理化，从而使出现空洞的概率可以忽略不计。因此，在本研究中，我们不处理绕行空洞的路由问题；文献中已有诸如GPRS（贪婪周边无状态路由）[Karp 和 Kung 2000] 和 GOAFR（贪婪其他自适应面路由）[Kuhn 等 2008]等算法以及协议方案 [Petrioli 等 2014] 来解决此问题。

考虑一个位于 v的转发节点 F（见图2）。汇聚节点位于v0。因此， F与汇聚节点之间的距离为V= ‖ v − v0 ‖（我们使用 ‖ · ‖表示欧几里得范数）。通信区域是指所有能够与 F以及位于这些位置的接收器之间可靠交换控制消息（通过独立控制信道上的低速率鲁棒调制技术传输）的位置集合。在图2中，我们将通信区域表示为圆形，但在实际中，该区域可以是任意形状。位于通信区域内的节点集合被称为邻居。

设V= ‖ − v0 ‖表示某个位置（即 2中的一个点）到汇聚节点的距离。现在定义位置的进展为Z = V −V ,，它简单地表示从 F到汇聚节点和从到汇聚节点的距离之差。 F仅希望将数据包转发给位于转发区域 L内的邻居，该区域定义为

L={ ∈ communication region: Z ≥ zmin}, (1)

其中zmin > 0是最小进度约束（见图2，其中阴影区域为转发区域）。在定义中使用zmin > 0的原因

L的作用是：（1）从实际角度来看，这将确保数据包在每一跳至少取得 zmin的进展；（2）从数学角度来看，该条件将使我们能够将即将定义的奖励函数限定在区间 [0,r]内取值。此外，我们假设 L是闭且有界的（在第5节中将明确施加此条件的原因）。最后，我们将转发区域中的节点称为中继。

休眠‐唤醒过程：

不失一般性，我们假设 F在时间0（来自上游节点；参见图1）接收到一个报警数据包，该数据包需要转发给其中一个中继。共有N个中继，它们以速率为1 τ的泊松过程的时间点依次唤醒。1唤醒时间记为 0 ≤W1 ≤ ··· ≤WN。在时刻Wk唤醒的中继称为第k个中继。令U1= W1和Uk= Wk −Wk−1（k = 2, …, N）表示第k个中继与第(k −1)个中继之间的唤醒间隔时间。因此，{Uk：k = 1, 2, …, N}是独立同分布的指数随机变量，其均值为 τ。

信道模型：

设P(t) 表示在时间t ≥ 0 ，为在距 F的距离大于dref（远场参考距离，超过此距离后下述表达式成立）的某位置 ,达到的信噪比（SNR）约束， F所需的传输功率。我们将采用以下标准模型来描述P(t)[Kumar等人2008年；Tse和Viswanath 2005]：

P(t)= N0 G(t)( D dref) ξ , (2)

其中，D= ‖ − v ‖是 F与 ,之间的距离，G(t) 是 F与在时刻t的信道增益的随机分量，N0是接收机噪声方差，ξ是路径损耗衰减因子。我们将假设dref ≤ zmin，使得公式 (3)中的P(t) 对任意 ∈ L均为所需功率。此外，为简便起见，我们将使用 ′表示 N0d ξ ref。

尽管G(t)与路径损耗(D /dref) ξ共同构成了时间t处的信道增益，为简便起见，我们将把 G(t)本身称为 F与位置之间的信道增益。我们假设信道增益过程{G(t) : t ≥ 0}是平稳的，并且在上独立同分布。我们进一步假设信道相干时间足够大，因此

1在休眠‐唤醒循环中的一种实用方法是异步周期性过程，其中每个中继i在周期性时刻Ti+kT唤醒，其中{Ti}在 [0, T][上独立同分布且服从均匀分布（Kim 等人，2011；Naveen 和 Kumar）。 2013]现在，当N较大时，若 T随N变化，使得 N T → 1 τ成立，则中继唤醒时刻的聚合点过程收敛于速率为 1 τ [Cinlar1975],的泊松过程，从而验证了我们对泊松过程的假设。

信道增益在整个决策过程中保持不变；也就是说，在物理层无线术语中，我们有一个缓变信道。因此，如果G表示一个随机变量，其分布与{G(t)}的边缘分布相同，则{P(t)}的边缘随机变量，

P= ′ G D ξ, (3)

表示无论中继在决策过程中何时被探测，将数据包转发到 ,处中继所需的功率。因此，在后续内容中，我们将从符号表示中去除时间变量，仅使用边缘随机变量进行讨论。

备注：关于信道增益的独立同分布性，由于信道中的随机性在中继之间是空间相关的[Agrawal 和 Patwari 2009],，如果两个位置和 u 非常接近，则对应的增益G和Gu将不是统计独立的；要使增益统计独立，接收机之间需要满足最小间距。因此，我们假设各中继间的信道增益相互独立，这意味着中继之间不应靠得太近，或等价地说，中继密度不应过大。我们将假设这一物理特性成立，从而继续采用信道增益为独立同分布的技术假设。

奖励结构：

最后，结合进展Z,和功率P,，我们将与位置 ∈ L相关的奖励定义为

R= Za P(1−a) = Za (′Dξ ) (1−a) G(1−a) , (4)

其中a ∈[0, 1]用于权衡Z与P。奖励随P的减小而增加是显而易见的，因为以低功率传输数据包更有利；R随Z的增加而增大，可在选择下一跳中继时促进向汇聚节点的进展。信道增益{G}为非负值；我们进一步假设它们被上界gmax所限制。这些条件连同Z ≥ zmin（意味着D ≥ zmin）以及 L的有界性（因此对所有 ∈ L均有Z ≤ zmax），将为奖励函数{R提供如下上界： ∈ L}

r= zamax (′zξ min) (1−a)g (1−a) max.

因此，奖励值位于区间 [0,r] 内。

设F表示R的累积分布函数（或更严格地说，R(t)的边缘分布）以及

F={F: ∈ L} (5)

表示所有可能奖励分布的集合。由公式(4)可知，给定位置 ,，只能知道奖励分布F。为了获知确切的奖励R, F，必须传输探测分组以学习信道增益G（我们将很快对探测进行形式化描述）。

备注：在公式(4)中使用特定奖励的动机源于我们之前的工作[Naveen 和 Kumar 2013],，其中我们观察到，利用先前的奖励结构得到的局部问题解，在端到端性能（以端到端延迟与总功耗的关系衡量）方面可与Kim et al. [2011]提出的全局最优解的性能相媲美。然而，需要注意的是，只要相应的分布集 F满足接下来讨论的全随机序性质，我们在后续各第节中的所有分析对于更一般的信道增益函数也同样成立。

定义2.1（随机序）。给定两个分布F和Fu，若对所有r均有 1−F(r) ≥ 1−Fu(r)，则称 F在随机意义上大于Fu，记作F ≥st Fu。等价地[Stoyan 1983], F ≥st Fu当且仅当对于每个非减函数f : → ，E[f (R)] ≥ Eu[f(Ru)],，其中R和Ru的分布分别为F和Fu。

定义2.2（全随机序）。 F被称为是完全随机有序的，如果其中任意两个分布都是随机有序的。形式上，对于任意F,Fu ∈ F，要么F ≥st Fu，要么Fu ≥st F。此外，如果存在一个分布 Fm ∈ F，使得对于每一个F ∈ F都有F ≥stFm，则称 F是具有最小分布的完全随机有序。

以下结果在我们后续的分析中将非常有用。

LEMMA 2.3.公式(5)中的奖励分布集合 F是完全随机有序的，且具有最小分布。

ROOF。信道增益{G： ∈ L}，同分布的假设对于证明 F是完全随机有序的至关重要。最小分布的存在性需要我们之前所做的假设，即 L是紧致的（闭且有界）。完整的证明见附录A.3。

中继位置：

我们假设 N个中继中的每一个都在转发区域 L 内随机且相互独立地分布。形式上，令 L1,L2,…,LN 表示在转发集合 L 上独立同分布均匀的随机中继位置（如果节点是根据空间泊松过程部署的，则此假设成立）。令 L 表示在 L 上的均匀分布，使得 Lk 的分布为 L（对于k= 1,2,…,N）。

备注：为了便于模型推导，我们假设位置分布L是均匀的。然而，我们的分析对于任何其他分布也同样成立。

序贯决策问题：

在时间0， F只知道其转发集合中有N个中继，但先验地不知道它们的位置Lk，也不知道它们的信道增益GL k。当第k个中继唤醒时，我们假设其位置Lk被揭示， 2利用该信息（通过公式(4)）可以获知奖励RL k的分布FL k（因为信道增益的分布是已知的）。然而，如果 F希望获知确切的奖励值RL k，则必须估计信道增益G L k。这需要通过发送额外的探测分组来实现，从而产生 δ ≥ 0单位的功率开销。因此，当第k个中继唤醒时（称为第k阶段），在给定先前已探测和未探测的中继集合（即历史信息）的情况下， F可采取以下动作：

s：停止并将数据包转发给已探测中继中的最大奖励中继（最佳中继）；执行此动作后，决策过程结束。
c: 继续等待下一个中继唤醒（平均等待时间是 τ）；执行此动作后，决策过程进入阶段k+ 1。
p：从所有未探测中继的集合中探测一个中继（前提是至少存在一个未探测中继）。探测后，该已探测中继的信道增益及其对应的奖励值将被揭示，从而允许 F更新最佳中继。探测之后，决策过程仍处于第k阶段，并且 F必须再次决定采取何种动作。

备注：请注意，我们仅允许 F 向已探测中继转发数据包。这是因为，通过探测可以获知信道增益， F 从而能够根据信道增益选择适当的传输功率等级（使用公式(2)）进行传输。这可以通过在第 k 个中继唤醒时传输的控制数据包（使用低速率鲁棒调制技术发送，因此假设为无错误）中包含位置信息 Lk 来实现。

尽管使用先进的自适应编码技术可能实现向未探测中继传输，但为简化问题，我们不考虑此选项。此外，在内存受限的无线节点上实现此类编码算法在实践中可能较为困难。同时，为了便于分析，我们忽略了控制分组交换所需的时间以及探测中继以获取其信道增益所需的时间。我们认为，对于平均唤醒间隔时间远大于探测及控制分组交换所需时间的极低占空比网络而言，这种忽略是合理的。

在阶段k，令bk表示最佳中继的奖励， Fk表示未探测中继的奖励分布向量，即形式上

bk= max{RLi:i ≤ k, relayi has been probed}, (6) Fk=(FLi:i ≤ k, relayi is unprobed). (7)

我们将把(bk,Fk)视为第k阶段系统的状态。注意，有可能直到第k阶段仍未探测任何中继，此时bk= −∞，或者所有中继都已被探测，使得Fk为空。每当 Fk为空时，我们将该状态简单表示为bk。现在我们可以如下定义一个转发策略 π：

定义 2.4.一个策略 π 是一系列映射 (μ1,μ2,…,μN)，其中

对于 k= 1,2,…,N −1, μk(bk Fk) ∈{s, c,p} 以及 μk(bk) ∈{s, c}，以及
μN(bN FN) ∈{s,p}和μN(bN) ∈ s。

请注意，在最后阶段N，继续动作不可用。设表示所有策略的集合。

备注：因此，我们考虑这样一种场景：转发器可以通过保留（或回忆）已探测最佳中继来做出决策（见公式(6)）。该特性将使我们能够证明另一个结构性结果（在第5.2节），即最优策略具有与阶段无关的阈值。如果不允许回忆，则无法得到这样的结果。然而，在后一种情况下，仍可推导出最优策略的阈值特性（见第5.1节），因此阈值策略仍然是最优的，尽管它将是阶段相关的。我们将在第5.2节对此作进一步说明。

对于策略 π ∈ ,，所产生的延迟记为D，即直到选定中继所经历的时间。令R表示由选定的中继提供的奖励。进一步，令M表示在决策过程中已探测的中继总数。然后，回顾δ为探测成本， δM表示探测的总成本。我们希望将(R − δM)视为使用策略 π所获得的有效奖励。接着，记 E[·]为在使用策略 π条件下的期望算子，我们所关注的问题如下：

Minimizeπ∈(Eπ[D] − η(Eπ[R] − δEπ[M])), (8)

其中 η> 0是用于权衡延迟和有效奖励的系数。

在之前的目标函数中，系数 η 和 δ 将使我们能够在不同量（即延迟、奖励和探测成本）之间进行权衡。例如，若 η 取值较小，则目标函数会更重视延迟项 Eπ[D]。因此，转发节点为了最小化延迟，将直接探测并传输给最先唤醒的中继，而忽略其中继的奖励值。另一方面，若 η 取值较大，则目标将更倾向于最小化有效奖励 (Eπ[R]−δEπ[M])。因此，转发器此时以选择具有较高奖励值的中继为目标，将会等待更多中继被唤醒。

当探测成本 δ较小时，可以探测每个中继；而当 δ较大时，则应谨慎地仅探测性能良好的中继。因此，通过调整 η和 δ可以获得一系列权衡，这种权衡通常由公式(8)中的目标函数来描述。我们将在第7节展示数值结果时更详细地讨论这些权衡。

受限策略类：

回顾第k阶段的状态形式为 (bk,Fk)，其中 Fk 是所有未探测中继的集合。Fk 的大小可以从 0（如果到目前为止已唤醒的 k 个中继全部已被探测）变化到 k（如果均未被探测）。进一步假设 Fk 的大小为 m（0< m ≤ k），则 Fk ∈ Fm（ F 的 m 次笛卡尔积），因为每个未探测中继的奖励分布可以是来自 F 的任意分布。因此，第 k阶段所有可能状态的集合非常大。为了分析可处理性，我们首先在第4和第5节中考虑在受限策略类 ⊆, 上求解公式(8)的问题，其中策略被限制为仅保持最多两个中继处于唤醒状态——一个为所有已探测中继中的最佳者，另一个为未探测中继中的最佳者。因此，第k阶段的决策基于 (bk, Hk)，其中 Hk 是 Fk 中的随机最大分布。随后在第6节中，我们将讨论无限制策略类中的最优策略。

3. 相关工作

尽管我们的研究动机源于无线传感器网络中的地理转发背景，但关于局部决策问题的相关文献也可在其他领域找到，例如无线网络中的信道探测问题以及运筹学界研究的资产出售问题。在本节中，我们将讨论所有这些领域的相关工作。

无线网络中的地理转发与路由：

选择下一跳中继的问题通常出现在地理转发的背景下。如前所述，地理转发[阿卡亚和优尼斯2005年；Mauve 等2001]是一种转发技术，其前提是节点知道自身位置以及汇聚节点的位置。地理转发方法早在1980年代就在分组无线电网络（PRNs）的路由背景下被提出[侯和李1986年；Takagi 和 Kleinrock 1984]。其中最简单的地理转发技术是贪心算法，即每个节点将其数据包转发给通信区域内的一个邻居节点，该邻居节点能向汇聚节点方向取得最大进展。这种贪心算法在 Takagi 和 Kleinrock [1984]中被称为MFR（半径内最大前向）路由。类似于 MFR 的是 Hou 和 Li [1986],提出的NFP（具有前向进展的最近节点），该方法选择距离发送节点最近且具有正向进展的节点作为中继。MFR 和 NFP 路由的一种推广方式是随机选择任意一个能向汇聚节点方向产生正向进展的邻居节点[Nelson 和 Kleinrock 1984]。

最近，有研究考虑将地理转发应用于休眠‐唤醒循环网络中的路由。Hao 等[2012]提供了该主题的最新综述，并包含了我们稍后将讨论的一些工作（该综述论文在其参考文献列表中包含了我们在此课题上的先前工作之一 [Naveen 和 Kumar 2010]）。

Liu 等 [2007]提出了一种名为 CMAC（收敛型MAC）的协议，转发节点使用该协议选择归一化延迟（即单跳延迟与进展的期望比值）大于阈值 r0, 的中继，其中 r0 的取值用于最小化期望延迟。Paruchuri 等 [2004] 中的随机异步唤醒（RAW）协议也（启发式地）考虑向第一个唤醒且进展超过阈值的节点传输。有趣的是，对于我们的基本模型而言，这种阈值策略是最优的（参见 Naveen 和 Kumar [2010；2013 年，第节 6]）。

佐尔齐和饶[2003b]研究了一种时隙系统，其中节点遵循几何休眠‐唤醒模式；即，一个节点在某个时隙以概率p处于活跃状态。对于一种称为GeRaF（地理随机转发）的贪心方案，转发节点选择距离汇聚节点最近的活跃邻居作为下一跳，作者得出了其多跳性能，以平均跳数作为到汇聚节点距离的函数。GeRaF的能量和延迟性能由佐尔齐和饶[2003a]进行了研究。与GeRaF不同，ExOR [Biswas 和 Morris 2005]使用一种称为ETX（估计传输时间）的度量，该度量用于估计到达目的地所需的传输次数，以选择下一跳中继。此外， Ghadimi 等人 [2014]提出了一种机会路由算法（称为ORW），该算法采用EDC（期望的占空比唤醒次数）度量进行数据包转发；So 和 Byun [2014],研究了ORW的一个版本，其中在转发前执行数据包的网络内聚合。然而，在所有这些工作中，包括其他研究[郭等， 2009；Ozen 和 Oktug 2014],，主要关注的是MAC设计以解决当多个中继同时激活时可能产生的竞争问题。这类竞争在我们的模型中不会出现，因为我们假设的是一个低占空比休眠‐唤醒循环网络（因此多个中继同时唤醒的概率非常低，可以安全忽略）。因此，我们的问题实际上是资源（特别是中继）分配（或获取）问题，该问题出现在一组资源随时间依次到达可用状态的情况下。

在文献中也可以找到将控制理论 [Bertsekas 2005；Puterman 1994]应用于休眠‐唤醒循环网络中的路由问题的研究 [Kim和Liu 2008；Kim et al. 2011]。然而，正如引言中已经提到的，Kim et al. [2011]的工作基于贝尔曼‐福特算法，因此需要一个全局预配置阶段来离线计算最优转发策略。Kim和Liu [2008]中的算法需要一个中心实体来选择下一跳中继。尽管Kim和Liu [2008]的作者提出了分布式实现，但这需要一个“优先级更新”阶段，其中每个节点必须计算其相对于各个邻近节点的优先级。与之前的工作相比，我们的算法完全是在线的，转发节点可以根据中继唤醒的情况实时决定是否向某个中继转发。此外，我们在建模中引入了一个额外的“探测”动作，这在以往的研究中均未被考虑。

无线网络中的信道探测：

从实际角度来看，涉及无线传感器网络的测试床实验 [Bhattacharya 等人，2013；Kumar 等人 2010]要求使用已知信号（探测分组）来估计链路质量测量，然后节点才能交换任何有用的数据。因此，信道探测是无线系统的固有特性。在无线网络中，带有信道探测的模型通常在信道选择的背景下进行研究 [Chang 和 Liu，2007；Chaporkar 和 Proutiere 2008]。例如，Chaporkar 和 Proutiere [2008]研究了以下问题：一个发射机希望最大化其吞吐量，必须从多个可用信道中选择一个信道进行传输。该发射机仅知道信道增益分布，必须发送探测分组以获取精确的信道状态信息（CSI）。探测多个信道可以获得高增益的信道，但会减少信道相干周期内的有效传输时间。该问题在于获得决定何时停止探测并开始传输的最优策略。与我们工作的一个重要区别是，在 Chang 和 Liu [2007]以及 Chaporkar 和 Proutiere [2008],中，所有信道增益分布都是先验已知的，而在我们本文中，奖励分布在中继唤醒时才逐渐显现。我们将在第6节 [2008]中进一步讨论 Chaporkar 和 Proutiere 的工作。

Thejaswi 等 [2010]考虑了一种模型，其中最初发射机仅能获得信道增益的粗略估计，并且发射机可以选择

再次探测信道以获得对增益（从而对其可传输速率）的更精确估计。目标是优化从更准确的速率估计中获得的吞吐量增益与由此产生的额外延迟之间的权衡。作者将该问题建模为一个最优停止问题，并证明最优策略由两个速率阈值决定，当且仅当初速率估计位于这两个阈值之间时进行探测才是最优的。这些阈值是阶段相关的，这是由于该停止问题的时间范围长度为无限所致。通常情况下，对于有限时域的停止问题，最优策略将是阶段相关的。然而，尽管我们的问题属于有限时域情形，我们仍能够证明某些停止集在各个阶段是相同的。这归因于我们允许已探测最佳中继保持清醒状态。

资产出售问题：

让我们回顾公式(8)中的目标。假设探测成本为 δ= 0；则公式(8)将简化为最小化(Eπ[D] − ηEπ[R])。进一步地，当 δ= 0时，由于不进行探测没有任何优势，最优策略是当中继唤醒时始终对其进行探测，以便立即向 F揭示其奖励值。或者，如果 F不允许选择不对某个中继进行探测，则该模型再次退化为中继奖励在其唤醒时即被立即揭示的情形。我们已在先前的工作Naveen和Kumar [2010; 2013, 第节 6],中研究过该中继选择问题的这一特定情形（我们将称之为基本中继选择模型），并且可以证明，该基本模型等价于运筹学文献中研究的资产出售问题的一个基本版本[贝尔特塞卡斯 2005，第4.4节； Karlin 1962]。

基本资产出售问题包含一个卖方（拥有待售资产）和一组随时间依次到达的买方。买方所给出的报价是独立同分布的。如果卖方希望选择较
端报价，则他或她可以将收到的资金投资更长的时间。另一方面，等待可能会获得更好的报价，但会损失本可用于投资销售所得的时间。卖方的目标是选择一个报价，以最大化其最终收益（在投资期结束时获得）。

将买方的报价类比为中继的奖励，卖方最大化收益的目标等同于转发器最小化延迟与奖励组合的目标。

多年来，人们已经研究了该基本问题的多个变体。例如，Kang [2005] 考虑了一种模型，其中召回之前的最优报价需要付出代价；此外，之前的最优报价在下一时刻以一定概率可能丢失。David 和 Levi [2004] 考虑了一种报价在更新过程的时间点到达的模型。Albright [1977] 和 Rosenfield et al. [1983]研究了具有未知报价（或奖励）分布，或报价分布的某个参数未知的变体。然而，在这些模型中，与我们的情况不同，奖励值在报价到达时立即被揭示。此外，它们未像我们的模型那样引入额外的探测动作。

一个与我们的模型相近的模型是Stadje [1997],提出的模型，其中当报价到达时，决策者仅能获知关于该报价的一些初始信息（例如，报价的平均大小）。除了“停止”和 “继续”这两个动作外，决策者还可以选择支付一定成本来获取关于该报价的更多信息。该模型的最优策略由与阶段无关的阈值表征，这同样是因为如Thejaswi et al.[2010],所述，该问题的时间范围长度是无限的。请注意，我们的问题是一个有限时域问题。

在本研究中，我们通过向模型引入一个额外的探测动作以及相应的（正）探测成本（即 δ> 0情况），从另一个方向推广了基本模型，使得中继的奖励值（等价地，买方的报价）不再免费提供给转发器（等价地，卖方）。相反，转发器必须付出探测成本才能获取该信息。转发器可以选择探测一个中继，以了解其奖励值，但需要承担额外的 δ成本。据我们所知，本文研究的特定模型在资产出售问题文献中尚未出现。

4. 受限类：一种马尔可夫决策过程建模

本节限制在受限类别内 ,，我们将公式(8)中的问题表述为马尔可夫决策过程。为此，我们需要先讨论单步代价函数和状态转移，然后再建立贝尔曼最优方程。

4.1. 单步代价与状态转移

决策时刻或决策阶段是中继唤醒的时间。因此，共有N个决策阶段，用k= 1, 2,…,N表示。回顾一下，对于受限类别中的任意策略,，在阶段k的决策基于(bk, Hk)，其中bk是截至目前的最佳奖励，Hk ∈ Fk是最佳奖励分布， Fk为截至目前所有未探测中继的奖励分布集合。如前所述，如果直到阶段k都没有中继被探测，则bk= −∞。另一方面，如果所有中继都已被探测，此时Fk为空集，则将该状态简记为bk。因此，状态空间可表示为

X=[0, r] ∪{(b, F): b ∈{−∞} ∪[0, r], ∈ L} ∪{t},

其中t是无代价终止状态。我们将使用(b,F)表示第k阶段的通用状态。

现在，在阶段 k= 1, 2,…,N −1，给定当前状态为 (b,F)，如果 F 的决策是停止，则决策过程进入 t，且 F 将产生一个终止代价 −ηb（由公式(8)可知， η> 0 是权衡参数）。另一方面，如果动作为继续，则 F 首先将产生一个等待代价 Uk+1（即直到下一个中继唤醒的时间），然后当第 (k+ 1) 个中继唤醒时（其奖励分布为 FL k+1）， F 将在两个未探测中继之间进行选择——一个是具有奖励分布 F, 的前一个中继，另一个是具有分布 FL k+1 的新中继——因此在阶段 k+ 1 的状态将变为 (b, F) 或 (b, FL k+ 1 )。由于在状态转移过程中没有新的中继被探测，最佳奖励值仍为 b。

或者， F可以选择探测可用的未探测中继（其奖励分布为F），从而产生 ηδ的成本（其中 δ为探测成本）。探测之后，决策过程仍处于阶段k，新的状态变为b′= max{b, R}，其中R是刚刚被探测的中继的奖励值（因此R的分布为F）。接下来， F需要进一步决策是停止（产生单步代价 −ηb′并进入t）还是继续（此时单步代价为Uk+1，下一个状态为(b′, FLk+1))。

总结如下，当阶段 k 的状态为 (b, F) 时，我们可以写出其单步代价为

gk((b, F), ak)={ −ηb if ak= s Uk+1 if ak= c ηδ if ak= p.

下一个状态 X′ 由以下给出

X′={ t if ak= s (b, F) or(b, FL k+ 1 ) if ak= c max{b, R} if ak= p.

我们使用X′表示下一个状态，而不是Xk+1，因为如果ak= p,，则系统仍处于阶段k。只有当动作为s或c时，系统才会转移到阶段k+ 1。

接下来，如果在阶段k的状态为b（此类状态出现在探测可用的未探测中继之后；回顾之前的表达式，当ak= p时），则 gk(b, ak)={ −ηb if ak= s Uk+1 if ak= c,

以及下一个状态是

Xk+1={ t if ak= s (b, FLk+1) if ak= c.

当状态为b时，探测动作不可用。

在最后阶段N，动作c不可用，因此

gN(b, F)={−ηb if ak= s ηδ if ak= p,

当系统进入t时，若ak= s；否则（即，若ak= p），状态转移至max{b,Rk}。最后，gN (b) = −ηb。注意，对于一个策略 π，从第1阶段开始的所有单步代价的期望和加上第一个中继的平均等待时间E[U1]= τ,3将等于公式(8)中的总成本。

4.2. 后续成本函数与贝尔曼方程

令 Jk，k= 1,2,…,N 表示第 k 阶段的最优后继代价函数。因此，Jk(b) 和 Jk(b,F) 分别表示是否存在未探测中继时的后续成本。对于最后一个阶段 N，我们有 JN(b) = −ηb，利用此式可得

JN(b, F)= min{−ηb, ηδ+ E[JN(max{b, R})]} = min{−ηb, ηδ − ηE[max{b, R}]}, (9)

其中 E[·]表示关于（w.r.t.）R,的期望，其分布为F。前述最小表达式中的第一项是停止代价，第二项是探测后停止的期望代价（注意在最后阶段N动作c不可用）。接下来，对于阶段k= 1, 2,…,N − 1，用 EL[·]表示关于下一个中继位置Lk+1的分布L的期望，我们有

Jk(b)= min{−ηb, τ+ EL[Jk+1(b, FLk+1)]}, (10)

and

Jk(b, F)= min{−ηb, ηδ+ E [Jk(max{b, R})] , τ+ EL[min{Jk+1(b, F), Jk+1(b, FL k+1)}]}. (11)

这两个最小表达式中的第一项是停止代价。公式(11)中的中间项是探测的期望代价，其中ηδ为单步代价，剩余项为未来代价。两个表达式中的最后一项是继续的期望代价，其中 τ表示直到下一个中继唤醒的平均等待时间。公式(11)最后一项中的后续成本可以

由于必须选择一个中继，因此每种策略都至少需要等待第一个中继唤醒，在该时刻决策过程开始。因此，在任何策略产生的总成本中，无需考虑U1。

理解如下：当第k阶段的状态= 1，2，…，N − 1为(b, F)，且如果 F决定继续，则下一个中继的奖励分布为FLk+1。现在，给定分布F和FLk+1，如果要求 F保留其中之一，则最优的选择是保留从第k阶段+ 1开始具有较低后续成本的分布（即，若Jk+1(b, F) ≤Jk+1 (b, FLk+1)，则保留F是最优的）；否则，保留FLk+1。4在本节后面我们将证明，对于两个分布F和Fu，如果F随机大于Fu（回顾定义2.1），则有Jk+1(b, F) ≤Jk+1(b, Fu)，因此保留随机更大的分布是最优的（引理4.2‐(i)）。

首先，为简便起见，引入以下记号。对于k= 1,2,…,N −1，令Ck表示继续成本：

Ck(b)= τ+ EL[Jk+1(b, FLk+1)] (12) Ck(b, F)= τ+ EL[min{Jk+1(b, F), Jk+1(b, FLk+1)}]. (13)

对于 k= 1,2,…,N，探测成本Pk 为

Pk(b, F)= ηδ+ E[Jk(max{b, R})]. (14)

由公式(12)和(13)可知，对于任意的F( ∈ L)，均有Ck(b,F) ≤ Ck(b)。这一不等式也应是直观成立的，因为如果除了一个已探测中继外，还拥有一个未探测中继，则可以预期获得更优的成本。将此不等式作为一个引理加以注意将是很有用的。

LEMMA 4.1.对于 k = 1，2，…，N −1 以及任意 (b, F)，我们有 Ck(b, F) ≤ Ck(b)。

PROOF。正如在引理陈述之前所讨论的，该不等式很容易从这些成本的表达式中得出；参见公式 (12)和(13)。

最后，使用之前的成本表示法，公式和(11)中的后续成本函数可以写为，对于 k= 1,2,…, N −1，

(10)

Jk(b)= min{−ηb, Ck(b)} (15) Jk(b, F)= min{−ηb, Pk(b, F), Ck(b, F)}. (16)

4.3. 后续成本函数的排序结果

我们将考察后续成本函数 Jk(b) 和 Jk(b, F) 如何随 F 和阶段索引k 变化。考虑位于和 u 的两个中继。如果对应的奖励分布 F 和 Fu 满足 F ≥st Fu（回顾定义2.1），则 F 可以预期探测位于的中继将比位于 u 的中继获得更高的奖励值。因此， F 会更偏好随机更大的奖励分布 F 而非 Fu。扩展这一观察，可以合理预期，若在第k阶段可用的未探测奖励分布为 F 而非 Fu，则 F 累积的期望成本（总成本、继续成本和探测成本）将更低。接下来我们将正式证明这一结果。此外，我们还将证明，若状态保持不变，则第k阶段的期望成本小于第k+ 1阶段的期望成本；即对于任意状态x，有 Jk(x) ≤ Jk+1(x)。这一点同样直观，因为在从第k阶段开始时， F 比从第k阶段开始时多一个机会观测额外的中继；可用资源更多，且随着

形式上，需要在阶段 k+ 1,引入一个中间状态，其形式为 (b, F , F L k+ 1)，其中唯一可用的动作为选择 F 或 FL k+ 1。然后 Jk+1(b , F , F L k+ 1) = min{Jk+1(b , F) , Jk+1(b , F L k+ 1)}，为简便起见，我们直接在公式(11)中使用该表达式。

由于这些是独立同分布的， F 预计将实现更低的成本。我们将在以下引理中陈述这两个结果。

LEMMA 4.2.

(i) 对于 k = 1, 2, . . . , N −1，若 F ≥stFu，则 Ck(b, F) ≤Ck(b, Fu) 且（包括 k =N）Pk (b, F) ≤Pk(b, Fu) 以及 Jk(b, F) ≤Jk(b, Fu)。(ii) 对于 k = 1, 2, . . . , N −2，Ck(b) ≤Ck+1(b) 且 Ck(b, F) ≤Ck+1(b, F) 且（包括 k = N −1）Pk(b, F) ≤Pk+1(b, F) 以及 Jk(b, F) ≤Jk+1(b, F)。

PROOF。为了证明(i)，我们首先说明各种成本是b的非增函数。然后我们利用随机序的定义（定义2.1）完成证明。第(ii)部分由归纳法得出。证明的详细内容见附录A.1。

5. 受限类别：结构性结果

我们从定义阶段 k= 1, 2,…,N −1 的停止集 Sk 开始

Sk={b: −ηb ≤ Ck(b)}. (17)

由公式(15)可知，停止集合{v3}是所有状态b（在第k阶段探测后获得的此类状态）的集合，对于这些状态，停止优于继续。

Si类似地，对于给定的分布 F, ，我们定义停止集 S k为，对于k= 1, 2,. . . ，N −1,

S k={b: −ηb ≤ min{Pk(b, F), Ck(b, F)}}. (18)

根据公式(16)，集合 S k应理解为：对于给定的分布F,，当阶段k的状态为(b,F)时，停止优于探测或继续的所有b组成的集合。注意当b= −∞时，停止永远不会是最优的；因此，这两个停止集都是[0,r]的子集。最后，对于k= N也可定义停止集为SN=[0,r]（因为在最后一个阶段N，对于任意b，唯一可用的动作是停止），并且

S N={b: −ηb ≤ Pk(b, F)}. (19)

以下集合包含性质可直接从这些集合的定义以及引理4.1和引理4.2中成本函数的性质得出。

LEMMA 5.1.

(i)对于 k = 1，2，…，N 以及任意 F,，我们有 S k ⊆ Sk。(ii)对于 k = 1，2，…，N，如果 F ≥stFu，则 S k ⊆ Su k。(iii)对于 k = 1，2，…，N −1，我们有 Sk ⊆ Sk+1，且对于任意 F, S k ⊆ S k+1。

PROOF。回顾方程（17）和（18）中对停止集的定义。第(i)部分由引理4.1得出。第 (ii)和(iii)部分分别由引理4.2的第(i)和(ii)部分得出。

讨论：上述结果可以解释如下。每当存在一个可用的未探测中继（例如，其奖励分布为F ）时， F可以对选择停止的最佳奖励值b提出更严格的要求。这是因为 F现在还可以选择探测F ,，这可能会产生比b更好的奖励。因此，除非当前最佳奖励b已经足够好（即探测F 不会带来增益），否则 F不会选择停止。因此，我们得到S k ⊆ Sk（第(i)部分）。接下来，如果F ≥st Fu，那么由于探测F 更有可能获得更高的奖励，因此当可用的未探测中继的奖励分布为F 时，停止条件将更为严格

图3。阈值特性的说明：竖线为奖励轴，每条线对应不同的阶段。停止集通过在其 respecitve 竖线上标记其阈值来表示。

Fu。因此，相应的停止集按前述引理的第(ii)部分排序，即S k ⊆ Su k。最后，当还有更多阶段待进行时， F可以对停止更加谨慎，因为它可以选择继续观察更多的中继。这表明 Sk ⊆ Sk+1和 S k ⊆ S k+1（第(iii)部分）。

根据我们之前的讨论，“F在停止上更加严格”这一表述暗示着对于较大的b值，停止可能是更优的。等价地说，这意味着停止集由阈值来刻画，超过这些阈值时停止是最优的。这正是我们的第一个主要结果（定理5.3）。之后我们将证明一个更有趣的结果（定理5.6 和定理5.7），其中我们表明停止集是阶段无关的，即Sk= Sk+1和 S k= S k+1。在接下来的小节中，我们将详细阐述这两个结果。

5.1 停止集：阈值特性

为了证明停止集的阈值结构，需要以下关键引理，其中我们证明了各项成本的增量被停止代价的增量所限制。

LEMMA 5.2.对于 k = 1，2，…，N −1（对于第(ii)部分，k = 1，2，…，N），对于任意 F, 以及 b2> b1,，我们有

(i) Ck(b1) −Ck(b2) ≤ η(b2 −b1)，(ii) Pk(b1, F) − Pk(b2, F) ≤ η(b2 −b1)，(iii) Ck(b1, F) −Ck (b2, F) ≤ η(b2 −b1)。

PROOF。可在附录A.2中获取。

THEOREM 5.3.对于 k = 1，2，…，N 以及 b2> b1,

(i)如果 b1 ∈ Sk，那么 b2 ∈ Sk。(ii)对于任意 F,，如果 b1 ∈ S k,，那么 b2 ∈ S k。

PROOF。由于 SN=[0,r],第(i)部分在k=N时显然成立。接下来，对于k= 1, 2,…,N−1，利用引理5.2‐(i)，我们可以写出

−ηb2 ≤ −ηb1 − Ck(b1)+ Ck(b2).

由于b1 ∈ Sk，根据方程（17）可知 −ηb1 ≤ Ck(b1)，将此代入前一个表达式可得 −ηb2 ≤ Ck(b2),这意味着b2 ∈ Sk。第(ii)部分可类似地利用引理5.2的第(ii)和(iii)部分完成。

讨论：因此，停止集 Sk和 S k可以分别用下界 αk和 α k ,来表征，如图3所示（参见对应于阶段索引k的垂直线）。图3中还示出了阈值α u k，

对应于分布 Fu ≤st F。由引理5.1‐(i) 和 5.1‐(ii) 可知，这些阈值是有序的，αk ≤ αku ≤ αk。此外，在图3中，我们描绘了这些阈值随着阶段索引k的增加而递减（从左到右的垂直线）；这是由于引理5.1‐(iii)，由此我们知道停止集随k增大而增大。下一节的主要结果（定理 5.6 和 5.7）将证明这些阈值实际上是相等的（即αk= αk+1且 αk= α k+1）。最后，请注意在图3中我们未显示对应于停止集SN的阈值αN；这仅仅是因为 αN= 0（由于 SN=[0,r]）。

5.2. 停止集：阶段独立性性质

由引理5.1‐(iii)可知， Sk ⊆ Sk+1和 S k ⊆ S k+1。在第节中，我们将证明反向包含关系，从而得出各阶段的停止集完全相同的结论。我们首先定义集合Q k，其中k= 1,2,…,N −1。

Q k={b: min{−ηb, Pk(b, F)} ≤ Ck(b, F)}. (20)

由公式(16)可知，对于给定的分布F，Q k是所有b的集合，使得当第k阶段的状态为(b,F), 时，停止或探测优于继续。根据集合S k和 Q k的定义（分别见公式(18)和(20)），可立即得出S k ⊆ Q k。此外，由引理5.1‐(i)我们已知S k ⊆ Sk。然而，集合 Q k和 Sk之间的顺序关系尚不明确。利用 F={F的全随机序性质： ∈ L}(引理2.3)，我们将证明Sk ⊆ Q k(引理 5.5)。该结果对于证明我们的主要定理至关重要。

备注：我们再次强调，我们后续的结果并不仅限于公式(5)中的 F，即由我们在公式 (4)中假设的特定奖励结构R,所产生的分布集合。只要相应的 F是具有最小分布的完全随机有序，对于任何其他有界的奖励随机变量集合{R}，我们后续的所有结果均成立。

在进入我们的主要定理之前，我们需要以下结果。

LEMMA 5.4.假设对于某个 Fu 和某个 k ∈{1, 2,…,N − 1}，有 Sk ⊆ Qu k。那么对于 every b ∈ Sk，我们有 Jk(b, Fu)=JN(b, Fu)。

PROOF。固定一个b ∈ Sk ⊆ Qu k。然后

Jk(b, Fu)= min{−ηb, Pk(b, Fu), Ck(b, Fu)} =∗ min{−ηb, Pk(b, Fu)} =o min{−ηb, ηδ+ Eu[Jk(max{b, Ru})]} =† min{−ηb, ηδ − ηEu[max{b, Ru}]} = JN(b, Fu).

在此推导中， ∗表示，在 Qu k中的(b,Fu)处，停止或探测是最优的（参见公式(20)）；o是通过将公式(14)中的Pk(b,Fu)代入得到的。此外，在探测之后（由于允许保留最佳中继），新状态max{b,Ru} ≥ b也属于 Sk（参见定理5.3），因此在探测后停止是最优的；这一观察结果得到了 †。最后，通过回顾公式(9)中JN(b,Fu)的表达式，得到最后一个等式。

备注：该引理的证明关键在于利用了允许保留（或召回）最佳中继这一事实。因此，如果不允许召回，则无法证明

阶段独立性性质（定理5.6和5.7）。然而，对于后一种情况，阈值特性（定理5.3）仍然成立，因此最优策略由与阶段相关的阈值刻画，如图3所示（更多细节请参见asset sellingproblems withoutrecall[Bertsekas 2005, 第4节.4]）。

接下来我们证明前一个引理中的假设确实对每个F ∈ F成立。

LEMMA 5.5.对于 k = 1，2，…，N −1 以及任意 F ∈ F,，我们有 Sk ⊆ Q k。

PROOF。该证明包含两个步骤：

1) 首先，我们证明如果存在一个Fu，使得对于k= 1,2,…,N −1, Sk ⊆ Qu k（从而满足引理 5.4中的假设），则对于每一个F ≥st Fu，我们有Sk ⊆ Q k。这一部分需要用到引理5.4以及 F的全随机序。

2) 接下来，我们证明一个最小分布Fm满足引理5.4中的假设；即对于每个k= 1, 2,…, N − 1, Sk ⊆ Qkm。通过回顾对于每一个 F ≥st Fm均成立，并在步骤1中用 Step 1中的 Fm代替Fu，即可完成证明。此处关键在于最小分布Fm的存在性（参见引理2.3）。

两个步骤的正式证明见附录 A.4。

以下是本节的主要定理：

THEOREM 5.6. For k= 1, 2,…, N −2, Sk= Sk+1.

PROOF。由引理5.1‐(iii)，我们已经知道 Sk ⊆ Sk+1。此处，我们将证明Sk ⊇ Sk+1。固定一个b ∈ Sk+1 ⊆ Sk+2。根据引理5.5，我们知道 Sk+1 ⊆ Q k+1且 Sk+2 ⊆ Q k+2,对每个 F成立。现在，应用引理5.4，我们可以写出Jk+1(b,F) = JN(b,F)。因此，

Ck+1(b)= τ+ EL[Jk+2(b, FLk+2)] = τ+ EL[Jk+1(b, FLk+2)] =∗ τ+ EL[Jk+1(b, FLk+1)] = Ck(b),

其中 ∗是通过将Lk+2替换为Lk+1得到的，因为它们是同分布的。最后，由于b∈ Sk+1，我们有 −ηb ≤ Ck+1(b) = Ck(b),这意味着b ∈ Sk。

THEOREM 5.7. For k= 1, 2,…, N −1 and any F, S k= S k+1.

PROOF。类似于定理5.6的证明，这里我们需要证明探测和继续成本满足类似的等式；即对于b∈ S k,，需要证明Pk+1(b, F) = Pk(b, F) 和 Ck+1(b, F) = Ck(b,F)。该正式证明见附录A.5。

讨论：将之前的结果与基本中继选择模型的解（即 δ= 0情况；参见第3节）或等价地与基本资产出售问题（或一般的停止问题）进行比较将是十分有趣的。为此，首先回顾一些定义将是有帮助的。基本停止问题仅包含停止和继续动作（一般而言，可以有多种类型的继续动作）。若停止集Sk是吸收的，则称该停止问题为单调的；也就是说，如果X k ∈ Sk，且假设过程被允许继续，则下一状态Xk+1 ∈ Sk+1使得在下一阶段停止也是最优的。对于单调问题，已知单步前瞻（OSLA）规则在任何阶段都是最优的，这意味着各阶段的停止集相同[Bertsekas 2005，第4节4]。最后，为方便起见，让我们回顾一下OSLA规则的定义：a

图4. 阶段独立性性质的示意图：仅显示了对应于最后阶段（以及阶段N −1对于 Sk）的阈值，因为这些阈值足以表征任意k的停止集。

当且仅当“停止代价”小于“再继续一步然后停止”的“继续成本”时，该策略在任何阶段选择停止，则称该策略为最优单步前瞻策略。

与基本设定不同，我们的建模包含了一个额外的探测动作，因此之前的定义无法直接适用。例如，如果b ∈ Sk且假设我们继续，则下一个状态(b,F)可能满足b∈/ S k+1,，从而在下一阶段停止并非最优。因此，从标准定义的角度来看，我们的问题不是单调的。类似地，标准OSLA规则在我们的情况下也不是最优的，因为“停止代价(−ηb)”总是小于“再继续一步然后停止的代价(τ − ηb)”，这意味着在任何b或(b,F),处停止都是最优的，而这通常并不成立。然而，由于引理5.5，我们的场景满足以下单调性的修正定义：如果b ∈ Sk，则下一个状态(b,F)下，“停止”或“探测并停止”是最优的。此外，以下OSLA规则的修正定义在我们的情况下是最优的：一个策略被称为OSLA，如果在任意阶段，

对于形式为 b 的状态，当且仅当“停止代价”小于“再继续一步的继续成本，然后在停止或探测和停止之间最优选择”的成本时，选择停止。

对于形式为 (b,F) 的状态，当且仅当“停止代价”小于“探测成本与停止代价之和”时，选择停止。

现在，对于探测成本 δ= 0的情况，总是执行探测动作，从而使之前的定义简化为标准定义；决策问题实际上简化为在停止和继续动作之间选择的基本设定。因此，我们的建模可以被视为通过在现有的停止和继续动作集合中引入额外的探测动作(δ> 0情况)，对基本设定(δ= 0情况)进行推广。

最后，由于定理5.6和定理5.7，我们现在可以将图3中的示意图修改为图4，其中我们仅显示每个停止集对应的一个单一阈值。因此，对于任意k，要刻画停止集S k，只需计算对应于最后阶段的阈值α N即可。类似地，停止集 Sk由在阶段N −1计算出的阈值αN−1来刻画（回顾 αN= 0）。

5.3. 探测集

类似于停止集 S k,，也可以定义探测集 P k为所有b的集合，使得当第k阶段的状态为( b,F) ,时，进行探测优于停止或继续，即

P k={b: Pk(b, F) ≤ min{−ηb, Ck(b, F)}}. (21)

注意，P k 只是集合 Q k 和 S , 的差集，即 P k= Q k\ S k。

图5. 若猜想5.8成立时探测集的结构。（a）对应于分布F且满足 α N> αN−1的探测集。（b）对应于Fu且满足 αu N= αN−1的探测集。

根据我们的数值研究，我们观察到，与停止集类似，探测集P k也由上界 ζ k表征（见图5）。其背后的直觉如下。设(b, F)为第N −1阶段的状态。如果b的值非常小，则相比继续而言，进行探测更为有利，因为探测将提供机会在第N阶段多探测一个中继，以防在第N −1阶段探测后过程仍继续；而如果不探测直接继续，则会失去 F这一机会。该论证可推广至任意阶段k，从而得出结论：当b较小时，进行探测可能是更优选择。然而，随着 b增大，探测可能无法带来比现有b更高的奖励；因此，探测的成本可能不值得，此时直接继续可能是更好的选择。

为了正式证明探测集合P k,的阈值特性，以下条件是充分的：对于任意b2> b1,

Pk(b1, F)− Pk(b2, F) ≤ Ck(b1, F)− Ck(b2, F).

这是因为，如果b2∈/ S k （使得停止不是最优的）满足b2 ∈ P k（即Pk(b2,F) ≤ Ck(b2,F)），则由前述不等式可得Pk(b1,F) ≤Ck(b1,F)，这意味着在b1处进行探测也是最优的，因此探测集由上界刻画。然而，我们尚未能证明或否定这一结果，但我们强烈相信其正确性，并提出以下猜想。

CONJECTURE 5.8.对于k = 1，2， … ，N −1，对于任意F,，如果b2 ∈ P k,，则对于任意b1< b2,，我们有b1 ∈ P k。

讨论：如果前述猜想成立，那么可以推导出一些额外的结构性结果。例如，假设对于某个F, α k> αk,，等价地， α N > αN−1（参见图5(a)）。由于 Sk ⊆ Q k（根据引理5.5），对于任意满足αN−1 < b< α N的(b, F)，探测应是最优的。现在，应用猜想5.8，我们可以得出结论：对于任意b < α N，探测都是最优的，因此对所有k均有ζ k= α N。因此，对于这类“良好”的分布F（即F使得 α N > αN−1），其对应的策略完全由单一阈值 α N所刻画。接下来，对于满足α u k= αk（等价地， α N = αN−1；见图5(b)）的分布Fu，在 ζ u k与 α uN之间存在一个区间，对于任意满足ζ uN ≤b < α uN的(b, F)，继续动作是最优的。与α u k不同，阈值 ζ u k是阶段相关的。事实上，根据我们的数值研究，我们观察到 ζ u k随k递增。最后，如图5所示，对于任意分布在最后阶段N，由于继续动作在第N阶段不可用，我们 invariably 应有 α N = ζ N。

5.4. RST‐OPT (受限最优) 策略

由定理5.3可知，停止集 Sk和 S k（ ∈ L,k= 1, 2,…,N）由下界αk和 α k刻画。此外，在定理5.6和5.7中，我们证明了这些阈值是阶段无关的。因此，只需计算αN−1 和α N即可，从而简化了最优策略的整体计算（该策略在受限类别内是最优的；参见公式(8)之后的讨论）。进一步地，如果

猜想5.8成立，那么上界 ζk 足以刻画探测集Pk。转发节点可以通过从初始条件开始，利用逆向值迭代求解方程(10)和(11)中的贝尔曼方程，计算出各个阈值，其中初始条件为 JN(b) = −ηb和JN(b,F),，由公式(9)给出（对所有b和F）。

现在， F在计算出这些阈值后，按如下方式运行：在第k阶段 =1, 2, . . . , N − 1，每当状态为 (b, F) 时，(1) 如果 b ≥ α N，则停止并转发分组到已探测中继；(2) 如果 b ≤ ζ k,，则探测未探测中继，并将最佳奖励更新为 b′= max{b, R}。若此时 b′ ≥ αN−1，则停止；否则继续等待下一个中继。 (3) 否则（即如果 ζ k<b < αN），继续等待下一个中继唤醒，在该时刻选择 F 和 FLk+1 中随机更大的一个，而