自给自足传感器网络设计

最新推荐文章于 2025-10-17 16:37:18 发布

原创最新推荐文章于 2025-10-17 16:37:18 发布 · 340 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#能量收集 # 传感器网络 # 能量自给 # 在线优化 # 协议设计

保持活力：自给自足传感器网络的系统设计

尼科拉·布伊，IMDEA网络研究所米凯莱·罗西，帕多瓦大学

自给自足是现代传感器网络的关键一步。本文提出了一种由可再生能源驱动的自主传感器网络的原创且全面的框架。我们将系统设计分解为两个嵌套的优化步骤：内层优化步骤在满足平均能耗约束的前提下，刻画最优的网络运行点；外层优化步骤则提供在线能量管理策略，使系统在面对不可预测且间歇性的能源输入时仍能实现能量自给。本框架为能量收集传感器网络的实际控制方案设计提供了新的视角，并能够评估关键传感器网络参数的影响，例如电池容量、采集器尺寸、信息传输速率和无线电占空比。我们分析了所获得的能量管理策略在节点具有不同能量输入统计特性以及可能发生拓扑变化情况下的鲁棒性，并设计了有效的启发式方法。最后，基于真实的太阳辐射数据对我们的能量管理策略进行了评估，将其与最先进的解决方案进行对比，并从可实现的网络吞吐量和电池电平动态的角度描述了关键设计选择的影响。

类别与主题描述描述符：G.1.6[优化]：随机规划 mming

通用术语：设计，算法，性能能量收集，能量自给性，协议设计，无线传感器网络

ACM参考文献格式：
尼科拉·布伊和米凯莱·罗西。2015。保持活力：自给自足传感器网络的系统设计。ACMTrans.SensorNetw. 11,3,文章40(2015年2月),42页。DOI:http://dx.doi.org/10.1145/2700269

1.引言

由可再生能源供电的无线传感器网络运行是一个非常活跃的研究领域，无论是理论还是应用方面。这主要是由于人们对绿色系统的日益关注，以及对能够长期无人值守运行的无线传感器网络（WSN）的需求。事实上，尽管微处理器制造和协议设计已取得进展，但在许多应用中电池寿命预计不到10年，而在某些情况下更换电池成本极高。这个问题在城市感知应用中尤为严重，例如安装在街道以下的传感器，铺设新的电源电缆不切实际。其他例子包括体域传感器网络或部署在偏远地理区域的WSN[WangandLiu 2011]。相比之下，由能量捕获设备供电的WSN提供可能无需维护的永久性网络，这对于高度普及的物联网尤其具有吸引力[Atzorietal. 2010]。

在过去几年中，关于能量收集无线传感器网络的文献大量涌现。这些网络由具有通信能力的微型传感器设备组成，设备配备有板载可充电电池（也称为能量缓冲器），并能够从周围物理环境中收集能量。迄今为止发表的大多数研究论文都涉及传输策略的能量中立设计，其中能量中性的概念指的是长期使用的能量应等于所收集的能量。在此类研究工作中，已采用两种成熟的方法来寻找能量中立策略，即离线和在线方法。离线解决方案旨在寻找最优数据包传输调度，其假设节点对能量收集和信息生成过程具有完全的知识。尽管这一假设不切实际，但它为在线策略的设计提供了有益的参考。另一方面，在线方法仅假设对能量到达和输入数据过程具备一定的先验统计知识。

离线方法：

Ozel等人[2011] 考虑了单个传感器节点通过具有加性高斯噪声和发射机处因果信道状态信息的无线衰落信道传输数据的情况。他们针对两个目标获得了最优策略：在截止时间内最大化吞吐量，以及最小化传输完成时间。Yang和Ulukus[2012] 通过放宽关于数据包到达的假设（现在数据包可在传输过程中到达）推广了Ozel等人[2011] 的结果。此外，他们利用解的结构特性推导出了快速搜索算法。在另一项近期工作中[， Gregori和Payar´o 2013] 放宽了电池容量无限的假设，在满足数据和能量因果约束的同时，针对给定的服务质量（QoS）约束获得了最优传输策略。据我们所知，该类别中尚无研究针对设备网络的能量管理策略。

在线方法：

这些方法在所考虑的能量到达过程的随机模型和优化目标方面有所不同。值得注意的是，仅有少数研究涉及分布式网络中多址接入和路由的相关问题。Vigorito等人[2007]提出了一种去中心化策略，通过调整传输占空比来控制具有随机补充的能量缓冲器。他们将最优缓冲器管理建模为一个在线优化问题，利用梯度下降更新规则估计系统动态，并实施以能量为中心的策略。类似地，Hsu等人[2006]提出了一种用于能量收集型传感器节点的自适应占空比循环算法。

Kansal等人[2007]研究了能量采集过程的基本特性，并利用这些特性设计了一种基于能量预测的最大化吞吐量的算法。Fan等人[2008]提出了一种保证公平性的高吞吐量解决方案，设计了集中式与分布式算法，用于计算所有节点的最优字典序速率分配。Lei等人 [2009]针对具有独立同分布的随机补充（即固定能量到达率）和有限能量缓冲器的传感器节点，建立了马尔可夫决策分析模型。他们设计了依赖于数据包重要性的最优在线策略，该重要性通过通用概率分布函数（pdf）进行建模。Sharma等人[2010]为具有无限数据和能量队列的传感器节点提出了吞吐量以及延迟最优的在线策略。他们考虑了数据和能量的平稳遍历到达过程，以及在衰落信道上的传输。Michelusi等人[2013]推广了Lei等人 [2009]的研究成果：他们通过两状态马尔可夫模型对能量补充进行建模，并为数据传输引入了成本。在考虑传输数据的长期数据重要性时，通过动态方法对最优和启发式策略进行了表征

编程公式化。Luo等人[2013]的研究重点则是面向能量收集无线发射机的实用电路，以及这些电路对时分多址接入方案中信道接入的最优传输策略设计的影响。他们在考虑服务质量约束和时分多址接入方案的同时，优化了用于存储能量和传输的时间。

其他处理多址接入信道并考虑多个传感器节点同时交互的方法包括Gatzianas等人 [2010],、Huang和Neely[2013],、Michelusi和Zorzi[2013],以及Tapparello等人 [2013]。据我们所知，Gatzianas等人[2010]是首个研究能量收集无线传感器网络分布式控制的贡献者。在该研究中，作者利用李雅普诺夫优化工具，提出了用于这些网络稳定与最优控制的在线自适应策略。这一研究方向被Huang和Neely[2013],进一步推进，他们结合权重扰动思想（参见Neely等人[2008]），采用李雅普诺夫优化理论解决分布式路由问题。Michelusi和Zorzi[2013]考虑了一个单跳无线传感器网络，其中每个节点从环境中收集能量，并随机接入信道向汇聚节点传输具有随机重要性的数据包。因此，他们基于随机接入问题的博弈论建模，提出了最优分布式策略。Tapparello等人[2013]提出了一种理论框架，通过提出联合传输、数据压缩（分布式信源编码，DSC）和路由策略，扩展了 Gatzianas等人[2010]以及Huang和Neely[2013]的工作，旨在最小化汇聚节点处重构信号的长期期望失真，同时确保网络的能量稳定性。

其他研究方向涉及能量共享网络[Zhu等 2010]和激光传能[Bhatti等 2014]。然而，在本研究中，我们既未考虑节点间交换能量的可能性，也未考虑进行无线能量传输。未来的扩展可能包括采用能量感知编程语言[Sorber等 2007]。

我们的贡献：

本文的研究属于在线类别，考虑了能量收集设备构成的网络。具体而言，我们提出了一种基于两个关键协议参数动态适应的框架，即无线电占空比dc和生成流量的传输频率fU。该框架使我们能够评估能量收集传感器网络的性能，同时为能量管理方案的实用设计提供了新的见解。

为此，我们考虑了以下因素：（1）网络拓扑；（2）内生（自身数据包）数据的传输；（3）外生（转发）数据的中继；（4）传输、接收、空闲、处理等方面的能耗；（5）信道接入机制；以及（6）收集能量流入动态。在信道接入方面，我们采用低功耗监听（LPL） MAC[布特纳等人，2006年；博内托等人 2012],，而路由动态则通过低功耗有损网络的 IETF路由（RPL）[高等人[2011]；布伊等人 2012]进行建模。

从技术上讲，我们的第一个贡献是一个模型，对于任意的(dc, fU)组合，在输入(1)至 (5)的情况下，能够返回相应传感器节点的平均能耗。我们以闭式表达形式得到使节点吞吐量最大化且满足给定能量约束的(d ∗ c,f ∗ U)组合。随后，我们在网络中定位瓶颈节点（即受到最多干扰的节点），并基于(6)进行进一步的优化步骤，同时考虑该最坏情况。所得到的能量管理策略根据瓶颈节点的状态以及收集的能量的随机模型，动态地选择(dc,fU)组合。由于这些策略是针对最坏情况设计的，因此可应用于所有节点，从而实现整个无线传感器网络的自给自足运行。接着，我们对所获得的能量管理策略的行为进行讨论，并将其性能与

表I.符号说明大写字母：N，S等。
表示系统状态和功能模块。
大写字母，斜体：Iout，ITX等表示平均量。
小写字母，斜体：toff，tdc等。表示变量。
手写体字体： S, U等。表示集合。
希腊字母： τ , ι, etc. 表示随机变量。
粗体字母：p， ρ等。表示向量。

表II.符号定义
S 系统模型中的能量源模块。
B 系统模型中的能量缓冲器（电池）模块。
N 系统模型中的能量消耗器（传感器节点）模块。
N 传感器节点集合。
i 采集电流。
u 控制策略（消耗电流）。
dc 占空比。
Iout 给定网络配置的平均电流消耗。
fU 内生流量的数据包传输率（奖励）。

与现有先进技术中的竞争性解决方案进行比较。最后，我们放宽每个模型假设，表明所得到的解决方案仍然是稳健的。

总之，本文的主要贡献如下： (1)一种用于嵌入式无线设备网络的能耗模型(2)网络最佳工作点的闭式公式(3)一个在允许整个传感器网络永久运行的同时最大化吞吐量性能的数学框架(4)对提出的能量管理策略的性能评估(5)在模型假设放宽情况下对提出解决方案的验证

在表I中，我们介绍了本文其余部分所使用的符号。其他定义将在各节开头给出。

本文的其余部分组织如下。在第2节中，我们描述了文章的工作流程，详细说明了设计目标以及后续分析如何实现这些目标。在第3节和第4节中，我们根据网络特性对传感器节点的能耗进行表征，并推导出在输入能量约束下的网络最佳工作点。在第5节中，我们提出了收集的能量的随机半马尔可夫模型；在第6节中，我们获得了嵌入式设备自给自足网络的能量管理策略。在第7节和第8节中，我们对所提出的策略进行了评估；在第9节中，我们给出了总结性评论。

2.问题描述

在本节中，我们将问题描述描述为两个嵌套的优化问题。所用符号列表见表II。

我们考虑一个由N= |N | 同质的嵌入式设备组成的无线传感器网络 N，其中传感器节点将其读数传输给一个数据收集节点（称为汇聚节点）。节点按照某种多跳拓扑部署，数据包通过预先确定的收集树路由至汇聚节点，具体如第3节所述。每个传感器节点通过图 1中的示意图进行描述。具体如下：

—能源模块（S）：该模块表示存在一些为存储单元供电的能量采集电路。采集电流的大小被描述为

由变量i表示。第5节中提供了S的随机半马尔可夫模型的详细描述。请注意，尽管采集的能量在时间上是随机的，我们最初假设所有节点的能量均由相同的马尔可夫源描述。关于异构能源的扩展在第8.1节中给出。

—电池（B）：存储单元（例如可充电电池或超级电容器）向后续的N模块提供平均电流u；参见第6节。

—传感器节点（N）：该模块对传感器节点的总能耗进行建模，表示为Iout。这包括传感器节点硬件所消耗的能量，涵盖网络协议栈（例如路由、信道接入和物理层）、板载传感器以及CPU（处理器状态）。N模块的能耗特性在第3节中进行了描述。

我们分析的总体目标是为 N中的传感器节点提供动态且与能量相关（即依赖于S和B的状态）的配置，以使整个网络实现能量自给。

为此，对于给定的网络配置，我们首先确定所谓的瓶颈节点，即承受最高流量负载的节点。根据定义，该节点也面临最高能耗（更详细的说明见第3节和附录D）。

我们的分析沿着以下两个优化步骤展开： 1)首先，我们针对给定的路由拓扑和信道接入技术，刻画瓶颈节点的能量消耗特性。具体而言，我们将其平均能耗Iout（在本次初步分析中假设为常数）与两个关键参数相关联：无线电占空比dc以及内生流量的传输频率fU。基于此，我们求解第一个优化问题P1（图1中的内层问题），目标是寻找使fU最大化的工作点（即(dc, fU)组合），同时将u作为能耗约束。为求解问题P1，我们建模了瓶颈节点与其他传感器在 N范围内的相互作用，考虑了其通信范围内所有节点的传输行为（例如来自子节点的中继流量、这些节点为其子节点转发的总流量、干扰源的数量及其传输速率等）。随后，我们推导出在给定平均能耗约束u下最优协议配置（dc, fU）的闭式表达。

2)在第二个优化步骤（问题P2）中，我们进一步考虑了S模块和B模块的存在，其中S模块通过随机时间相关马尔可夫模型进行建模，采集电流i被假设为一个时变的、相关的随机过程，而 u现在是控制变量。问题P2包括动态选择控制变量u（或等价地，选择对(dc, fU)，其中

表III.符号定义
x ∈ XN 节点工作状态x和状态集 XN。
f ′ U 考虑重传的修正奖励函数。
ton,toff,tdata,tdc,tU,tv,trpl 传感器节点时序
ix, Ix 状态x下的瞬时电流（ix）和平均电流（Ix）消耗的电流
ic,it,ir,is CPU消耗的电流（ic）、无线电消耗的电流（ir,it）以及感知单元消耗的电流（is）。
tx,rx, f x 平均持续时间、频率以及处于状态x的时间占比
kU 一个用于计算由于感知和计算所消耗的能量的常数。
nc,ni,nint 网络拓扑参数
et, ec,ep 信道错误（et）、冲突（ec）和总错误（ep）概率。

关系u →(dc, fU)源于给定能源模型下问题P1的解，从而使瓶颈在能量上自给自足的同时最大化其自身的吞吐量。

此时，我们将问题P1和P2的结果结合起来：问题P1根据u确定瓶颈的最佳工作点，而问题P2则规定了u应如何根据电池状态以及能量采集过程的某些统计知识进行变化。这种联合优化相当于根据S和B的状态动态选择节点需要消耗的电流水平u，以最大化吞吐量（问题 P1）并确保节点能量自给（问题P2）。

在解决该综合问题后，可通过以下方案确保所有网络节点的自给性。时间被划分为多个时隙，其划分取决于能量收集过程的时间特征；参见第5节。每个时隙开始时发生一个决策周期，即源模型转换到新状态时。因此，在每个周期开始时，汇聚节点收集关于瓶颈节点电池状态的信息，计算出该节点在下一时隙的最优动作（使用问题P1和问题P2），并将计算出的最优策略描述发送回所有网络节点。这样，所有节点将在下一个时隙执行针对瓶颈节点的最优策略，从而确保所有节点的能量稳定性。该机制可通过诸如RPL[Winter etal. 2010]等实用的网络管理与路由协议方便地实现。

在本文中，我们研究了对节点协议行为的粗粒度控制。实际上，每个时隙开始时都需要向节点发送一条控制命令，其持续时间取决于用于建模典型日内能量输入的状态数量。尽管我们的数学分析适用于任意数量的能量状态，但考虑到向节点发送控制动作所带来的网络开销以及足以精确建模（例如典型的太阳能源）的状态数量等实际因素，时隙的持续时间通常以小时为单位。

在第3节中，针对给定的网络场景（即传输模型、拓扑和数据收集树），我们对瓶颈节点的能耗进行了表征。因此，在第4节和第6节中，我们分别针对该瓶颈节点求解问题P1和问题P2，假设网络中所有其他节点的行为与瓶颈节点完全相同。

在第8.1节中，我们将分析扩展到传感器节点采集不同能量量的情况。

3.节点消耗模型

本节中使用的符号列于表III。

在本节中，我们讨论架构中的传感器节点模块：这包括定义一个可处理的框架来建模节点间的交互，包括路由和信道接入（MAC）。我们要求该模型能够跟踪网络特性，例如拓扑、所采用的 MAC协议、信道错误以及内部处理（如数据包的组装等）。尽管我们的框架沿袭了 Fischione等人[2013],的研究路线，但我们的目标是获得简单且有意义的关系，从而能够以闭式表达计算最优吞吐量。

为了便于处理，我们做出以下假设： 1)存在一个比其他任何传感器消耗更多能量的节点。该节点被称为瓶颈节点。2)每个传感器在信息生成速率fU（以每秒数据包数表示）和占空比dc=ton/tdc=ton/(ton+toff)方面均作为瓶颈节点运行，其中tdc= ton+ toff，而ton和toff分别为占空比中活跃部分和睡眠部分的持续时间。3)在每个决策周期（见第6节），汇聚节点收集瓶颈节点的能量储备状态，并广播反馈消息以调整所有节点的协议行为。我们在第8节中提供了关于如何处理传播延迟的实际考虑。4)传感器节点保持相同的行为足够长时间，以证明使用平均能耗指标是合理的。具体而言，汇聚节点执行控制动作的时间尺度远粗于无线电占空比循环相关的时间尺度。

首先，我们确定传感器节点的工作状态，并针对每种状态，确定其相关的能量消耗（此处以每种状态x下消耗的电流 ix表示）： —TX：这是发送状态。在此状态下，微处理器和无线电收发器均处于活动状态，这些组件消耗的电流分别为ic和it。—RX：在此状态下，节点接收并解码无线帧。与TX状态一样，微处理器和无线电收发器均处于开启状态，此时它们的能量消耗分别为ic和ir。—

INT：在此状态下，节点接收到一个既不是发给它也不需要由它转发的帧。此时，节点消耗的电流与RX状态完全相同。在接下来的分析中，我们将此状态与RX状态分别跟踪，因为 f 干扰和成功传输的速率可能不同。

—CPU：节点正忙于不需要任何无线活动的操作（例如感知、数据处理、编码等）。在此状态下，无线电收发器处于关闭或节能状态，因此功耗仅为ic。

—空闲：节点处于空闲状态，可切换至某种低功耗状态。然而，由于前导码采样型MAC协议（如X‐MAC[Buettner等 2006]或LPL[Moss等 2007],）在空闲时需要周期性采样无线信道，因此将此状态细分为两个子状态较为方便： —CCA：在此状态下，节点对信道进行采样（空闲信道评估）。因此，其消耗的电流与RX状态相同。— 关：这是功耗最低的状态。在此状态下，微处理器和无线电收发器均处于节能模式，设备消耗的电流为is，远小于其他所有功耗值（is ix,x ∈{t,r, c}）。

我们现在正式引入系统状态集

XN={TX, RX, INT, CPU, CCA, OFF}, (1)

其中对于空闲状态，满足空闲=空闲信道评估 ∪关。我们模型的主要思想是计算瓶颈消耗的平均电流Ix= E[ix]

节点在每个状态x ∈ XN 下，针对给定的协议和网络参数。注意，在我们的模型中，计算平均电流等同于计算功率，因为我们假设传感器按照固定供电电压运行。对于每个x ∈ XN，有Ix= ixtxfx，其中ix、tx和fx 分别对应消耗电流、处于状态x的平均驻留时间（持续时间）以及进入状态x 的平均速率（频率）。此外，我们使用量rx= txfx 来表示节点处于状态x的平均时间占比。因此，平均输出电流Iout 通过各平均电流之和得到：

Iout= ∑ x∈XN Ix. (2)

为了找到fx 和tx，我们做出以下选择： 1)节点的主要功能是感知环境数据并将它们发送到汇聚节点（第8节描述了如何考虑事件驱动的无线传感器网络）。2)在信道接入方面，我们采用基于前导码的发射机启动的 MAC协议，例如X‐MAC（利用低功耗监听策略）[Buettner等2006]。3)网络配置和维护通过分布式协议管理，例如RPL（低功耗有损网络的IPv6路由协议）[Winter等2010]。

根据第一种假设，节点周期性感知环境，并以恒定速率每秒生成fU个数据包，其中t U=1/fU为平均数据包生成间隔时间（关于如何处理非周期性流量的实际细节见第8节）。此外，每个数据包由kU ≥ 1次传感器读数组装而成；kU可用于表示不涉及无线活动的额外数据处理及其他操作。注意，fU是标称传输速率，仅在无碰撞无错误信道中才能达到。实际上，由于多个节点共享同一传输介质，数据包可能因冲突或传输错误等原因而丢失。当考虑一定的错误恢复机制（如重传）时，实际传输速率将为f ′ U ≥fU。

在路由过程中，每个节点将其数据包转发至汇聚节点或其下一跳节点（即父节点）。此外，每个节点发送自身的信息包（称为内生流量），以及由其他节点生成的数据包（当该节点作为其子节点的中继时，称为外生流量）。

为了说明我们的网络设置，我们参考图2中的拓扑示例，其中瓶颈节点用黑点表示，而汇聚节点位于网络中心。在该图中还展示了一种可能的路由树实现。具体而言，用实线表示的链路属于以瓶颈节点为根的子树。白色圆点表示通过瓶颈节点向汇聚节点转发数据的节点（这些节点称为子节点），白色三角形表示其流量可能与瓶颈节点流量发生干扰的节点（干扰节点）。叉号表示所有其他节点的位置。

对于我们的模型，我们假设拓扑、数据汇聚树以及覆盖范围是已知的。此外，我们仅跟踪子节点数量和干扰节点数量，而忽略它们的实际位置。基于此，接下来我们将以下各量作为分析的输入参数： 1)nc是子节点数量，即以瓶颈节点为根的子树中的节点总数。nc决定了必须由瓶颈节点转发的总流量。

2)ni是干扰节点的数量（图2中的白色三角形）。这些节点位于瓶颈的传输范围内（即距离瓶颈一跳之内），但瓶颈并非它们的目标下一跳。这些ni个节点中的任何一个节点的传输都可能对瓶颈造成虚假接收或冲突。

3)nint对应于瓶颈可能受到干扰的总数据包数，即所有干扰节点的流量负载（内生和外生）之和。注意通常情况下，nint> ni。

特别是，nc取决于网络的通信跳数规模，而ni和nint随节点密度增加而增加。最后，在接下来的分析中，我们假设网络中没有节点的nc、ni和nint大于瓶颈节点，并且对于除瓶颈节点外的每个节点，这三个参数中至少有一个严格小于瓶颈节点的对应参数。

我们现在可以计算用于瓶颈节点的公式(2)所需的各个量。我们首先分析发送状态和接收状态。注意，数据包的传输和接收取决于nc。事实上，由于所有节点每tU秒生成一个数据包（同质网络行为），平均而言，瓶颈节点每tU秒会从其子节点接收到nc个数据包，并传输nc+ 1个数据包（外生流量加上自身的内生流量）。这导致了

fTX,DG=(1+ nc)/tU, (3) fRX,DG= nc/tU, (4)

其中fRX,DG和fRX,DG是数据汇聚的发送和接收频率分量，暂时忽略RPL产生的流量。

为了考虑MAC协议的影响，我们在此总结其基本功能。X‐MACLPL协议规定每个空闲节点周期性地唤醒以执行一次信道空闲评估(CCA)操作。占空比周期持续tdc秒，由一个持续toff秒的睡眠阶段和一个持续ton秒的唤醒阶段组成，在唤醒阶段期间执行CCA。当一个节点想要发送单播数据包时，会传输一连串较短的请求发送(RTS)前导码，持续足够长的时间，以确保目标接收者在其下一个唤醒阶段中至少能检测到其中一个RTS。

唤醒周期。由于节点通常不同步，为了确保命中目标接收者，一个节点将发送持续整个占空比的前导码tdc= ton+ toff。由于缺乏同步，接收器可能在此期间的任意时刻检测到RTS。当某个节点检测到发往自身的传入RTS时，它会向发送方回传一个允许发送（CTS）消息，并等待实际数据包的传输。在完整接收数据后，接收器向发送方发送确认（ACK）。该信道接入机制如图3所示（为简化起见，图中省略了ACK的传输）。在该图中，发送方发出的第六个RTS被目标接收者检测到，随后立即回复CTS。示意图顶部的节点也检测到了该 RTS，但由于并非其为目标接收者，因此未采取任何动作。

对于这种信道接入方案，完成一次成功传输所需的平均时间为tTX=ton+toff/2+tcts+ tdata+tack，其中项toff/2源于接收器检测到传入RTS所需时间在[0, toff]内均匀分布这一假设。项tdata、tcts和tack分别对应于数据包、CTS和ACK传输的持续时间。接收时间为tRX= tcts+tdata+tack。注意，RTS时间未被计入tTX或tRX中，因为它已被CCA状态所考虑。此外，为了简化表示，在后续分析中我们将tcts和tack包含在tdata中。

现在，如果fU= 1/tU 是无误差信道的传输速率（包/秒），在存在数据包碰撞和传输错误的情况下，实际传输速率变为f ′ U ≥fU。为了清晰起见，本案例中信道接入问题的完整描述见附录A和B。

因此，平均传输时间可以表示为

tTX= ton+ toff/2+ tdata+(f ′ U/fU −1)tdc, (5)

其中，因子f ′ U /fU − 1表示平均重传次数。注意，公式(5)隐含了停等重传策略，即允许每个数据包进行无限次重传。相反，我们假设信道错误和碰撞对虚假接收及干扰包的影响可忽略，因为在这些情况下，目标接收者不会保持唤醒以接收数据包，因此其能量消耗已由 CCA状态计入。

我们现在对与路由拓扑维护相关的能量消耗进行建模。所采用的路由算法RPL包含一种主动式技术，该技术通过周期性地发送目的导向有向无环图（DODAG）信息对象（ DIO），并向汇聚节点发送目的地通告对象（DAO），从而构建路由树。RPL的时间机制由涓流定时器控制，在静态拓扑中，其时间间隔呈指数增长直至达到最大值。本文分析 RPL的稳态阶段，并考虑静态网络场景。这意味着以下操作：在每个持续trpl秒的涓流定时器周期内，瓶颈节点必须发送自身的DIO消息和自身的DAO，并且需要为其子节点转发nc个DAO。这导致了RPL消息的传输频率为

fTX,RPL=(2+ nc)/trpl. (6)

此外，瓶颈节点将从其子节点接收nc 个DAO，并从其干扰节点接收ni 个DIO（注意： DIO不被视为干扰，因为它们是广播的）。因此，RPL消息的接收频率为

fRX,RPL=(1+ ni+ nc)/trpl, (7)

其中fTX,RPL和fTX,RPL分别是RPL对发送和接收频率的贡献。

最后，我们的模型考虑了由于在空闲信道评估（CCA）期间检测到但并非发往该接收器的消息所引起的能量消耗。在这种情况下，接收器的行为与正常接收时相同，但在解码数据包头部后，会识别出该消息并非发送给自身。此时，节点将丢弃该消息并返回睡眠状态。干扰消息可能由数据收集或网络流量引起，其发生速率与nint成正比。因此，我们得到

fINT= nint(1/tU+ 1/trpl). (8)

此外，我们将tint< tRX称为解码数据包头部所需的时间，从而判断某节点是否为该消息的预期目的地。

基于这些推理，我们可以表示出每种状态下的平均电流消耗：

ITX=(ic+it)[tdc/2+ ton/2+ tdata+(f ′ U/fU −1)tdc] ×[(1+ nc)/tU+(2+ nc)/trpl] (9) IRX=(ic+ir)tdata[nc/tU+(1+ nc+ ni)/trpl] (10) IINT=(ic+ir)tintnint(1/tU+ 1/trpl) (11) ICPU= ictcpukU/tU (12) ICCA=(ic+ir)dc rIDLE (13) IOFF= is(1 −dc)rIDLE, (14)

其中tcpu为节点在不涉及无线电的操作中花费的平均时间，rIDLE为节点处于空闲状态的时间占比，该值通过1减去其余状态所占时间比例计算得出：

rIDLE= 1 −rTX −rRX −rINT −rCPU. (15)

1目的导向有向无环图（DODAG）。

总能耗最终由以下公式给出

Iout= ITX+ IRX+ IINT+ ICPU+ ICCA+ IOFF. (16)

4.节点功耗分析

在本节中，我们提出问题P1的解决方案：在给定目标能耗Iout= u的情况下，确定最优网络工作点。本节使用的符号列于表IV中。

Pr问题P1可以正式表述如下 s:

问题P1: maximize tU,tdc fU subject to: Iout ≤ u, rx ≥ 0, ∀x ∈ XN, tU ≥ 0, tdc ≥ ton. (17)

问题P1（方程(17)）归结为寻找最优对(tU∗,td∗c)，以在最大允许功耗u以及时域和频域约束条件下最大化节点吞吐量fU= 1/tU。该问题可通过两次嵌套的二分搜索进行数值求解（如 Bui和Rossi[2013]所示）：内层搜索在给定to∗ff和tU的情况下寻找最优 2，而外层搜索则寻找最优tU∗。然而，本文的目标是获得闭式表达的解。这将使我们能够在合理的时间内求解问题P2，同时也有助于在资源受限的传感器设备上实现最优能量管理策略。

尽管进行了简单的问题建模，公式(5)在自变量ni次幂的独立变量tU上引入了一个多项式，这使得难以通过易于处理且仍有意义的方程来表达其解。因此，我们首先在无碰撞信道条件下求解该问题，然后通过启发式方法调整结果以考虑碰撞的影响。

事实上，消除冲突后可以得到更简洁的表达式f ′ U，即f ′ U=fU/(1 −et)，从而消除了关于tU的ni次多项式。为了说明该方法在解空间内的合理性，我们在图4中展示了一些初步结果。

图4显示了在不同输出电流水平（dc, fU）平面中的等高线（Iout ∈{5, 10, 30} mA）：虚线表示完整问题的数值解，而点划线表示相同Iout水平下无碰撞信道的解。这两种情况下的最优工作点位置也已标出以供比较（白色方块代表完整问题，白色圆圈代表无碰撞情况）。

对于给定的Iout，最大吞吐量对应于占空比dc的一个唯一值。因此，无法找到

请注意，在本文中，我们将ton视为一个依赖于所考虑的传感器架构的常数，而节点可以调整其占空比的关断阶段持续时间t off。因此，对dc=ton /(ton+t off)、t dc= ton+t off或t off进行优化是等效的。

的数值解，而点划线表示相同Iout水平下无碰撞信道的解。两个问题的最优工作点也已标出（使用白色方块表示完整问题，白色圆圈表示无碰撞信道的解）。)

一个具有更高吞吐量的可行解，或一个具有相同吞吐量但占空比不同的可行解。

从图4中，我们推导出以下事实： —碰撞的影响随Iout的增加而增大，这意味着考虑碰撞与不考虑碰撞情况下的最佳工作点之间的差异是能量消耗Iout的增函数。—最大允许的fU随Iout增加而增大，这是符合预期的，表明内源数据的传输速率是能量消耗Iout的增函数。—占空比dc存在一个临界点，超过该临界点后，吞吐量fU会突然下降，这意味着td
dc也存在一个临界点。—寻找最佳工作点需要对传输速率fU(tU)和占空比周期(tdc)进行联合优化，因为这两个量是相互关联的。

为了便于阅读，无冲突情况下闭式解的完整推导见附录C。接下来，我们仅讨论采用的方法和主要结果。首先，Iout被重写为tdc和tU的函数，从而可以求得td∗c的数学表达式（作为仍为自由参数的tU的函数）。这是通过对Iout关于tdc求偏导数，并令其等于零，然后求解 tdc实现的。在此过程中，我们注意到 ∂IRX/∂tdc= 0、 ∂IINT/∂tdc= 0以及 ∂ICPU/∂tdc= 0，因为它们不依赖于tdc。这导致了

∂Iout(tU, tdc) ∂tdc = ∂ ∂tdc (ITX(tU, tdc)+ ICCA(tU, tdc)+ IOFF(tU, tdc))= 0 ⇒ td∗c(tU)=√d6/tU+ d5 d1/tU+ d3 , (18)

其中系数d1, d3, d5, 和d6 在表X中给出。

作为tdc的函数。通过公式(18)得到的最优解轨迹td∗c以实线表示。)

为了说明公式(18)的行为，在图5中，我们通过改变Iout并保持tdc固定在tU的集合中为t U ∈{5, 10, 25}秒（见虚线）来展示。通过公式(18)得到的最优解轨迹td∗c以实线表示。最优 tdc的闭式表达与无冲突情况下的Iout相交于其最小值处，符合要求。

此时，可以在Iout(tU,tdc)中将tdc替换为td∗c(tU)（见公式(16)），从而将输出电流表示为 Iout(tU,td∗c(tU))，使其成为单一自变量tU的函数。由于fU随Iout增加而增加，因此对于给定的目标电流u，最大可实现的fU在等值点Iout(tU,td∗c(tU))= u处取得。

此外，u不能无限增加，因为超过给定阈值tU ≤ tlim U 后，问题将受到频率约束r IDLE ≥ 0的限制。在此区域中，系统消耗瓶颈节点可消耗的最大电流umax，但由于信道饱和，该电流无法进一步增加。tlim U 是所考虑系统的最小可行包间传输时间，可通过观察最优性条件（见公式(18)）与频率约束rIDLE(tU,tdc)= 0 在tU= tlim U 时必须同时成立而解析得出。因此，由rIDLE(tlim U,tdc)= 0可得tlim U 与tdc之间的关系，即tlim U(tdc)=(a1tdc+ a11)/ (a10 −a3tdc)；而将tU 代入公式(18)中的tlim U ，可得tlim dc= td∗c(t lim U(t lim U ，可得到关于唯一变量tlim dc 的三阶多项式，从而可计算出tlim dc 以及相应的tlim U 。

系数{a1,a3,a10, a11}给出于表IX，相关数学推导详见附录C。对(tlim U,tlim dc)计算Iout(tU,tdc)可得采用最优配置时瓶颈节点可消耗的最大电流，即Ilim out= Iout(t lim dc)。因此，最大控制为umax= Ilim out。

相反，为了保持系统运行和工作状态，必须消耗一个最小电流I min out。I min out表示为Imin out= limt U →+∞ Iout(tU,t ∗ dc) ，这仅考虑了由于周期性传输控制流量（通过trpl体现）所导致的能耗。最小能耗也对应于最小的控制动作umin= Imin out。

的闭式解与精确解之间的比较。虚线表示在无碰撞信道假设下使用闭式解得到的结果，圆点代表考虑碰撞情况下的数值解，实线对应启发式调整以考虑碰撞影响的闭式解。此外，还显示了约束rIDLE(tU,tdc)= 0 （叉号表示通过数值方法获得的精确边界，点划线是使用启发式调整后的闭式解得到的结果）。)

最后，最优工作点tU∗被确定为以下方程的解：Iout(tU,td∗c(tU))= u，其中u ∈[umin,umax]，可表示为

(tU∗, td∗c)= ⎧⎪⎨⎪⎩ (+∞,√d5/d3) if u< umin (tU∗, td∗c(t ∗ U)) if umin ≤ u ≤ umax (tlim U, tlim dc) if u> umax, (19)

其中，tU∗是二次方程e2t 2 U+e1tU+e0= 0的正解，而tlim dc是三次方程f3t 3 dc+ f2t 2 dc+ f1tdc+ f 0= 0的最大解。有关数学原理及系数的定义，请参见附录C（见表X）。

图6展示了通过改变控制量tU∗,td∗c作为独立参数得到的最佳工作点。虚线对应于无碰撞信道下方程(17)的结果，白色空心圆圈表示包含碰撞的完整问题的数值结果，实线表示通过闭式解获得的结果，该闭式解已通过启发式方法进行调整以考虑碰撞的影响。此外，叉号和点划线分别表示完整问题的解以及采用经启发式修正的闭式解所得到的rIDLE(tU,tdc)= 0的结果。

所采用的启发式方法是对无碰撞信道闭式表达的刚性平移，使得后者等于在最大允许控制umax下考虑碰撞情况的数值解。该方法在u值较高时引入的误差非常小，并随着u减小而增大。然而，由于该误差的增长速度慢于tU，在整个解空间的大部分区域内均可忽略，且始终为系统提供一个可行解。

最后，在图7中，我们绘制了奖励函数：

r(u)= 1/tU∗(u). (20)

。)

表V.网络参数R是无线电覆盖范围。
| |N||nc[节点]|ni[节点]|nint[数据包]|
| —|—|—|—|—|—|
| 3跳稀疏 3跳中等 3跳密集 5跳稀疏 5跳中等密度 5跳高密度|15 25 38 42
68
106|0.53 0.88 1.35 0.53
0.86
3.23|5 5 5 15
15
15|4 8 13 4
8
13|16 32 54 48
96
160|
ρ[节点/R2]

表VI.系统参数
| ton|tdata|tint|tcpu|trpl|it|ir 12.3毫安|ic 42毫安 3|is 1 μA|
| —|—|—|—|—|—|—|—|—|
| 6 ms|14ms|10ms|40ms|6 h|14毫安||||

r(u)对应于给定多跳网络的最大可实现吞吐量。在图7中，我们展示了密集、中等和稀疏网络（分别用正方形、圆形和三角形表示）在三跳和五跳（分别为实线和虚线）情况下的结果。这些网络的参数见表V，其中N为节点总数， ρ为网络密度。增加跳数对奖励函数的影响远大于增加节点密度。本文所有图表均基于表VI中能耗和时序参数所描述的传感器平台得出。

公式(20)中的最优吞吐量将在第6节中作为问题P2的奖励函数使用，该问题考虑了随机能量源。

5.优化框架

以下章节的目标是解决问题P2，即在给定能耗模型（见问题P1）、传感器节点当前的能量储备以及未来能量到达的统计特征（即能量源S）的情况下，为传感器节点寻找最优且在线的能耗策略。这要求将消耗的能量与收集的能量及瞬时能量缓冲状态关联起来。在接下来的分析中，我们假设缓冲区中的电荷量

表VII.能源模型中使用的符号 xs ∈ S 能量源S状态xs以及所有能量状态的集合， S tk, k 状态转换时间tk和周期持续时间 k。 τxs，fτ(t| xs)描述在状态xs中驻留时间的随机变量及概率密度函数。 ιxs，fι(i| xs) 描述在状态xs中采集的电流的随机变量及概率密度函数。 pij 源模型嵌入马尔可夫链的转移概率。 δ= δin − δout 描述总变化量（δ）、收集的（δin）的随机变量以及决策周期中消耗的（δout）电荷。 f δ(d|u,xs) 状态xs下控制为u时电荷变化的概率密度函数。

能量缓冲器是一个已知量，或者等效地说，可以在传感器节点上可靠地估计。基于这一点，我们将最优控制问题表述为马尔可夫决策过程（MDP）。我们注意到，基于能量估计来制定能耗策略的启发式方法也是可行的，但本文暂不考虑此类方法，将其留作未来工作。然而，在第7.2节中，将所获得策略的性能与文献中的启发式解进行了比较。

这里，我们提出用于描述源S的随机模型，该模型基于图1中的传感器示意图。该模型将在第6节中用于求解问题P2。所得的能量管理策略将在第7节中进行验证。

在表VII中，我们定义了本节中使用的符号。

能源：能量源动态由一个具有NS个状态xs ∈ S={0, 1,…, NS −1}的连续时间马尔可夫链描述。我们将tk（其中k ≥ 0）称为源在状态之间转换的时间点，并将k= tk−tk−1定义为两次连续转换之间经过的时间。此外，系统在tk−1和tk之间的阶段被称为阶段k，其持续时间k由一个随机变量 τxs ∈[tmin(xs)，tmax(xs)],描述，该变量取决于该阶段中的源状态xs。 τxs具有相应的概率密度函数(pdf)fτ(t|xs)。此外，在阶段k期间，源提供一个恒定电流ik，该电流输入到电池中，并假设保持恒定直到在时间tk发生下一次转换。此输入电流由随机变量ιxs ∈[imin(xs)，imax(xs)]描述，其概率密度函数为fι(i|xs)。我们假设 τxs和 ιxs具有有界支撑。pij= Prob{xs(k)=j|xs(k−1)= i}（其中i,j ≥ 0）是相应嵌入式马尔可夫链的转移概率，且关于k不变。

离散时间表述：我们通过一个等效的离散时间马尔可夫过程来描述能源模型。这将使得在第6节中可以通过离散时间约束马尔可夫决策过程（DT‐CMDP）方便地表征最优策略。

为了提高表述的清晰性和简洁性，在本文其余部分，除非特别说明，我们将从符号中省略时间索引k。

为了通过离散时间模型描述能源，对于任意给定的k，我们将阶段持续时间的随机性映射为该阶段内相应的电荷变化。为此，我们定义两个随机变量δin和 δout，分别描述在该阶段内进入系统（存储在能量缓冲器中）的电荷量以及传感器节点消耗的电荷量。

δ= δin − δout是描述该阶段内电荷总变化量的随机变量。我们回顾一下，u是我们的控制变量，对应于该阶段内传感器节点消耗的电流。u在给定策略下是一个已知量，在后续推导中将被视为常数。我们有

δin= τ ι, δout= τ u, δ= δin − δout= τ(ι − u). (21)

因此，随机变量 δ 是作为两个随机变量 τ 和 ι −的乘积得到的u。根据Papoulis和Pillai[2002],的理论，当源处于状态x时， δ 的概率密度函数 s以及控制

表VIII.MDP分析中使用的符号
xb ∈ B=[0,bmax] 缓冲区状态xb，缓冲区状态集 B，以及缓冲区大小bmax。
x=(xs,xb) ∈ X= S × B 当前决策周期中的系统状态x，系统状态集 X 源状态集 S ,和缓冲区状态集 B。
y =(y s,yb) ∈ X 下一个决策周期的系统状态。
u ∈U=[umin,umax] 动作（控制）u和动作集 U。
π, μ 策略 π 和状态x 与动作u之间的映射 μ。
r(u) 与动作u相关的奖励
R(x,u), C(x,u) 单阶段期望奖励R(x,u)和成本C(x,u)。
JR(x),JC(x) 最优期望奖励JR(x)和成本JC(x)。
Cth 解可接受性的成本阈值
α 折扣因子
λ，Lλ(x,u) 拉格朗日乘数 λ 和拉格朗日奖励Lλ(x,u)。
中断状态u，fδ(d|u,xs)，可得：

fδ(d|u, xs)= ∫ tmax(xs) tmin(xs) fτ(t|xs)fι(d/t+ u|xs)|t| −1dt, d ∈ R. (22)

此后，能源等效地由一个具有NS个状态和转移概率pij、i,j ∈ S的离散时间马尔可夫链来描述。此外，当当前状态为xs ∈ S且控制为u时，一个阶段内的相应电荷变化由随机变量 δ表示，其概率密度函数由公式(22)给出。

6.马尔可夫决策过程分析

本节介绍了我们对作为马尔可夫决策过程建模的外层优化问题P2的分析。为了提高清晰度，该分析分为四个小节：在第6.1节中，我们定义了马尔可夫决策过程的基本要素；在第6.2节中，我们提出了最优策略的公式化表述，讨论其性质，并详细说明了用于计算该策略的算法（见第6.3节）。最后，在第6.4节中，我们报告了关于计算复杂度以及所计算策略的使用模型的考虑。表VIII给出了马尔可夫决策过程分析中使用的符号列表。

6.1.定义

我们考虑图1中的传感器系统，并假设系统在离散时间中演化，不失一般性。此后，在时间 k ≥ 0，称系统处于阶段k，在接下来的分析中，“时间”和“阶段”将可互换使用。源S 向能量缓冲区B注入能量，并根据前一节中提出的离散时间马尔可夫链进行建模。在任意时刻k，源S处于某一状态xs，而能量缓冲区中存储的电荷量为xb ∈ B=[0, bmax]，其中bmax为缓冲区容量。在通用时刻k，定义系统状态为x=(xs,xb) ∈ X，其中 X= S × B。在下一时刻k+ 1的系统状态定义为y=(ys,yb) ∈ X，它取决于源S的动态特性、当前阶段k的控制u以及阶段k期间的电荷总变化 δ。对于下一阶段k+ 1开始时的电池电量yb，我们有

yb= min{max{xb+ δ, 0}, bmax}=[xb+ δ] + , (23)

其中 δ在公式(21)中表示，且依赖于当前阶段u的控制k，而[a] +定义为[a] += min{max{a 0},bmax}，其中 a ∈ R。

我们通过离散时间MDP对传感器系统进行建模。在每个阶段k，需要根据当前系统状态x ∈ X做出决策u。除了系统状态及其动态特性外，马尔可夫决策过程还由控制集 U=[ umin,umax]表征，其中umin=Imin out 且umax=Ilim out 。 U包含所有可行电流消耗

传感器的能级（见第4节）。在本文中，我们考虑混合的和马尔可夫平稳（即与历史无关）策略。术语“混合”表示存在一个映射 μ，对于任意可能的状态x ∈ X，返回一个大小为 M ≥ 1的向量，其元素为(u(i), p(i))，且满足∑M=1ip(i)= 1。该向量表示当系统状态为x 时应采取的决策，表明需以相应的概率p(i)执行控制操作u(i)。一个混合的policy π是所有阶段此类映射 π={μ0,μ1,μ2,…}的集合。我们的问题属于具有单链结构、有界成本和奖励的马尔可夫决策过程类别。对于这类问题，只需考虑可接受的马尔可夫策略集合，因为最优策略总能在该类中找到；参见Derman和Strauch[1966]、Altman[1999],或 Feinberg和Shwartz的定理13.2[1995]。奖励和成本的有界性来源于 τ和 ι的有限支撑，以及瞬时奖励函数同样是有界的这一事实。因此，对于本文所研究的问题，只需关注马尔可夫平稳策略即可，这意味着μk仅依赖于时间k的系统状态（不考虑过去的阶段0,…,k −1），并且映射函数不依赖于k，即 π={μ,μ,μ,…}。

奖励：奖励函数考虑了系统的吞吐量。具体而言，根据第4节中的推导，我们知道对于给定的控制u，传感器节点的最优瞬时吞吐量由r(u)给出，如公式(20)所定义。现在，令x =(xb, xs)，其中x ∈ X，表示在任意决策阶段k开始时的系统状态。此外，令t和i分别表示描述阶段持续时间的随机变量τxs的实现值以及量化来自源的输入电流的随机变量 ιxs的实现值。考虑公式(21)，并回顾输入电流i和控制u在该阶段内均为常数，因此在一个阶段内，电荷量呈线性变化，直到其达到能量缓冲器容量bmax或降至0，具体取决于i −u的符号。因此，在该阶段内，电荷总变化为d= t(i −u)（见公式(21)），而能量缓冲器中电荷水平大于零的时间量由以下函数给出：

g>0(d, t, u, xb)= ⎧⎨⎩t d ≥ 0 min{−xbt d , t} d< 0. (24)

此外，只要缓冲区级别高于零，吞吐量就保持为常数且等于r(u)，而当能量缓冲器耗尽时，吞吐量则降为零。基于此，当阶段开始时的系统状态为x=(xb,xs)且控制为u时，单阶段期望奖励的计算如下

R(x, u)= E[r(u)g>0(ξ, t, u, xb)|x, u] = ∫ +∞ −∞ ∫ tmax(xs) tmin(xs) r(u)g>0(ξ, t, u, xb)fτ(t|xs)fι( ξ/t+ u|xs)|t| −1dtdξ = r(u)E[g>0(d, t,u,xb)|x, u], (25)

其中，E[g>0(d, t,u,xb)]表示在该阶段中能量缓冲器包含正电荷量的平均时间。在前述方程中，当给定u时，r(u)在一个阶段内保持为常数。实际平均吞吐量则通过该阶段中能量缓冲区状态大于零的平均时间进行调制，即E[g>0(d, t,u,xb)| x, u]。

成本：在成本方面，每当能量缓冲器低于给定阈值bth ∈(0,bmax]时，我们将计入一次惩罚。该阈值是一个设计参数，可能与维持系统运行所需的最小能量储备相关

响应式。此外，bth通常取决于具体实现，除了依赖于应用需求外，还取决于硬件约束。事实上，过低的电荷可能不足以保证传感器节点的正常运行。

成本是通过能量缓冲器级别低于bth的平均时间获得的。能量缓冲器级别低于bth的时间量由以下函数给出：

g<bth(d, t, u, xb)= ⎧⎪⎨⎪⎩max{0, min{(bth −xb)t d , t}} d ≥ 0 min{max{0,(1 −(bth −xb) d) t}, t} d< 0. (26)

因此，当阶段开始时系统状态为x=(xb,xs)且控制为u时，单阶段期望成本如下所示

6.2.最优策略：公式化

我们现在将最优控制问题表述为一个离散时间约束马尔可夫决策过程。可行策略 π在无限时间范围内获得的总期望奖励表示为

JR(xo)= lim N→+∞ E[N∑−1 k=0 αkR(x(k), u(k)) ∣ ∣ ∣ ∣ ∣ x(0)= xo,π], (28)

其中 α ∈[0, 1是折扣因子，x(k)和u(k)分别是阶段k的系统状态和控制，xo是初始状态。如果我们忽略成本，唯一目标是最大化吞吐量（奖励），则最优策略是求解以下贝尔曼最优方程的策略：

JR(x)= max u∈U ⎧⎨⎩R(x, u)+ α∑ ys∈S pxsys ∫ +∞ −∞ fδ(ξ|u, xs)JR(y)dξ ⎫⎬⎭, with: y=(yb,ys), yb=[xb+ ξ]+, (29)

其中，若当前状态为x，JR(x)表示从当前阶段开始的最优期望奖励，通过在允许的控制中最大化单阶段期望奖励（即当前阶段获得的即时奖励）与下一阶段开始的期望最优奖励之和得到（未来奖励JR(y)根据系统动态进行加权，即fδ(·)和pxsy s）。方程(29)可通过值迭代 (VI)求解，具体方法见Bertsekas[2012]的第1.3.1节。简而言之，VI是将方程(29)作为更新规则使用，从对JR(x)的初始估计开始，对所有状态进行迭代。3可以证明，最优性方程 JR(x)是一个压缩映射。该性质保证了VI迭代的收敛性，此时上一步计算出的最优估计JR (x)等于使用方程(29)右端(RHS)得到的新估计值。因此，对于任意给定的x ∈X，最优策略由使方程(29)右端(RHS)最大化的控制u给出。注意，对应于方程(29)的最优控制是一种纯策略，即每个状态关联一个单一控制u

3在算法的第一次迭代中设置J R(x)= 0, ∀x也能确保收敛。

x ∈ X；也就是说，存在一个映射函数μ(x)，使得对于每个状态x ∈ X，有u(x)= μ(x)，并且对于每个 x，u(x)是唯一的。

类似地，仅考虑成本时，给定策略 π 在初始状态x 下的总期望折现成本可通过求解以下贝尔曼方程得到：

JC(x)= max u∈U ⎧⎨⎩C(x, u)+ α∑ ys∈S pxsys ∫ +∞ −∞ fδ(ξ|u, xs)JC(y)dξ ⎫⎬⎭, with: y=(yb,ys), yb=[xb+ ξ]+. (30)

因此，我们所研究的受控传感器节点的离散时间约束马尔可夫决策过程问题可表述如下：

问题P2: maximize π Ex[JR(x)|π] subject to: Ex[JC(x)|π] ≤ Cth, (31)

其中，最大化操作是在所有可行策略的集合上进行的，Ex[·]表示关于策略 π所诱导的x ∈ X 的稳态分布的期望。Cth 是一个正常数，如果一个策略的平均成本满足方程(31)的约束，则称该策略为可行。关于Cth的选取，注意到如Altman[1999], 所示，对应于总期望成本Cth 和折扣因子 α 的每阶段平均成本为C′ th= Cth(1−α)。此外，根据成本的定义（见方程(26)），该量对应于每个阶段中能量缓冲器内的电荷量低于bth的平均时间。因此，将C′ th 除以平均阶段持续时间T= E[τxs]，可得到在一个阶段内能量缓冲器中的电荷量小于bth的可容忍的最大时间比例；即发生缓冲区中断的时间比例。因此，一个阶段内缓冲区处于中断状态的平均时间占比为

tout= Cth(1 − α) T . (32)

这种关系有助于调整Cth，并将其与一个具体的概念相关联。

方程(31)中的不等式约束通过设定最大期望成本Cth来限制最大能耗。因此，最优策略可以通过α和Cth进行调节。前者决定了我们在优化过程中向前看的程度；例如， α= 0代表一个短视的决策者，其控制量u仅基于当前阶段选择，而忽略未来系统演化。 α的较大值可生成具有更好前瞻能力的最优策略。特别地，当 α → 1时，相应的最优策略收敛于在无限时间范围内最大化平均奖励的策略；参见White[1993]。相反，减小Cth将产生较保守的策略，这些策略在缓冲区储能的消耗上更为节制。

6.3.最优策略：计算

根据Beutlerand和Ross[1985]（定理4.3）以及Altman[1999]（定理12.7）的分析，我们知道方程(31)可以通过定义拉格朗日奖励Lλ( x,u)（称为拉格朗日松弛）来求解：

L λ(x, u)= R(x, u)− λC(x, u), (33)

其中 λ ≥ 0是拉格朗日乘数，而R(x,u)和C(x, u)分别在公式(25)和(27)中定义。因此，我们定义一个无约束折扣问题

该问题取决于 λ，并具有以下贝尔曼最优方程：

Jλ(x)= max u∈U{Q(x, u, λ)}, with: Q(x, u, λ) d=ef Lλ(x, u)+ α∑ ys∈S pxsys ∫ +∞ −∞ fδ(ξ|u, xs)Jλ(y)dξ, and: y=(yb,ys), yb=[xb+ ξ]+. (34)

对于固定的 λ，方程(34)表示一个标准的离散时间马尔可夫决策问题，可通过值迭代（ VI）求解，得到相应的纯最优策略πλ。对于给定的 λ，函数Jλ(x)返回与最优策略πλ相关的最优拉格朗日奖励。我们将该最优策略的期望长期拉格朗日奖励记为Jλ= Ex[Jλ(x)|πλ]，其中期望是基于最优策略πλ所诱导的的稳态分布计算的。

直观上，考虑方程(33)，可以很容易地看出，增大的 λ会更重视成本C(x,u),从而使策略更加保守；而较小的λ则会更重视奖励R(x,u),从而更优先考虑吞吐量。这些特性在后续算法中被用来利用 λ在解空间内进行搜索。最优的 λ是在使平均成本小于或等于Cth的前提下，实现最大奖励的那个值；参见方程(31)。

接下来，我们提出一种利用在 λ上的二分搜索的高效算法。需要注意的是，这种搜索策略是可行的，因为正如Beutlerand和Ross在[1985],中针对我们的折扣马尔可夫决策过程所证明的引理3.1和3.2所示，最优拉格朗日奖励Jλ(x)是关于 λ的一致绝对连续、单调且非增函数。这意味着奖励Jλ(x)作为 λ的函数具有良好的性质，即它没有局部最小值或最大值。

此外，Beutlerand和Ross[1985] 的结果（见定理4.3和定理4.4）为我们寻找最优 λ提供了指导。事实上，对于最优策略，只可能存在以下两种情况：(1)存在一个最优的 λ，称为λ∗，使得πλ∗ 的平均成本等于Cth，在这种情况下，πλ∗ 就是我们所寻找的最优策略，并且属于纯策略类；或(2)存在两个 λ的取值，记为 λ−和 λ+，满足 λ−< λ+，其中 πλ − 的成本大于Cth，而πλ+ 的成本小于Cth，并且这两个策略至多在一个状态下不同，我们所寻找的最优策略是一个混合策略，即在每个决策周期以一定概率p 使用 πλ −，以概率 1 −p使用 πλ +。即使存在纯策略，情况2也总是成立，而纯策略是否存在则取决于 MDP的结构。

鉴于此，我们的算法旨在寻找一种混合策略，以最大化总期望拉格朗日奖励Jλ= Ex[Jλ(x)|πλ]，同时满足约束条件Ex[JC(x)|πλ] ≤ Cth，其中我们定义Cλ= Ex[JC(x)|πλ]。接下来描述该算法： (1)选择λ −和 λ+的初始值，其中 λ+是一个很小的值，使得Cλ − > Cth，并且Cλ +满足Cλ +< Cth。(2)计算 λ=(λ++ λ −)/2，并对该 λ在方程(34)上应用值迭代（VI）。这将返回最优拉格朗日奖励函数Jλ(x)(∀ x ∈ X)，即方程(34)的唯一解。一旦已知Jλ(x)，相应的最优策略π λ由映射u(x)= μ λ(x)描述，其中：

μ λ(x)= argmax u∈U {Q(x, u, λ)}, (35)

其中Q(x, u λ)在方程(34)的第二行中定义。

(3)获取由 πλ引起的x的平稳分布，称为P(x)，该分布通过数值求解递推式得到 P(y)= ∫x∈X P(x)f(y|x, u(x))dx (36) 在约束条件∫x∈X P(x)dx= 1下，其中P(x)表示在状态x=(xb,xs) ∈ X处计算的稳态分布，而f(y| x, u(x))是给定初始状态为x 且所采取动作为u(x)= μλ(x)时，系统在某一阶段结束时转移到状态y=(yb,ys) ∈ X 的条件概率分布函数。对于我们的问题，方程(36)特化为

P(y)=∑ xs∈S pxsys ∫xb∈B P(x)∫I(xb,yb) fδ(ξ|μλ(x), xs)dξdxb, (37)

其中x=(xb,xs)，y=(yb,ys)且I(xb,yb)={yb −xb} 当yb> 0 且b< bmax时成立，而I(xb, yb)=[yb −xb,+∞)当yb= bmax 且I(xb,yb)=[−∞, yb −xb] 当yb= 0时成立。

(4)此时，与策略πλ相关的平均长期成本性能JC(x)通过值迭代（VI）求解方程(30)得到，其中maxu∈U被替换为maxu∈{μλ(x)}，这意味着使用单个最优动作μλ(x)代替集合U，因此最大化过程简化为仅对最优动作计算方程(30)右端(RHS)的值。现在，利用P(x)和JC(x)，我们得到期望的长期折扣成本Cλ为

Cλ= Ex[JC(x)|πλ]= ∫x∈X P(x)JC(x)dx. (38)

(5)现在，我们可能有三种情况：(C1)Cλ= Cth，(C2)Cλ< Cth，或(C3)Cλ> Cth。在情况(C1)下，算法终止，最优策略为纯策略πλ。否则，算法继续如下：在情况(C2)中，我们将λ+更新为 λ+= λ；而在情况(C3)中，我们设定λ−= λ并启动新一轮迭代，返回到之前的步骤(2)，使用λ−和 λ+的新值（代表我们动态调整的搜索区间）。相反，如果Cλ −与 Cλ+之间的差值小于一个很小的常数 ε> 0，则算法停止，并返回πλ −、 πλ+以及混合概率p的值，该值按如下方式获得：

pCλ −+(1 −p)Cλ+= Cth ⇒ p= Cth − Cλ+ Cλ − − Cλ+ . (39)

因此，求解方程(31)的最优策略是一种混合策略，在每个阶段开始时，以概率p采用策略πλ −，以概率 1 −p采用策略 πλ + 。