利用雾分析实现协作式无线传感器网络中的上下文感知传感
1 引言
随着物联网(IoT)应用数量的增加,物联网设备(如路由器、智能手机和各种可穿戴技术)的定位在提升情境感知能力以及提供基于位置的服务(LBS)(如导航和目标跟踪)方面变得尤为重要[1]。传统上,通常建议使用全球定位系统(GPS)来实现室外基于位置的服务。例如,支持GPS的刻瑞斯标签[2],已被设计用于牲畜和农田管理,以实现精准农业。这些耳标除了检测每头奶牛的进食率和反刍情况外,还用于移动追踪,以检测越界行为,并在发生盗窃或动物擅自离群时向农场主发出警报。位置感知还可用于控制动物在农场内的活动路径,从而实现虚拟围栏[3]。尽管GPS技术由于易于与物联网设备集成而受到青睐,但大多数现代物联网解决方案正逐步淘汰其使用,原因是在恶劣天气条件和密集环境下的准确率较差,且GPS接收器功耗较高,严重影响物联网设备的电池寿命。作为替代方案,已提出使用无线传感器网络(WSN)进行定位[4]。基于无线传感器网络的技术通过基于距离的测量方法(如接收信号强度(RSS))[5],进行三角测量,以估算移动节点相对于静态锚节点的相对距离,从而实现定位。例如,SmartBow[6],是一种耳标,专为监测奶牛的活动能力和反刍行为而设计。该系统使用三角测量算法计算奶牛相对于固定接入点(墙装点位)的x/y/z坐标。尽管基于无线传感器网络的技术相比GPS具有低功耗优势,但它们需要在农场部署额外的基础设施,或依赖外部云资源进行数据分析。前者会增加系统部署和维护的费用,而后者则需要访问云资源,这在偏远地区(如奶牛场)的应用中通常受限。此外,这些方法的性能和效率常常受到室外噪声的影响,并且需要设备之间频繁进行时间同步。
同时,随着物联网边缘设备(如智能手机和传感器)在设计和计算能力方面的进步,利用雾计算框架下的边缘设备板载定位(使用内置惯性传感器的数据)已被提出[7]。雾计算是一种新型范式,它将云计算扩展到网络边缘,并建议利用物联网边缘设备上现有的计算和网络资源进行实时数据分析。通过这种方式,旨在优化系统的资源效率,同时通过降低对云的依赖来提高对警报的响应性。因此,支持雾计算的边缘设备定位有望克服上述基于无线传感器网络方法的局限性。例如,已有研究讨论了用户智能手机上的室内定位[8]。该技术利用用户智能手机获取的惯性数据检测活动状态,并采用隐马尔可夫模型( HMM)进行基于活动序列的地图匹配(ASMM),以识别用户在给定拓扑结构中行走时地图上的特殊点。尽管迄今为止已提出了相当多的基于智能手机的定位技术(详见第2节),但某些使用无线传感器网络技术设计的物联网应用缺乏此类相对强大的边缘设备。当前奶牛场中的动物健康监测系统即属于此类情况,其
例如,仅由低功耗动物可穿戴传感器设备(如Moomonitor [9]和HerdInsights [10])组成。这些设备借鉴雾计算的原理,能够自主运行(无需与网关/PC或云等第三方组件持续交互),以检测小规模的健康或行为异常。这些事件被本地存储在项圈设备上,并以容忍延迟的方式传输给最终用户。然而,由于偏远农场基础设施不足,此类设备缺乏定位感知能力。为了在部署于远程应用中的类似移动追踪无线传感器网络中实现传感器数据的实时情境化,有必要设计适用于低功耗、资源受限传感器设备板载实现的新型轻量级定位算法。
边缘挖掘 [11]是一种雾计算方法,提议在传感器设备上实现轻量级的数据挖掘任务。该方法旨在通过板载检测与应用相关的事件来提高这些设备的实时响应性。此外,它还通过减少向云的数据包传输来提升设备的能效。ClassAct 是边缘挖掘的一个实例,已被提出用于基于传感器的活动分类。它是一种基于决策树的技术,利用来自可穿戴惯性传感器的加速度数据来估计用户的活动状态。这些活动状态反过来可用于确定位置。然而, ClassAct 的预测基于低阶矩,例如固定时间间隔内的滑动窗口均值和方差。这限制了其在加速度信号包含测量值显著重叠的活动状态的应用场景中的使用。因此,尽管这些值可能来自不同的分布,但它们表现出相同的特征值,无法彼此区分。为解决这一局限性,作者先前在参考文献 [12]中提出了迭代边缘挖掘(IEM)。与 ClassAct 不同,IEM 基于多个区间内加速度测量值的直方图对活动状态进行分类。因此,它能够捕捉信号的分布特性,在活动状态存在显著重叠且混合不平衡(即某些活动的发生概率明显高于其他活动)的情况下尤为有用。然而,直方图方法在计算和维护区间时会带来额外开销,可能影响该方法的资源效率。
为了克服这一局限性,本文提出了IEM方法的扩展,即IEM2.0。IEM2.0算法采用滑动窗口最小最大特征替代直方图,用于分析信号分布和分类。该改进旨在减少活动分类所需的程序大小和计算量,同时捕捉分布的变化。此外,我们提出了一种基于IEM2.0的新颖定位技术,适用于低功耗可穿戴传感器设备上的执行。该技术联合使用两种轻量级分析方法——IEM2.0和基于协作活动序列的地图匹配(CASMM)。首先,该方法利用IEM2.0进行基于加速度的活动识别。然后,CASMM方法对IEM2.0生成的活动序列进行分析以检测位置。CASMM通过促进设备间的位置更新交换,利用邻近传感器设备之间的时空一致性实现合作活动状态检测,并扩展了参考文献[8]中提出的ASMM方法,将生成的活动序列映射到给定拓扑结构上并确定位置。此外,我们利用设备的位置信息,提出了一种上下文感知的事件驱动通信框架,用于向云进行数据传输。该框架通过减少不必要的周期性传输,旨在提高设备的能效。我们展示了所提出的IEM2.0‐CASMM方法在牧场式奶牛场中用于动物活动识别和定位的应用。其中,IEM2.0用于动物高层次活动状态的分类,而 CASMM则用于将活动序列映射到室外道路网络并估计位置。本文的主要贡献可总结如下:
•对参考文献中提出的IEM方法的改进,即IEM2.0,用于活动分类。IEM2.0旨在减少板载计算量并提高设备的资源效率。它用窗口化特征分析取代了基于直方图的方法,以捕捉信号分布,同时去除不必要的计算。讨论了IEM2.0的数学公式,并证明了其相较于ClassAct在处理具有不同混合比例的自然发生的混合高斯信号时的适用性。
基于IEM2.0‐CASMM的端到端无线传感器网络系统设计,用于上下文感知传感与通信。该系统利用IEM2.0进行活动识别,并改进现有的ASMM技术,以支持基于协作活动序列的地图匹配,从而实现设备在户外环境中的板载定位。我们还提出了用于计算设备通信能耗的理论模型,并讨论了一种事件驱动的通信框架,以优化网络的能耗。
•一种将我们的IEM2.0‐CASMM方法应用于牧场式奶牛场中动物高级活动识别与定位的方案。通过在爱尔兰科克郡基尔沃思进行的试点研究中收集的真实动物移动数据,对定位方法的准确率和能效进行了广泛的评估。此外,还开展了专门的内存分析,以评估IEM‐2.0的资源需求,验证其适用于基于传感器的执行。
本文其余部分的结构如下:在第2节中,我们介绍相关工作。在第3节中,我们介绍系统架构,并讨论基于IEM2.0‐CASMM的定位方法,同时描述我们的上下文感知通信框架。在第4节中,我们介绍案例研究以及IEM2.0‐CASMM在奶牛养殖场景中的实现,并讨论实验设置和实地研究。在第5节中,我们使用真实动物移动数据对所提方法进行广泛评估,随后在第6节中进行IEM‐2.0的资源评估。在第7节中,我们对全文进行总结。
2 相关工作
在本节中,我们回顾了基于物联网的先进定位技术,并讨论了基于传感器的分析技术的最新进展。
2.1 定位技术
迄今为止,已提出多种用于物联网应用的定位技术。传统的基于物联网的系统利用全球定位系统进行室外定位,因其高准确率以及全球定位系统接收器与物联网设备集成的便捷性。例如,参考文献[13]中使用了全球定位系统单元来实现老年人在辅助生活场景中的定位。尽管该方法实现了高准确率,但系统依赖远程推理系统进行数据分析,并且由于间歇性互联网连接可能导致获取洞察的延迟。此外,使用全球定位系统接收器并频繁进行数据传输可能会对设备寿命产生负面影响。作为替代方案,已有研究提出使用蜂窝系统进行轨迹跟踪。例如,在参考文献[14],中,系统利用蜂窝技术通过信号三边测量估计移动设备的粗略位置。该信息结合静止状态检测和基于隐马尔可夫模型的算法,以解码最可能的路径。然而,此类系统的性能受低采样频率影响,可能导致达到数公里的误差。一种名为 SnapNet的数字地图匹配系统[15]已被提出,以提高基于蜂窝系统的定位准确率。该系统实现了一种增量式隐马尔可夫模型算法,以应对输入数据中的噪声,并利用数字地图提示来提升准确率
所估计道路段的准确率。然而,此类系统的应用仅限于具有可靠蜂窝网络的场景。在参考文献[16],中讨论了一种基于Wi‐Fi的定位方法。该方法使用商用Wi‐Fi(英特尔5300)来估计多普勒速度和到达角测量值以实现定位,误差可低至35厘米。然而,基于Wi‐Fi的定位系统性能通常受到无线电信号噪声的影响,使其不适用于户外环境。
此外,也有研究提出利用无线传感器网络(WSN)进行定位。例如,在参考文献[17],中,作者提出了一种基于光强的室内定位系统,该系统在无线传感器网络内利用接收信号强度测量(RSS)进行预测。另一项研究在参考文献[5]中探讨了在明确定义的室外拓扑结构中基于RSS的传感器节点定位的可行性。然而,这类基于距离的测量方法通常表现出较低的信噪比,从而影响预测质量。在参考文献[4]中已对基于无线传感器网络的定位进行了实验评估。另一方面,随着嵌入式传感器技术的进步,行人航位推算(PDR)系统也被提出用于定位。PDR系统利用用户可穿戴设备/智能手机内置惯性传感器的移动数据(例如加速度、速度),通过计算位移来获取当前位置。参考文献[18]中的作者提出了一种PDR系统,该系统在身体上佩戴8个惯性运动单元(IMU),并在脚底佩戴压力传感器,以捕捉关节运动实现用户定位。另一个PDR系统的实例在参考文献[19]中进行了讨论。该系统提出了一种盲定位算法,结合用户智能手机内置的惯性传感器和声学传感器数据,使用最大似然估计器来估计智能手机的位置。然而,独立PDR系统由于随着时间推移行走距离增加而产生漂移,常常会累积误差。为解决此问题,提出了辅助PDR方法。在参考文献[20],中,PDR系统结合iBeacon,并采用基于卡尔曼滤波的校准算法来纠正漂移。在参考文献[8]中提出了一种基于PDR的ASMM技术用于室内定位。该系统在用户走向拐角、电梯、自动扶梯和楼梯等特殊点时,利用用户智能手机内置的惯性传感器识别低层次活动,如转弯或上下不同楼层。随后利用活动序列建立用户轨迹,并映射到室内道路网络以实现精确定位。ASMM方法为室内定位提供了一种成本效益高的解决方案,因为它对外部第三方组件的依赖最小。
在本研究中,我们提出了一种基于IEM2.0‐CASMM的PDR系统,用于实时定位。该方法以可穿戴设备内置惯性传感器的加速度数据为输入,使用IEM2.0算法进行基于决策树的活动识别。与现有技术相比,IEM2.0具有轻量级特性,适用于低成本传感器设备上的板载实现。通过IEM2.0生成的活动序列随后由CASMM模块分析以实现定位。CASMM是参考文献[8]中讨论的ASMM方法的协作式扩展。首先,该方法通过邻近设备之间的集体参与实现协同计算,以提高各个设备上分类的准确率。接着,如果观察到任一设备的活动状态发生变化,则执行ASMM,将活动序列映射到给定的室外拓扑结构以实现定位。尽管在参考文献[8],中使用隐马尔可夫模型来实现ASMM,但我们将其替换为一种基于阈值的轻量级窗口分析T,以确保其适用于基于传感器的执行。这两种技术将在第3节中详细讨论。
2.2 传感器分析
随着物联网设备数量的增加,大量数据被定期生成并上传至云进行分析。此类数据 abundance(通常称为“大数据”),
然而,这会给现有的云资源带来负担,并导致在获取数据洞察时出现延迟。因此,雾计算范式被提出,将部分智能从云转移到数据源,即网络边缘设备[21]。利用这些设备上可用的计算和网络能力,可以在网络内部实现数据的本地化缩减,不仅能够优化现有资源的使用,还能通过减少对云的依赖来提升物联网系统的响应性[22]。如前所述,尽管将物联网边缘设备(例如网络交换机、智能手机)作为雾节点已被广泛提出,但近期的研究进一步将计算任务下放至传感器设备。由于传感器设备的传统功能仅限于感知和发送,而其计算能力的不断提升,使得如今为这些设备设计的任务已包含某些复杂的数据分析功能。例如,文献[23]中提出了在无线传感器网络(WSN)内进行数据融合,以减少重叠数据中的冗余并提升覆盖范围。另一项研究在文献[24]中建议将人工神经网络(ANN)映射到无线传感器网络,用于“智能家具”的设计。文献[11]中的作者提出了边缘挖掘技术,以在传感器设备上进行板载数据挖掘。边缘挖掘构成了我们活动分类方法IEM2.0的基础,下文将对此进行更详细的讨论。
边缘挖掘[11]是一种雾计算技术,建议在传感器设备上实现轻量级的数据挖掘任务。它采用西班牙宗教裁判所协议(SIP)[25]的原理,该协议提议仅将网络中无法预期的信息传输到汇聚节点(网关)。SIP将来自传感器的原始数据转换为与应用相关的状态,只有当该状态无法通过过去估计值预测时,才由传感器上报。已有三种基于广义SIP的边缘挖掘实例被讨论——线性SIP(L‐SIP)、基本需求(BN)和ClassAct。L‐SIP将应用状态定义为某一时刻的值及其变化率。BN将状态表示为非重叠区间上的数据分布,每个区间定义一种可能的结果[26]。ClassAct是一种基于决策树的分类器,以原始传感器数据作为输入,并将应用状态编码为给定状态集合上的概率分布。文献中已展示了ClassAct用于识别低层次活动(如坐着、站立和行走)的应用。尽管系统实现了较高的分类准确率,但分类过程依赖于低阶矩(例如固定时间点的滑动窗口均值和方差)。这种方法在区分信号(反映特定行为的时变数据,例如行走和站立时的加速度)时不可避免地导致分类错误,因为这些信号的测量值虽然来自不同分布,但具有相似的均值和方差。尽管使用高阶矩(例如偏度和峰度)可能有助于识别不同的状态,但其计算对传感器设备而言计算复杂。
IEM 已由作者在参考文献 [12]中提出,以克服 ClassAct 方法的局限性。IEM 是一种决策树分类器,设计为两种边缘挖掘算法——BN 和 ClassAct 的叠加。首先,IEM 运行 BN 算法将原始传感器测量值转换为一组互不重叠且详尽的区间上的分布,其中每个区间表示变量可取值的范围。该分布在过去的读数上使用衰减因子进行平滑处理 γ,因为活动状态不会发生突然变化。接下来,估计分布的百分比变化。如果变化超过阈值 ε,其中 0< ε< 1,则所有区间的分布将作为输入提供给 ClassAct 算法进行活动状态识别。通过将信号分布作为分类器的输入(而非滑动窗口的均值和方差),IEM 捕捉了信号随时间变化的本质,从而解决了 ClassAct 的局限性。IEM 的性能已在参考文献[12]中针对分类低层次活动(如行走和站立)进行了评估。尽管 IEM 被证明在计算频率极低的情况下可达到 95% 的准确率,但其基于直方图的实现(受启发于
通过BN算法)需要多次浮点运算来维护桶计数和分布。根据桶的选择,这可能对传感器设备上基于传感器的执行的资源效率产生负面影响。在本研究中,我们讨论了一种更适合在传感器设备上实现的IEM改进方法(第3.1节),并评估其在奶牛高级活动识别中的性能。第6节还讨论了该算法的数组实现方式,以评估其资源需求。
3 IEM2.0‐CASMM用于板载定位
图 1(a) 展示了基于 IEM2.0‐CASMM 的定位系统的架构。如图所示,该系统在两个阶段运行——云端的离线训练阶段和边缘端的在线定位阶段。尽管 IEM2.0‐CASMM 模型是轻量级的,适用于基于传感器的定位,但模型训练是一个计算密集型任务,因此在云端离线完成。在训练阶段,首先从可穿戴设备中的内置惯性传感器收集历史数据,并分析以提取适合分类的特征。然后,对给定应用场景执行(非)监督学习,以训练和测试 IEM2.0 和 CASMM 模型。针对不同输入参数值生成基于 IEM 的分类器(DT)。该 DT用于分析加速度数据并识别活动状态。IEM 生成的活动序列随后由 CASMM 方法进行基于地图匹配的定位分析。CASMM 通过允许邻近设备(视为一个联盟)之间交换位置更新,执行协同分析,以提高个体预测的准确性,并将更新后的活动序列映射到给定拓扑结构以确定位置。CASMM 的性能在不同联盟规模下进行了评估。根据性能评估结果以及源自应用需求的给定优化函数(例如,最大化位置准确率或最小化能耗),确定 IEM2.0‐CASMM 的输入参数值(即,窗口大小、 ε和联盟规模)。最优性能模型随后被部署到传感器设备上,用于板载分析。在在线阶段,执行 IEM2.0‐CASMM 以分析周期性感知的加速度数据,实现实时活动识别和定位。估计位置与其他传感器(如温度、湿度)的数据结合,以促进上下文感知传感和通信。第4节讨论了该架构的一个实例(如图 6所示),用于奶牛的定位。
IEM2.0‐CASMM
模型适用于动物可穿戴设备上的板载实现,并允许奶牛在农场中移动时进行实时上下文感知传感。我们假设 CASMM 模块已预先知晓农场拓扑结构。此外,由于 CASMM 假设存在共址或协同移动的设备以实现基于联盟的协作,我们考虑传统挤奶方式下的奶牛,它们在挤奶厅和放牧区之间以牛群形式共同移动。然而请注意,CASMM 方法可以轻松扩展到设备独立移动的场景:例如,在自动挤奶情况下,奶牛可能遵循不同的挤奶周期,此时可通过移动过程中形成动态联盟来实现(如第 3.2节所述)。建立联盟时的开销计算不在本工作的研究范围内。在本节的其余部分,我们将详细介绍两种分析方法以及我们的上下文感知、事件驱动通信框架。
3.1 迭代边缘挖掘(IEM)
IEM2.0 是对 IEM 方法的一种改进,它用窗口最小值和最大值(winMin,winMax)特征取代了基于直方图的分析,用于活动状态分类。滑动窗口分析考察信号中存在的时间模式,并捕捉值的分布在时间上的变异性。使用这些特征可确保对传感器测量值分布的微小变化具有敏感性,同时减少不必要的浮点运算。这反过来提高了算法效率,使其适用于更广泛的物联网设备和应用。此处,窗口大小是一个输入参数,用于对历史数据进行平滑处理,类似于直方图估计中使用的衰减因子 γ(在第2.2节中讨论过)。仅当任一特征值的百分比变化超过阈值 ε时,才执行分类,其中 0< ε< 1。在浮点运算方面,IEM‐2.0 仅需要 ≥和 <,而之前提出的 IEM 技术还需要额外的浮点除法和乘法运算(例如直方图估计、平滑处理)。基于 ClassAct、IEM 和 IEM‐2.0 的分类之间的差异如图 1(b)所示。我们将在下一节中介绍 IEM2.0 的数学公式,并说明其相较于 ClassAct 在正态和混合高斯分布下的适用性。我们选择这些信号是因为本研究中针对不同活动状态采集的真实世界加速度数据具有此类特性(见图 15)。
3.1.1 高斯混合及其对ClassAct分类的影响
考虑信号Snorm和Smix,其值为独立同分布,分别来自正态高斯分布pnorm(x) =N(x, μ1, σ 2) 和双组分混合高斯分布,其中x表示传感器测量值。该混合分布的第一组分与Snorm的正态分布相同,第二组分则服从相同方差 σ 2但期望值更大的正态分布 μ2> μ1。样本x从第一组分和第二组分中抽取的概率分别为 1 −α和 α,其中 α< 0.5(即第一组分占主导)。因此,Smix值的分布具有如下表达的概率密度函数 (PDF):
p mix(x, α)=(1 −α) · N(x, μ1, σ 2 )+ α · N(x, μ2, σ 2 ). (1)
自然地,Snorm和Smix都可以被视为来自同一参数信号族 F的代表,其中数值来源于由公式 (1)指定PDF的不同α值对应的分布。在某种程度上, α描述了次要成分对整体值分布的影响。图2(a)展示了 α对信号值及其分布(使用公式(1)生成)的影响,对应于 μ 1 = 0、 μ 2 = 3和 σ= 1的情况。如预期所示, F(0.00)产生正常的信号Snorm。随着 α的增加,影响变得更加明显(例如, F(0.05)),并最终改变信号
信号分布(b)窗口均值(c)窗口方差的影响。)
双模态(例如, F(0.40))。1这直接影响将 F(0.00)(即正态分布)的样本与 F中其他真正的混合高斯元素的样本(例如,使用ClassAct中的滑动窗口均值和方差)区分开来的精度(例如, α> 0.00)。对于固定的 α ∈(0, 0.5),来自 F(α)的n个连续样本的任意窗口 Fn(α)将以概率包含恰好n个来自主成分和次成分的 −i和i值
P(I(Fn(α))= i)= Ci n · α i ·(1 −α)n−i, (2)
其中 I是一个指示函数,用于表示来自Fn(α)窗口中次要成分的数值个数。在条件 I(Fn(α))= i下,该窗口可被视为由 n个独立的正态变量组成。因此,这些变量的滑动窗口均值和方差的条件概率密度函数等价于 P(E(Fn(α))= x| I(Fn(α))= i)= n · N(n · x,(n− i) · μ1+ i · μ2, n · σ 2), P(Var(Fn(α))= x| I(Fn(α))= i)= n · X2(n · x, n,(n− i) · μ2 1+ i · μ2 2), (3) 其中 X2是非中心卡方分布。这里,为了简化公式,我们有意利用了所有正态变量均为具有 σ 2= 1的单变量这一事实(见图 2)。随后,使用公式(2)和(3),可计算出滑动窗口均值和方差的整体概率函数为
P(E(Fn(α))= x)=
i=n
∑
i=0
P(E(Fn(α))= x| I(Fn(α))= i) · P(I(Fn(α))= i),
P(Var(Fn(α))= x)=
i=n
∑
i=0
P(Var(Fn(α))= x| I(Fn(α))= i) · P(I(Fn(α))= i).
(4)
注意,上述方程(公式(4))也适用于由 α值等于0.00表示的正常信号的滑动窗口均值和方差。这些方程特别有助于我们评估 α对来自 F族的各种信号的滑动窗口均值和方差分布的影响。图2(b) 和 2(c) 展示了不同窗口大小(即10和20)以及 α值(即0.00,0.05,0.40)下示例分布(使用公式(4)生成)。均值和方差的直方图是使用模拟数据生成的。如图所示,具有 α= 0.00 和 α= 0.05 的信号在其滑动窗口均值和方差值上重叠较多,这显著影响了使用传统ClassAct方法区分这两种情况的可分性。随着alpha的增大,典型的滑动窗口均值和方差值逐渐远离 α= 0.00 的值,从而提高了可分性。增加
1图 2(a)表明,多个服从正态分布的组件的混合分布并不总是遵循正态分布。实际上,该分布由 α因子决定。
3.1.2 用于混合高斯信号分类的IEM-2.0
为了分析IEM‐2.0的预测能力,我们首先评估窗口最大值 特征在 F(α)混合高斯信号上的值的分布。为简洁起见,我们省略了窗口最小值 特征,因为对其的分析仅仅是本文所呈现分析的简单调整。考虑任意窗口 Fn(α)的最大值。类似于公式(3),在条件 I(Fn(α))= i下,窗口最大值的累积分布函数(CDF)等于:
P(Max(Fn(α))<= x| I(Fn(α))= i)= N ∗(x, μ1, σ 2) n−i · N ∗(x, μ2, σ 2) i , (5)
其中N ∗表示正态分布的累积分布函数。因此, Fn(α)的总体累积分布函数为:
P(Max(Fn(α)) ≤ x)=
i=n
∑
i=0
P(Max(Fn(α)) ≤ x| I(Fn(α))= i) · P(I(Fn(α))= i). (6)
现在,假设对于特定的 n ≥ 1 和 α> 0,使用决策树基于某个 m 维特征 f 将序列 Fn(α) 与 Fn(0.00) 分开,其中特征 f 是从 Rn 到 Rm 的函数。当 m = 1 时,表示窗口均值、方差、最大值和最小值被独立使用;当 m = 2 时,表示它们被联合使用。假设已知 Fn(0.00) 和 Fn(α) 序列的特征值的累积分布函数,并分别记为 PFn(0.00) 和 PFn(α)。在决策树分析过程中,首先从给定的 n 个信号值中提取特征值,然后根据决策树规定的多个阈值评估进行判断。回到图2中考虑的例子,可以合理假设最优决策树仅包含一个节点。特征超过阈值的序列将被分类为 Fn(α),而特征低于阈值的序列将被分类为 Fn(0.00)。随后,对于阈值 x tr,I 类和 II 类错误的概率(PI, PI I)
等于:
PI(xtr)= PFn(α)(xtr), PI I(xtr)= 1 − PFn(0.00)(xtr). (7)
因此,可以使两种类型的错误最小化的最优阈值可以计算为:
XOP T= Arдminx ∈Rn(Max(PFn(α)(x), 1 − PFn(0.00)(x))). (8)
由于所有累积分布函数都是定义域在[0,1],之间的连续单调递增函数,可以证明XOP T始终存在,且 PI(XOP T)= PI I(XOP T)。因此,对于一维特征(m=1)的情况,方程(8)中问题的解可按如下方式计算:
PFn(α)(x)= 1 − PFn(0.00)(x)). (9)
˜对于m ≥ 2,求解方程(9)将生成原始特征空间X的一个子集Rm。随后,该优化问题可重新表述为:
XOP T= ArдminX˜ PFn(α)(x). (10)
了解XOP T使我们能够进一步数值评估所选特征的PI和PI I误差概率。图4(a)和图4(b)展示了使用上述获得的滑动窗口均值、方差和最大值的CDF函数进行此类评估的结果(注意,对于前两个指标,我们推导出可轻松转换为CDF的PDF)。该评估针对相同的 μ和 σ 2参数集进行,结果表明,对于小到中等大小的窗口,winMax以及IEM‐2.0的错误率(即 预测能力更好)低于ClassAct。IEM‐2.0的优势在较低的 α值情况下更为明显(图4(a)),并随着 α和/或窗口尺寸的增加而减弱(图4(b))。最后,图4(c)展示了当联合使用窗口均值与方差时的这一效果。尽管在本研究中我们未提供窗口均值与方差联合CDF的解析公式,但在分析过程中,我们基于数值模拟结果对这些函数进行了插值。显然,对于行为接近 Fα且 α值较低的信号分类,使用IEM‐2.0尤为有利。需要注意的是,虽然在此示例中由于直方图偏移的正向特性(如第3.1.1节所示),特意使用了IEM‐2.0的winMax特征,但直方图偏移通常是非平稳的,可能表现为正向或负向。因此,在IEM‐2.0中,我们基于 (winMin, winMax)特征的联合使用进行分类。
)的联合窗口均值与方差分类。)
3.2 基于协作活动序列的地图匹配(CASMM)
一旦识别出活动状态,IEM生成的活动序列2将通过CASMM方法进行定位分析。CASMM方法包含两个轻量级计算任务——合作活动状态检测和ASMM。
尽管IEM相比ClassAct在分类准确率上有所提升,但由于信号间强重叠,特别是在较低 α值的情况下,某些(PI, PI I)误差可能仍然存在。当出现>2信号(即多于两种活动状态)时,这些误差可能会进一步增加。现在假设在任意时间t,存在一个设备集合N(|N |),其中每个节点 n ∈ N均运行IEM算法以实现板载定位,并位于同一物理区域Li内(见图5(a))。该区域Li的定义是:此区域内所有物联网设备均表现出共同的高层活动状态。因此,虽然每个节点n分别分析其个体活动状态,但可以认为仅对单个节点(称为初始化节点(IN))进行分析就足以完成 Li中所有N设备的活动识别。然而,我们建议对所有n ∈ N或N的一个子集设备进行分析,并通过参与设备之间的邻近协作进行活动状态更新交换,以提高个体预测的准确性。
我们设想一组参与设备 N′(|N ′| ≤ |N |),这些设备在任意时刻均位于节点 n 附近,构成一个基于位置具有共同活动状态的联盟。除了个体预测外,我们提出每个参与设备应维护一个共享网络状态的本地副本。如果任一设备 n ∈ N ′预测到活动变化,且其预测状态与共享网络状态不同,则该设备会与 N′中的其余节点发起协作。我们采用等权重多数投票机制,其中共享网络状态按各设备 n ∈N ′预测状态的众数计算。若 N′中大多数设备均同意状态发生变化,则意味着该设备已离开区域 Li并移动至另一区域 Lj,i j,因此表现出不同的活动状态。否则,认为该设备对活动状态做出了过早的变化预测,此时保留最后更新的活动状态。这种设备间的协作不仅能够实现对错误分类状态的检测,还有助于状态转换的及时检测。例如,如图5(a)所示,设备间的协作有助于纠正状态内错误(在 L3 中)以及及时检测状态转换
下文提到的IEM均指IEM‐2.0,除非另有说明。
合作的效果 (b) ASMM的实现。)
状态变化,当节点从L1→ L移动时。然而,根据节点所处的邻近环境,协作可能会导致某些错误。如图5(a)所示,位于L1中的节点可能因其靠近传感器设备而误判为处于L4,的活动状态。ASMM模块用于识别此类错误,提高状态检测准确率,从而提升定位精度。
一旦完成协作,活动状态序列将由ASMM模块进行解释。如前所述,ASMM最初主要用于室内行人定位[8]。该方法利用建筑物内的与活动相关的地点(例如楼梯和拐角)作为虚拟地标,以确定用户轨迹和位置。尽管广阔的室外环境可能缺乏此类特性地标,但由于用户的高层活动和活动能力本质上受限于室外拓扑结构,因此ASMM方法可扩展应用于基于物联网的室外定位。因此,我们提出通过将活动序列及其对应的持续时间映射到给定的室外地图上来确定节点的位置。这种映射是轻量级的,适用于基于传感器的实现。如果在协作后记录到状态变化,则先前存储的活动序列及其对应的持续时间将作为输入馈送到 ASMM模块。仅当状态变化与拓扑结构一致(即物理上可行)且已被预测持续超过给定阈值 T的时间段时,ASMM模块才接受该状态变化。随后确定运动轨迹和位置。否则,该状态变化被视为分类错误,用户活动状态和位置被认为保持不变。例如,考虑图5(a)中的用户(传感器设备),其只能按照顺时针方向从L1→ L2→ L3→ L4→ L1,移动,如图5(b)所示。给定初始参考点(L1),节点要么保持在同一活动状态(和位置),要么移动至L2。因此,ASMM模块会丢弃对应于位置L3和L4的任何状态变化。此外
状态变化,当节点从L1→ L移动时。然而,根据节点所处的邻近环境,协作可能会导致某些错误。如图5(a)所示,位于L1中的节点可能因其靠近传感器设备而误判为处于L4,的活动状态。ASMM模块用于识别此类错误,提高状态检测准确率,从而提升定位精度。
一旦完成协作,活动状态序列将由ASMM模块进行解释。如前所述,ASMM最初主要用于室内行人定位[8]。该方法利用建筑物内的与活动相关的地点(例如楼梯和拐角)作为虚拟地标,以确定用户轨迹和位置。尽管广阔的室外环境可能缺乏此类特性地标,但由于用户的高层活动和活动能力本质上受限于室外拓扑结构,因此ASMM方法可扩展应用于基于物联网的室外定位。因此,我们提出通过将活动序列及其对应的持续时间映射到给定的室外地图上来确定节点的位置。这种映射是轻量级的,适用于基于传感器的实现。如果在协作后记录到状态变化,则先前存储的活动序列及其对应的持续时间将作为输入馈送到 ASMM模块。仅当状态变化与拓扑结构一致(即物理上可行)且已被预测持续超过给定阈值 T的时间段时,ASMM模块才接受该状态变化。随后确定运动轨迹和位置。否则,该状态变化被视为分类错误,用户活动状态和位置被认为保持不变。例如,考虑图5(a)中的用户(传感器设备),其只能按照顺时针方向从L1→ L2→ L3→ L4→ L1,移动,如图5(b)所示。给定初始参考点(L1),节点要么保持在同一活动状态(和位置),要么移动至L2。因此,ASMM模块会丢弃对应于位置L3和L4的任何状态变化。此外,仅当相应状态被预测持续时间为 T时,位置才会更新为L2。对于所有状态转换均实施类似的行为。虽然这种方法可能会增加检测状态转换的延迟(取决于 T的取值),但它减少了协作后可能出现的不连贯或不合时宜的活动变化(例如图5(a)中L1处的误差)。
我们的基于IEM2.0‐CASMM的定位方法总结在算法1中。该算法以时间t的加速度数据(acct)、参数windowSize、 ε以及用于基于IEM分类的决策树DT、节点集合N、时间t时的联盟N ′ t、阈值 T和用于CASMM的roadMap作为输入,返回两个向量,分别包含活动序列(actVector)和位置(locVector)。首先,使用DIST函数估计acc值的分布,该函数计算winMin和winMax特征。如果任一特征的百分比变化超过阈值 ε,则使用DT对活动状态(state)进行分类。如果预测的状态不同于最后一次更新的设备状态(lastUpdatedState)以及最后一次存储的网络状态(lastN etworkState),则活动变化可能表明设备位置发生了变化。随后,在N ′ t个邻近设备之间进行协作,以获得多数投票的活动状态。如果 networkState与state值不一致,则将活动变化视为分类错误并予以丢弃。否则,如果状态变化持续一段时间 T,则执行ASMM以验证活动变化并估计设备的位置。如果状态变化与给定的拓扑图(roadMap)不一致,则丢弃该预测,并返回一个NULL值。否则,返回设备的位置,并更新活动和位置向量。
3.3 面向情境感知的事件驱动通信
如上所述,最优的IEM2.0‐CASMM模型是基于定位准确率以及一个优化函数来确定的。该函数旨在满足无线传感器网络系统的应用需求,并设定选择输入值的准则。
算法1: 基于IEM2.0‐CASMM的定位
输入: acct,windowSize, ε,DT ,N ,N ′t, T, roadMap
输出:活动向量,位置向量
repeat
读取传感器的acc t
加速度向量 ←追加(加速度向量, acct)
(窗口最小值,窗口最大值)←分布计算(加速度向量,窗口大小)#评估分布
如果 ((|窗口最小值 −最后更新最小值| ≥ ε ∗最后更新最小值) ∨(|窗口最大值 −最后更新最大值 | ≥
ε ∗最后更新最大值)) then
最后更新最小值 ←winMin 最后更新最大值 ←窗口最大值
状态 ←预测(决策树 ,窗口最小值,窗口最大值)#分类
如果 ((状态 最后更新状态) ∧(状态 最后网络状态)) then
网络状态 ←模式(最后更新状态[1: N ′时间t − 1])#协作
如果 (networkState[T −时间t+ 1: 时间t]== state[T −时间t+ 1: 时间t])
then 位置 ←ASMM(道路图,活动向量,状态)#ASMM 如果 (位置 空值) then
最后更新状态 ←状态 最后网络状态 ←状态
活动向量 ←追加(活动向量,状态) 位置向量 ←追加(位置向量,位置) end end end end
until卸载数据到网关
函数 DIST(加速度向量,窗口大小)返回 (最小值(加速度向量[(时间t −窗口大小 + 1):时间t]),最大值 (加速度向量[(时间t −窗口大小 + 1):时间t]))
参数。在此工作中,我们考虑设备能耗的最小化,并确定适用于基于传感器执行的适当 IEM2.0‐CASMM模型。
大多数基于无线传感器网络的系统被部署用于监测范围达数公里的偏远地区。因此,传感器设备向云网关进行数据包通信是这些设备执行的最高能耗任务。持续向网关进行数据包传输会显著缩短这些电池供电设备的运行时间。然而,大多数传感器数据并不要求足够的时间敏感性来维持持续的实时互联网连接。为此,我们提出一种上下文感知的事件驱动通信方法,用于从无线传感器网络向网关传输数据。我们利用基于IEM2.0‐CASMM的分析所获得的设备位置信息,仅在发生位置变化时才向网关传输数据。这种延迟容忍方法不仅通过减少数据包传输提高了设备的能效,还通过消除对持续互联网连接的需求降低了系统的运行成本。因此,定位精度直接影响设备的能耗。发送一个数据包所产生的能量消耗
数据包到云的计算可以如下所示[28]:
ECL=(e+ β · d2) · bits. (11)
ECL是节点在距离d上向网关发送包含bits位数的数据包所消耗的能耗。变量e表示收发器接收和发送单位数据的能量消耗(与硬件相关), β是一个常数[J/bit.m2]。
如前所述,CASMM方法可以通过设备间协作来提高IEM分类的准确率,进而提高定位准确率。然而,协作本身在发送和接收协作请求及位置更新时会产生通信开销。这些开销可通过以下公式进行估算:
ECO= qn ·((2e+ β · d′2) · bits′ ·(N ′ − 1)+ Eaдд)+(1 − qn) ·((2e+ β · d′2) · bits′ ),
ELO= pn ·(e+ β · d′2) · bits′ ·(N − 1)+(1 −pn) ·(e · bits′ ),
EC=
τ
∑
t=1
(rt ·
N
∑
n=1
(ECL+ ELO)+ st ·
N
∑
n=1
ECO).
(12)
ECO是节点n在N′个节点之间每次协作所消耗的能量,d′是参与设备N′之间的距离,bits′表示每个数据包的比特数,Eaдд是聚合N′个节点位置数据的能量消耗。决策变量qn在节点n发起协作为1,若接收来自其他节点的请求则为0。ELO是节点n在N个设备之间分发位置更新时每次消耗的能量。决策变量pn在节点n预测到位置变化并向其他节点分发数据包时取值为1,若从其他节点接收数据包则为0。注意bits′<比特数的取值不同,因为发送给网关的数据包包含一段时间内累积的传感器数据,而设备间本地发送的数据包仅包含状态信息。此外,d′<的距离更长,因为发送至网关的数据包传输距离大于设备到设备通信的距离。N个设备在规划时间范围 τ内的总通信能耗等于EC。变量rt在时间t预测到位置变化时取值为1,否则为0。类似地,变量st在时间t发起协作为1,否则为0。我们在第5节研究窗口大小 ε和联盟规模 |N′| 对网络能耗的影响。
4 实验设计
在本节中,我们介绍了IEM2.0‐CASMM系统在奶牛场动物定位中的应用。我们描述了应用场景,并讨论了IEM2.0‐CASMM在动物可穿戴传感器设备上的板载实现,随后介绍了基于无线传感器网络的原型设计以及试点研究。
4.1 动物活动监测与定位
实时活动监测和牲畜定位在精准奶牛养殖中的农场本地位置服务中备受推崇,例如行为分析、虚拟围栏以及饲喂管理。如今,动物可穿戴传感器被广泛用于持续监测奶牛的生理状态,以实现疾病的早期诊断和治疗[29]。将动物移动数据与健康监测结果相结合,有助于更好地理解动物行为和健康状况[30]。结合动物位置对生理和行为数据进行综合分析,已被证明能够为农场流程提供重要洞察,并有助于提升整体效率[31]。
4.1.1 应用场景
图6展示了我们的应用场景。我们的无线传感器网络系统由动物可穿戴传感器设备和云网关组成,支持位置感知的数据收集,用于牲畜管理。动物可穿戴设备是一种可扩展的传感器设备,包含用于监测奶牛生理状态和活动能力的传感器。我们提出在项圈设备上实施IEM,以预测奶牛在农场中移动时的活动状态。此外,提出采用设备到设备通信,实现奶牛之间的协作,并执行ASMM,在预测活动状态变化时估计位置。在农场内安装一个网关节点(如图6中挤奶厅内所示),用于从传感器设备收集位置增强数据并上传至云平台进行未来分析。由于典型的农场覆盖面积较大,且与农场流程相关的大部分数据具有延迟容忍性,我们采用第3.3节中讨论的事件驱动通信方法。因此,当奶牛在农场中移动时,传感器数据结合位置信息将被本地存储在项圈设备上,一旦预测到位置变化,数据即被传输至网关。这消除了农场内部对持续互联网连接的需求,这在农村部署中尤为重要。尽管现有的动物可穿戴技术(如RumiWatch [32])也采用延迟容忍通信方式,但其设备每15分钟就将传感器数据传输至云平台,因为这些设备本身智能程度较低,依赖外部(例如基于云的)分析进行定位和行为建模。实施IEM2.0‐CASMM有望降低数据包传输频率,提高设备运行的能效。此外,项圈设备上的实时定位功能可能有助于及时检测奶牛的行为异常,这些异常可能表明应激或其他健康相关问题。因此,我们基于无线传感器网络的方法为未来的智能畜牧养殖奠定了基础。
4.1.2 用于动物定位的IEM2.0-CASMM方法
在参考文献 [12],中,我们评估了IEM(基于直方图的方法)在分类低层次活动(如站立和行走)方面的性能。由于奶牛的移动性是随机的,识别此类低层次活动对于定位而言是不必要的且无关紧要。相反,我们将 IEM(版本2.0)分类器建模为预测奶牛的粗略位置——挤奶厅(M)、放牧区(P)以及挤奶厅与放牧区之间的过渡区(T),如图 6所示。这些位置涵盖了整个农场拓扑结构,并分别对应奶牛进行的三种主要活动——挤奶、放牧和在农场内漫步。3因此,基于IEM的分类有助于识别奶牛的高层次活动状态和位置。
3注意,我们认为整个院区即为挤奶厅,因为奶牛在院区内进行的主要活动是挤奶。
此外,由于奶牛在牛群中移动,我们利用其时空一致性来进行CASMM。考虑一个大小为N的牛群,其中所有奶牛n ∈ N均佩戴项圈设备,并共同从一个状态转移到另一个状态。因此,单个奶牛或N头奶牛的子集即可为整个牛群提供足够的定位信息。我们设想,在牛群中参与的设备集合N ′ ⊆ N形成一个联盟,该联盟根据牛群在任意时刻的位置表现出共同的高层活动。如果任一设备n ∈ N ′预测到活动状态发生变化,且该变化与网络状态不同,则该设备发起协作,使参与设备之间交换状态信息。基于多数投票,设备更新其预测结果,并在需要时执行ASMM。任何位置变化都会传播到所有N个设备。这种协作确保了整个牛群活动状态的一致性,并有望减少分类错误,因为奶牛在不同活动状态之间会复制相似的底层移动模式。例如,当分类器由于行为相似而将奶牛在放牧区内走向饮水槽的状态识别为过渡状态时,CASMM可帮助纠正此类预测错误。
在文献[8],中,尽管用户的行进路线未知,但由于用户在每条路线上遵循固定的移动模式,因此采用ASMM方法基于低层次活动来建立用户轨迹。相反,在奶牛养殖场景中,由于农场拓扑结构的限制,奶牛在挤奶厅与放牧区之间沿着指定路线移动。然而,如上所述,它们在沿路径移动以及在放牧区内放牧时会执行随机的低层次活动(例如行走、站立和坐着)。不过,奶牛遵循一系列固定的高层次活动顺序(例如挤奶、过渡和放牧)。奶牛被带入挤奶厅进行挤奶;挤奶完成后,它们通过路径进入某个放牧区;放牧结束后,奶牛离开放牧区,并沿相同路径返回挤奶厅,如此循环往复。因此,我们提出对ASMM方法进行改进,利用IEM生成的这些高层次活动序列来估计动物的位置,如图7所示。对奶牛的监测始于第1天的挤奶厅位置M0,。在M0,处,奶牛可能停留在挤奶厅内,也可能进入路径区域,即进入过渡状态T0。因此,任何在协作后预测的通往放牧区的状态变化均可忽略。如果在连续 T时间内预测到状态转变为过渡状态(如图7中表示为T, ..Tt),则认为该变化是可行的,并将位置更新为T0。在T0,处,奶牛可能继续处于过渡状态(即在路径上漫步),也可能进入放牧区。因此,任何预测的状态变更为挤奶厅的情况均可忽略。此外,若持续出现进入放牧区的状态变化(表示为P, ..Pp),则予以接受,并将位置更改为P0。类似地,当奶牛返回挤奶厅(M1)进行下一次挤奶时,也遵循相同的逻辑实现从P0到T1的位置更新,依此类推。由于农场主对放牧区的使用遵循特定顺序,
和 (b) 动物可穿戴项圈设备 (c) 云网关。)
表1. 实现细节 设备类型
| |特性|
| —|—|
| 项圈设备|组件 CM5000节点 [33], MPU9255 惯性运动单元 (IMU)[34]|
| 项圈设备|内存 48KB 程序闪存和 1MB 非易失性闪存用于数据存储|
| 项圈设备|电池 2节AA电池|
| 项圈设备|操作系统 TinyOS [35]|
| 网关设备|CM5000节点,树莓派(v. 2B) [36],Wi‐Fi适配器|
组件
被吃草时,IEM2.0‐CASMM 检测到的状态转换及其序列号 1..n可用于确定奶牛挤奶后应前往哪个放牧区。根据所选的放牧区,可以确定路径,并且过渡状态中经过的时间可用于估计在路径上的确切位置。
4.2 现场实验
如前所述,我们的无线传感器网络原型由两种设备组成——可穿戴项圈设备和云网关,如 图8所示。两种设备的设计细节见表1。项圈设备负责动物健康和活动能力的数据采集与板载分析,而网关的作用是通过节点间通信从项圈设备收集传感器数据,并将其上传至云平台以供未来分析。我们在位于爱尔兰科克郡基尔沃思的达瑞戈德赞助的农场部署了该原型系统(纬度:52.168096,经度:‐8.24206)(图9(a))。该农场由爱尔兰农业与食品发展局TEAGASC运营。实验于2017年6月在一群46头奶牛中随机选取的5头荷斯坦‐弗里生奶牛 上进行(使用五个项圈设备),持续五天。在本研究中,我们对项圈设备进行编程,以1赫兹的频率每天采集10小时的奶牛原始加速度数据(与白天挤奶周期一致)。这些数据用于分析奶牛在挤奶厅、过渡区和放牧区的行为,并构建IEM2.0‐CASMM模型以评估其在真实场景中的性能。
利拉伐项圈用于将设备佩戴在奶牛颈部,如图 8(b) 所示。在项圈上附加了配重,以保持设备稳定。加速度计轴的理想方向如下:y轴朝向奶牛前方,z轴朝向侧面,x轴朝下。奶牛遵循固定的挤奶周期,如图 9(b) 所示。每天早晨将奶牛赶入院区进行挤奶。挤奶完成后,奶牛离开挤奶厅,进入等待区,如图 10(a) 所示。当整个牛群完成挤奶后,奶牛被释放至放牧区(图10(b))。图 10(c) 展示了其中两头
地图位于爱尔兰科克郡基尔沃思的Dairygold农场 (b) 奶牛遵循的挤奶周期。)
在院区 (b) 在过渡区 (c) 在放牧区。)
实验奶牛位于一个放牧区内。每天为牛群分配一个放牧区。在实验期间,第1天和第2天牛群被带至NA7放牧区,第3天为NA5放牧区,第4天和第5天为NA3放牧区(如图9(a)所示)。傍晚时分,奶牛被带回院区进行挤奶。在本研究中,网关节点设置在挤奶厅内,当奶牛晚上进入挤奶厅时,设备的数据即传输至网关。通过人工观测记录位置变化的时间点(挤奶厅→过渡区 →放牧区 →过渡区 →挤奶厅),用于以真实位置(即挤奶厅、过渡区和 放牧区)对数据进行标注。这些观测由TEAGASC的合格技术人员完成,他们在处理牛群时确保动物安全。由于我们研究的是动物的高层级定位,因此使用这些时间戳以及实验的开始和结束时间足以对原始加速度数据进行标注。此外,网关会记录每个节点的第一个数据包到达时的系统时间。该记录时间将与项圈设备上的时钟进行比较,以评估时钟漂移情况,如第5.1节所述。对于CASMM而言,需要一张简单的拓扑图,以说明挤奶厅与各个放牧区之间的相对位置关系。在本研究中,我们从TEAGASC获得了Dairygold农场现有的地图,该地图描绘了各个放牧区(由Grasstec设计,如图9(a)所示)。
5 评估
在本节中,我们使用第4.2节所述试点研究期间收集的动物移动数据,评估 IEM2.0‐CASMM方法的性能。我们讨论了用于基于IEM分类的数据探索与特征选择方法,接着介绍了IEM2.0‐CASMM在不同输入参数值下的监督学习和性能分析。所有分析均通过R编程完成。
5.1 数据探索与特征选择
在训练IEM分类器之前,我们对加速度数据进行必要的预处理和特征提取分析。首先,我们使用记录的时间戳为原始数据标注位置(即挤奶厅、过渡区和放牧区)。通过比较传感器设备上第一个数据包的传输时间与相应的系统时间(由树莓派记录),观测到存在正时钟偏移。也就是说,设备在10小时持续时间结束前就已与网关节点关联。这是因为 TelosB设备的设备时钟在TinyOS中的软件实现导致了每秒24毫秒的偏移[37],。此外,该值受温度、湿度和振动等环境因素的影响。图11展示了理论与实际漂移情况。可以看出,观测到的漂移与理论值非常接近,但略低于预期值。在10小时期间内累积了大约14分钟的偏移,必须对此进行校正,以正确标注加速度读数。我们还计算了不同时间持续下的每秒漂移,如图11所示。尽管该值最初有所增加,但在较长时间段后趋于稳定。我们使用R语言中的lm函数对漂移与时间持续之间的线性依赖关系进行建模,如下所示。然后我们计算每次状态转换之前的漂移值,并据此对数据进行标注:
drif t(min)= −0.158+ 0.023 ∗ duration(min).
接下来,我们检查原始数据中的异常值。图12(a) 显示了去除异常值后奶牛在运动平面内的加速度。可以看出,在五天内,每个状态(即挤奶厅、放牧区和过渡区)的值的分布各不相同。这是由于环境因素的影响,例如天气条件和放牧区内牧草质量,这些因素会影响奶牛行为。我们对加速度数据进行重新校准,以减少环境影响对分类器性能的影响。从 图12(a) 可以明显看出,三种状态的加速度测量值之间存在显著重叠。图 12(b) 和 12(c) 展示了所有状态下 z 轴加速度的滑动窗口均值和方差。我们使用斯皮尔曼相关系数来衡量挤奶厅与过渡区、挤奶厅与放牧区数据在 y 和 z 轴方向(即运动平面)上的均值和标准差之间的相关性。该测试表明存在一个
奶牛在不同活动状态下的加速度在y-z平面内的变化 (b)accz的滑动窗口均值 (c)accz在窗口大小 windowSize= 60时的滑动窗口方差)
状态之间的相关性适中。因此,我们推导出在挤奶厅和过渡区以及放牧区数据中整个数据集上y轴和z轴加速度的均值和标准差之间的线性依赖关系,如图y和z所示。然后将挤奶厅的均值设为零,并使用线性模型对三种状态的数据进行重新校准。13。
随后,我们将注意力转向分类的特征选择。我们使用受试者工作特征(ROC)准则来测试x轴加速度(accx)、y轴加速度(accy)、z轴加速度(accz)以及合加速度(√ acc2 x+acc2 y +acc2 z)在不同分割阈值下的诊断能力。由于这是一个多分类问题,我们进行成对比较(一种状态相对于所有其他状态)。尽管accx和合加速度未能在三种状态之间表现出明显的区分,accy和accz在所有节点上均实现了合理的分离质量,如图14所示。对于所有节点,z轴的曲线下面积大于y轴,表明其分类性能更优。因此,我们的IEM实现基于从accz测量值中提取的特征值。z轴反映了奶牛颈部的水平运动。不同状态之间的行为差异可能是由于奶牛在放牧区吃草以及挤奶期间进食饲料时的运动所致。图15提供了在整个数据集中放牧区状态和过渡状态加速度数据的进一步洞察。虽然图15(a)显示了在放牧状态下,滑动窗口测量值中较低 α值的双组分高斯混合占主导地位,图15(b)则说明了
放牧区状态内双组分混合的比例 (b) 过渡区与双组分放牧区值的混合拟合。)
两种混合物及过渡区 prevalent 的单组分混合的主要组件参数(α= 0.00)。混合中主要成分的主导性以及测量值之间的显著重叠表明,在动物活动分类中应使用IEM‐2.0而非 ClassAct。因此,我们采用winMin和winMax特征进行分类,并研究IEM2.0‐CASMM方法在不同输入参数取值下的性能。
5.2 监督学习
在选择分类特征后,我们针对不同的参数值集合对IEM2.0‐CASMM模型进行训练和测试。我们首先分析窗口大小和 ε对IEM性能的影响,然后分析联盟规模对CASMM性能的影响。
IEM的准确率主要由输入参数windowSize和 ε决定。窗口大小会影响最小值和最大值的计算,从而刻画信号分布。较小的窗口可能无法捕捉邻近区域的局部最小值和最大值,而较大的窗口会增加历史数据的影响,并可能遗漏反映实际状态变化的微小波动。因此,增大窗口大小可能会减少状态内的分类错误,但代价是增加状态转换附近的跨状态错误。
为了分析windowSize的影响,我们针对每台设备在三种窗口大小(10s、30s、60s)下训练 IEM分类器DT。首先,我们计算每条轨迹在每个窗口大小下的winMin和winMax对。然后,我们将每台设备在五天内的数据文件按窗口大小进行合并,并通过分层抽样生成训练集。每个训练集包含总数据的10%
样本包含相等数量的挤奶厅、放牧区和过渡区测量值。这是为了确保分类器能够公平地学习三种状态,避免放牧区数据占主导地位而掩盖其他状态的行为。因此,我们为五个节点中的每一个生成对应三种窗口大小的三个训练集。采样后的数据被输入到C5.0 分类器以构建决策树。我们设定 ε= 0并研究窗口大小对分类准确率的影响。性能评估针对所有五天的每条数据轨迹(文件)进行,使用相应的DT(每个设备和windowSize)。将 ε设为0使我们能够评估给定windowSize下所有可能分布的分类器性能。训练过程重复十次,即每个节点和窗口大小生成10个DT,用于性能验证。
接下来,我们介绍 ε参数,并研究其对IEM性能的影响。 ε的取值控制分类频率。较小的 ε值会将分布中的微小变化都输入分类器,而较大的 ε值则能在不假设活动状态发生变化的情况下容纳分布的显著变化。因此,尽管较大的 ε值可能通过减少分类次数来改善系统的能耗特性,但也可能因状态转换检测延迟而导致错误增加。此外,由于分类频率较低,状态内的错误持续时间也更长。我们评估了 ε在分类次数以及分类准确率方面的影响,测试了三个取值:0.2、0.4和0.6,分别对应信号分布变化的20%、40%和60%,使用上述训练的DT进行实验。虽然winMin和winMax是针对每个accz读数分别计算的,但只有当更新后的值与先前估计值之间的差异超过 ε时才执行分类。在下一次分类之前,奶牛被认为处于与上次识别出的状态相同的活动状态。此外,由于我们采用了事件驱动通信方式,我们研究了windowSize和 ε对网络向云发送的数据包传输总数(PCL)以及应用CASMM之前的相应EC的影响。
最后,我们评估CASMM在定位方面的性能。如第3.2节所述,我们采用等权重的多数投票机制进行协作活动状态检测。相应地,我们针对不同联盟,按天并按 ε为窗口大小60 秒估计共享活动状态。协作的性能随联盟规模(即参与设备的数量)而变化。由于我们共有五个节点,因此分析了四种不同联盟规模——N′= 2/3/4/5下协作对状态检测准确率的影响。此外,我们研究其对PCL、网络内协作期间的数据包传输总数(PCO)以及更新传播 (PLO)的影响,以及相应的通信能耗(ECL、ECO、ELO和EC)。在选定合适的联盟规模后,我们评估ASMM在定位方面的性能。ASMM的效果由阈值参数 T决定。为了设定T的值,我们评估每个状态下误差的分布情况,并使用第八个十分位数作为每个状态的阈值。然后,在协作后每次检测到状态变化时,执行ASMM(如图7所示)。我们评估ASMM在不同 ε下对定位精度、PCL和EC的影响。
5.2.1 窗口大小的影响
为了测试IEM在不同窗口大小下的性能,我们使用适当的 DT对整个数据集中的每个(winMin,winMax)组合预测活动状态。通过将每种活动的预测状态与观测状态进行比较,计算分类误差,以及每个数据文件每天的总轨迹误差。该评估使用上述生成的10个DT模型重复十次迭代。图16展示了十次迭代中所有轨迹的分类错误。图16(a)显示了每种活动状态的错误。随着窗口大小从10秒增加到60秒,每种状态的总体误差均有所减少。当windowSize= 10时,过渡状态的中位误差为11%,而当windowSize = 30和windowSize= 60时,该值分别降低至3%和1.5%。同样地,
放牧区和挤奶厅状态的中位误差从windowSize= 10时的32%和24.3%分别降至windowSize = 30时的16.8%和5.9%,以及windowSize= 60时的8.6%和3.1%。这是因为时间窗口过小,无法正确捕捉局部最小值和最大值。因此,信号的计算分布遗漏了附近区域的短暂波动,进而影响分类准确率。虽然在windowSize= 60时过渡状态和挤奶厅状态的中位误差较低,但放牧区状态的中位误差略高,某些轨迹的误差甚至高达31.7%。通过检查轨迹发现,这些错误大多数是由活动状态内的误分类引起的,而不是由于状态转换检测延迟导致的误分类。这是因为分类器难以区分放牧区内某些静止行为和长距离行走实例(例如,奶牛在放牧区一角的饮水槽之间来回行走)与分别主要出现在挤奶厅和过渡区活动状态中的移动模式。图16(b)展示了所有轨迹的总误差(三种状态)。在windowSize= 10时中位误差为 30.2%,当窗口大小增加到30秒和60秒时,该值分别下降至15.5%和8.1%。此外,如图所示,总误差与放牧区的误差非常接近,因为在任何轨迹中放牧区构成了大部分数据点。结果表明,虽然windowSize= 10太窄,无法捕捉动物的活动状态,但windowSize= 60(即 60个传感器读数)能够以超过90%的准确率识别行为。60秒的窗口意味着一组60个读数,因为我们以非常低的1Hz频率采集数据。然而,10秒的窗口大小是我们分析的下限,在此情况下分类基于十个读数进行。这是一个极端情况,包含在分析中是为了说明我们技术的适用范围。分析表明,尽管读数集合较小,我们的技术仍能正确分类70%的观测结果。然而,建议在进一步分析和基于CASMM的定位中使用较大的窗口大小(即30秒和60秒)。由于典型的活动分类器使用高频惯性数据(通常为10Hz),我们认为我们的方法在不同窗口大小下也能很好地适用于商用活动追踪器。
5.2.2 ε的影响
如上所述, ε的值控制分类的频率。它在假设活动状态不变的情况下,设定信号分布中可接受变化的阈值。我们研究了 ε对三种窗口大小下分类频率和准确率的影响。分析结果汇总见表2。正如预期,对于固定的窗口大小,随着 ε值的增加,每条轨迹中分类次数(计算次数)占总读数的比例减少。当 ε= 0.2 增加到 ε= 0.6 时,windowSize = 10对应的减少百分比的中位数值从77.5%上升至89%;也就是说,仅需11%
表2. IEM(无协作情况下)的性能摘要 ε 0
| 指标|窗口= 10s|窗口= 30s|窗口= 30s|窗口 = 60s|
| —|—|—|—|—|
| 指标|ε= 0.2 ε= 0.4 ε= 0.6|ε= 0.2 ε= 0.4 ε= 0.6|ε= 0.2 ε= 0.4 ε= 0.6|ε= 0.2 ε= 0.4 ε= 0.6|
| 压缩率 (%)|77.5 85.0 89.0|92.1 95.0 96.2|92.1 95.0 96.2|96.2 97.5 98.2|
| 误差 (%) T P M|11.9 12.0 12.0|4.4 6.1 7.0|4.4 6.1 7.0|2.5 3.4 7.5 9.7 11.5 12.4 7.6 11.3 14.1|
| 误差 (%) T P M|31.9 32.5 32.5|17.2|18.6 19.1 12.6 13|2.5 3.4 7.5 9.7 11.5 12.4 7.6 11.3 14.1|
| 误差 (%) T P M|27.1 27.6 28.9|9.0|18.6 19.1 12.6 13|2.5 3.4 7.5 9.7 11.5 12.4 7.6 11.3 14.1|
| PCL ‐ 场景P1|8,438 6,350 4,963|2,693 1,835 1,355|2,693 1,835 1,355|998 6
基于雾分析的轻量级定位
1671

被折叠的 条评论
为什么被折叠?



