Good Enough to Learn: LLM-based Anomaly Detection in ECU Logs without Reliable Labels

文章主要内容总结

本文聚焦汽车电子控制单元(ECU)通信日志的异常检测,提出了一种基于解码器的大型语言模型(LLM)解决方案,以应对该领域缺乏专用LLM和标注数据不一致的核心挑战。

研究背景方面,ECU通过多种协议(如UDP、TCP等)进行通信,其日志异常(如延迟、缺失消息)检测需考虑时间间隔、负载等多因素,传统基于规则的方法难以适应系统复杂性。

核心方法采用两阶段训练:

  1. 预训练阶段:基于Qwen2架构构建解码器-only模型,以ECU的UDP通信日志为语料,通过“下一个token预测”任务学习ECU通信的“语言规则”,采用Byte Pair Encoding(BPE)进行分词,词汇量为408。
  2. 微调阶段:引入熵正则化技术,增强模型对已知异常的不确定性(提高困惑度),同时保持正常场景的一致性;使用LoRA进行参数高效微调,以top-k和困惑度作为异常检测指标(偏离正常行为的时间偏差视为异常)。

实验结果显示,Qwen系列模型(1.3B参数)在预训练阶段表现最优(下一个token预测准确率98.62%),BPE分词器在性能与可扩展性上平衡最佳,熵正则化相比对比正则化在异常检测召回率上更优(区域级召回率81%),能有效识别延迟、缺失等时间相关异常。

创新点

  1. 解码器-only异常检测架构:相比BERT等编码器模型,更擅长捕捉序列依赖和长距离循环模式,适合检测ECU通信中的周期性异常。
  2. 处理不一致标注
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值