15、基于语义相似性技术聚合工业安全发现

c7d8e9

于 2025-09-02 06:43:18 发布

阅读量42

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言处理实战精要文章标签：语义相似性工业安全安全发现

本文链接：https://blog.youkuaiyun.com/c7d8e9/article/details/151097124

自然语言处理实战精要专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于语义相似性技术聚合工业安全发现

1. 引言

在工业软件安全管理中，处理安全发现（security findings）面临诸多挑战，如确保数据质量的一致性、根据项目需求对行动进行可靠优先级排序等，其中处理重复的安全发现是关键问题之一。为解决这一问题，我们提出了基于语义相似性的聚合方法，并将其应用于实际工业项目中。

2. 背景与必要性

静态应用安全测试（SAST）的发现聚类结果受限于测试生成的安全报告的现实程度以及去重等主观任务的外部有效性。为提高SAST发现聚类结果，需要改进表示问题的发现字符串的语义内容。工业软件开发项目使用多种静态安全测试工具，但动态工具使用量有限，因此应用的聚合方法应针对SAST发现进行优化。潜在语义索引（LSI）在SAST发现的重复识别中表现出色，且对动态应用安全测试（DAST）发现也有良好性能，是进一步研究的首选方法。

3. 实践中的约束

将研究成果应用于工业实践时，安全发现的聚合受三个约束影响：
- 自动化处理 ：发现聚类的自动化处理至关重要，LSI相似性技术必须嵌入应用程序中，该应用程序需负责发现的预处理以及聚类的后处理，以确保传递性。
- 聚类修正 ：相似性技术仍容易出错，尤其是当特征包含的语义内容差异显著时。因此，需要一种修正聚类的方法，而这种修正所需的必要信息只能由分析发现及其上下文的用户提供，所以聚类必须能够通过用户输入进行修正。
- 持续维护 ：DevOps的“持续一切”原则影响安全测试，新的包含未知和已知发现的报告将不断出现。为进行精确且资源高效的