知识图谱是近年来新兴的技术,其应用空间很大,目前在企业安全运营领域还处于探索起步阶段。本文结合自身的工作经验探讨知识图谱的落地思路与方案。
1、背景介绍
知识图谱是由谷歌提出的概念,其本质是由实体(概念)及实体(概念)间关系,以及关联属性组成的一种语义网络,通过结构化的数据组织结构,以有效表示实体(概念)之间的语义关联关系。可形式的化表示为:
其中每个三元组代表一个知识单元,表示了源实体 Subject 与目的实体 Object 之间,具有关系 Relation。
在海量的安全数据轰炸下,智能安全运营需要强烈的可视化需求,当发现攻击行为的时候,需要涉及到各种行为之间因果依赖关系的深度搜索,综合多个方面安全数据的关联分析,该领域十分依赖于安全专家的经验。除此之外随着高级持续威胁的不断发展,复杂的网络攻击往往隐藏在复杂的关系网络数据中。知识图谱就是为此类问题所设计的,因此知识图谱可以推动智能安全运营的发展。
以下为安全知识图谱技术路线图:
2、技术方案选型
主要考虑以下因素:
- 开源项目,对商业应用友好。拥有对源代码的控制力,才能保证数据安全和技术的自主可控性,便于二次开发;
- 支持集群模式,具备存储和计算的横向扩展能力。业务数据量可以达到千万以上点边总数,吞吐量可达到数万 qps,单节点部署无法满足存储需求;
- 在线OLTP 类图查询服务极简单 OLAP 类图查询能力。探索分析场景下,为确保分析得时效性,不能接受太高的查询响应时间;
- 具备批量导入数据能力。原始数据一般存储在 Hive 等数据仓库中,必须有快速将数据导入到图存储的手段。
Spark 作为通用大数据计算引擎,在实时计算、批处理、图计算方面都有非常优秀的表现,并且整体技术生态的兼容性更好。Nebula Graph 是一个开源可靠的分布式、线性扩容、性能高效的图数据库。因此,最终的技术方案选用 Spark作为图谱构建与图算法引擎,Nebula Graph 做图存储与交互式分析平台。
<
最低0.47元/天 解锁文章
1008

被折叠的 条评论
为什么被折叠?



