航空认证与大屠杀档案知识图谱:语义网技术的应用探索
1. RACK工具的查询与报告功能
RACK工具包含超30个预定义查询,以节点组形式存在,在清单摄取时预加载到SemTK节点组存储中。这些查询用途多样:
-
基数检查后续查询
:部分查询用于跟进基数检查,能查询违反特定基数约束的数据实例并提供额外信息,如无描述的需求,这对排查摄取问题很有用。
-
复杂约束检查查询
:有些检查约束的查询比在SADL中简单表达更复杂,例如检查抽象超类(如需求)的实例。
-
证据结构展示查询
:可展示证据结构,以实体(如需求、系统或危险)的运行时约束为输入,输出树状或表格形式,显示需求或系统之间的关系。对于危险,还能显示其来源实体和缓解需求树。
-
保证案例证据检查查询
:用于检查保证案例中的证据,如查找未通过测试、有失败情况或根本未测试的需求。这些查询节点组既实用,又能为用户手动探索数据或基于RACK API构建工具时提供编写示例。
节点组可与特殊功能组合成报告,报告可存储为JSON文件,拖放到SPARQLgraph中,或存于节点组存储中通过ID访问。SPARQLgraph内的简单编辑器(使用jsoneditor)允许用户组合影响其特定角色的查询,如数据是否正确加载、证据是否完整、系统是否由通过测试的需求管理等,并一步重新运行查询组。特殊功能包括前面提到的基数检查器和每个类实例数量的简单计数。每个节点组可作为SELECT DISTINCT查询输出到表格,或作为CONSTRUCT查询输出到网络图。对于表格,可通过简单的行计数约束定义成功或失败,如查询不良数据(如无来源的接口)无结果则为成功,有结果则标记为失败并包含结果表格。报告虽不能替代基于RACK构建的证据检查应用程序,但能一步运行大量查询,输出易查看问题的页面,并提供一定程度的交互(如表格排序和过滤)。
2. RACK的影响与经验教训
RACK在ARCOS研究社区广泛应用,众多团队参与其中:
-
数据提供与本体扩展
:公共本体允许数据提供者(TA1团队)摄取证据,部分团队还可扩展本体。如洛克希德·马丁的CertGATE工具生成证据保证案例片段(EACFs)并摄取到RACK;SRI的DesCert团队创建广泛的本体扩展以捕获其众多工具产生的证据。
-
证据接口的作用
:RACK的证据“接口”使软件和文档分析工具(如GrammaTech领导的A - CERT团队开发的工具)能统一捕获证据声明,将声明与相关设计和实现元素关联,并提供支持声明的原始证据。
-
保证案例研究团队的集成
:保证案例研究团队(TA3s)也广泛将RACK集成到其工具中。如STR的ARBITER自动从RACK收集数据,按保证推理策略组织,通过基于浏览器的GUI向最终用户展示候选保证案例;RTX的AACE自动保证案例框架利用RACK提供的数据实例化安全案例模式;霍尼韦尔的Clarissa工具将RACK证据映射到逻辑编程,带来研究突破。
在ARCOS项目中,作为证据管理者和本体维护者,发现用户在三元组转换方面需要帮助。非语义专家将数据存入三元组存储有困难,要求用户以三元组形式提供认证证据需大量培训和调试,可能影响项目。因此引入SemTK和默认类摄取模板,用本体将CSV文件映射到三元组并进行大量验证。为使工具可编程交互,提供Java和REST API以及基于Python的命令行界面,但部分用户安装仍有困难。Dash - 8为基础的RACK UI网页改变了这一状况,将数据摄取变为一键式过程,数据提供者可专注提供高质量数据。用户只需将本体文件和数据文件压缩成摄取包,加上列出底层模型范围和加载步骤的清单即可。还在开发RITE(RACK集成认证环境),集成SADL和RACK,方便用户编写或修改本体,通过示例数据快速验证其可用性,也有助于用户组合可能包含数百个数据文件的摄取包。
3. 大屠杀档案知识图谱的背景与目标
研究大屠杀面临挑战,因其资料多样且分散。EHRI项目的主要成果之一EHRI Portal是用于关联和整合大屠杀相关档案材料元数据的平台。为探索关联开放数据(LOD)模型在分散数据访问和与语义网更广泛集成方面的优势,将EHRI Portal的档案元数据转换为知识图谱(KG),使其与新的ICA概念模型“记录在上下文中”(RiC)对齐。该工作旨在将大屠杀数据引入语义网,让合作机构评估其能力并可能采用,使该领域更具互联性。
4. 相关工作
许多工作涉及将历史数据建模为KG,但针对大屠杀相关档案材料的KG较少。
-
其他历史数据KG
:Europeana提供不同类型文化遗产材料的元数据,但对许多研究者来说细节不足,且不像EHRI那样针对特定主题材料进行上下文关联。关于第二次世界大战,有研究用链接算法以LOD形式丰富二战藏品的事件信息,WarSampo提供芬兰二战KG,整合多种数据源,通过单一网页界面提供服务,该KG从不同角度(如事件、人物、军队单位、地点等)建模。
-
大屠杀相关局部举措
:近年来出现了一些针对特定地区或国家的大屠杀相关举措,也有更跨国视角、涉及类似主题(如犹太材料)的平台(如Yerusha),但这些平台之间缺乏联系,给用户访问信息和机构更新元数据带来困难。
在文化遗产领域,出现了许多概念模型、词汇表和本体,如CIDOC - CRM、PROV - O、FRBR、NIE - INE、ROAR或ARKIVO等。针对档案,有将编码档案描述(EAD)XML模式映射到这些本体的尝试,如将EAD转换为CIDOC - CRM,但CIDOC - CRM原用于博物馆对象互操作性,与档案的元数据等效性建立有限。最近发布了从EAD到记录在上下文中本体(RiC - O)的转换工具,使用XSLT样式表进行映射。EHRI扩展了ICA标准以满足特定需求,因此选择特定领域的转换,后续可基于共同性作为EAD到RiC - O的映射分享给整个社区。
EHRI项目内部曾多次尝试使用语义和/或RDF技术。EHRI使用图数据库(Neo4j)作为底层数据存储,虽不是原生三元组存储,但有一些共同特征。曾两次尝试将内部Neo4j模式自动映射到LOD格式,一次使用SAIL(存储和推理层)API接口,另一次使用NeoSemantics(n10s)Neo4j插件,但因兼容性问题或查询性能和可扩展性限制未投入生产。最近有一项工作旨在丰富门户中与集中营和隔离区控制词汇相关的数据,将其与Wikidata链接并与GeoNames进行地理参考,虽未完全将EHRI Portal数据转换为RDF,但为当前工作奠定了基础。
下面用mermaid图展示RACK数据摄取流程:
graph LR
A[用户准备数据] --> B[压缩为摄取包]
B --> C[通过RACK UI上传]
C --> D[SemTK和模板转换]
D --> E[数据存入RACK]
表格展示RACK相关团队及工具:
| 团队 | 工具 | 作用 |
| ---- | ---- | ---- |
| 洛克希德·马丁 | CertGATE | 生成EACFs并摄取到RACK |
| SRI | DesCert | 创建本体扩展捕获证据 |
| GrammaTech | A - CERT | 开发工具捕获证据声明 |
| STR | ARBITER | 自动收集和组织RACK数据 |
| RTX | AACE | 利用RACK数据实例化安全案例模式 |
| 霍尼韦尔 | Clarissa | 将RACK证据映射到逻辑编程 |
航空认证与大屠杀档案知识图谱:语义网技术的应用探索
5. 知识图谱的构建与挑战
将EHRI Portal的现有数据转换为与RiC概念模型对齐的知识图谱,这一过程面临着诸多挑战和限制。
-
数据转换挑战
:在将数据转换为知识图谱时,需要处理数据的多样性和复杂性。不同来源的档案材料可能具有不同的格式和结构,如何将这些数据统一转换为符合RiC模型的知识图谱是一个关键问题。例如,一些档案可能存在缺失值、不一致的数据格式等问题,需要进行数据清洗和预处理。
-
模型对齐难题
:虽然RiC是一个通用的概念模型,但在将其应用于大屠杀档案领域时,可能需要进行适当的调整和扩展。EHRI扩展了ICA标准以满足特定需求,这意味着在将数据与RiC模型对齐时,需要找到合适的映射关系。例如,某些特定的大屠杀相关概念可能在RiC模型中没有直接对应的表示,需要进行自定义的映射。
为了解决这些问题,需要采取一系列的措施:
-
数据清洗与预处理
:对原始数据进行清洗,去除噪声和不一致的数据。可以使用数据挖掘和机器学习技术来识别和处理缺失值和异常值。例如,通过统计分析和模式识别来填充缺失的字段。
-
定制化映射
:根据大屠杀档案的特点,对RiC模型进行定制化的扩展和映射。这可能需要领域专家的参与,以确保映射的准确性和合理性。例如,定义新的类和属性来表示特定的大屠杀相关概念。
未来,随着技术的发展和数据的不断积累,有望进一步优化知识图谱的构建过程,使其更好地适应大屠杀档案研究的需求。例如,利用人工智能和自然语言处理技术来自动提取和整合档案中的信息,提高知识图谱的构建效率和质量。
6. 知识图谱的应用与前景
将大屠杀档案元数据转换为知识图谱具有重要的应用价值和广阔的前景。
-
数据集成与共享
:知识图谱可以将分散在不同机构和平台的大屠杀档案数据进行集成和整合,实现数据的共享和互操作性。这将大大提高研究者获取和利用数据的效率,促进跨机构和跨领域的合作研究。例如,不同国家的档案馆可以通过知识图谱将各自的档案数据进行关联和共享,为全球范围内的大屠杀研究提供更全面的资料。
-
知识发现与探索
:通过知识图谱,研究者可以更深入地挖掘和分析大屠杀档案中的信息,发现潜在的知识和关联。例如,通过对人物、事件和地点之间的关系进行分析,可以揭示大屠杀的历史脉络和背后的社会结构。知识图谱还可以支持智能搜索和推荐功能,帮助研究者快速找到相关的档案资料。
-
教育与公众参与
:知识图谱可以作为一种教育资源,向公众传播大屠杀的历史和教训。通过可视化和交互式的展示方式,让公众更直观地了解大屠杀的真相和影响。例如,开发基于知识图谱的教育游戏和应用程序,吸引更多的人参与到大屠杀研究和纪念活动中来。
随着越来越多的机构和研究者采用知识图谱技术,大屠杀档案领域将变得更加互联和开放。未来,知识图谱有望成为大屠杀研究的重要工具和基础设施,为推动该领域的发展做出更大的贡献。
下面用mermaid图展示知识图谱的应用流程:
graph LR
A[知识图谱构建] --> B[数据集成与共享]
B --> C[知识发现与探索]
C --> D[教育与公众参与]
表格展示知识图谱应用的优势:
| 应用领域 | 优势 |
| ---- | ---- |
| 数据集成与共享 | 提高数据获取效率,促进跨机构合作 |
| 知识发现与探索 | 深入挖掘信息,支持智能搜索 |
| 教育与公众参与 | 传播历史教训,增强公众参与度 |
7. 总结
本文介绍了航空认证领域的RACK工具以及大屠杀档案领域的知识图谱构建工作。RACK工具通过预定义查询和报告功能,为航空认证提供了强大的支持,在ARCOS研究社区得到了广泛应用。同时,在数据摄取和管理方面,通过引入SemTK和相关模板,以及开发RACK UI网页和RITE集成环境,解决了用户在三元组转换和数据加载方面的困难。
在大屠杀档案领域,将EHRI Portal的元数据转换为知识图谱,旨在探索关联开放数据模型的优势,为该领域的研究提供更好的数据支持。虽然在知识图谱构建过程中面临着一些挑战,但通过数据清洗、定制化映射等措施,可以逐步解决这些问题。知识图谱在数据集成、知识发现和教育公众等方面具有重要的应用价值,未来有望为大屠杀研究带来新的突破和发展。
总的来说,语义网技术在航空认证和大屠杀档案研究等领域都展现出了巨大的潜力,通过不断的探索和实践,将为这些领域的发展带来新的机遇和挑战。
超级会员免费看
58

被折叠的 条评论
为什么被折叠?



