jump7
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
59、探索 FindSampo:考古发现的语义化平台
FindSampo 是一个面向公众考古发现的语义化平台,旨在通过数据映射与RDF转换技术,将芬兰的众包考古数据与国际本体(如AAT和FISH)关联,实现数据的标准化与跨国互操作。平台提供基于本体的分层分面搜索及多种可视化工具(如聚类地图、热图、时间线等),支持用户从‘发现’、‘地图’和‘遗址’三个视角探索超过3000个考古发现。尽管面临SPARQL端点性能瓶颈,系统通过Python脚本自动化数据处理,并计划扩展硬币专题视角,未来将持续优化性能并融入泛欧洲数字文化遗产服务体系。原创 2025-10-07 11:43:02 · 36 阅读 · 0 评论 -
58、FindSampo:基于关联数据的考古文物发现分析与传播平台
FindSampo是一个基于关联开放数据(LOD)的考古文物发现分析与传播平台,旨在整合公众通过金属探测等方式发现的考古数据,服务于公众、文化遗产专业人员和研究人员三大群体。该平台采用Sampo模型构建,具备高效的数据整合能力、多利益相关者支持机制以及良好的模型通用性,已在芬兰成功应用并展现出在知识发现、文化遗产管理和公众参与方面的潜力。尽管面临资源限制、本体协调和数据质量等挑战,FindSampo仍通过技术创新和国际化拓展,推动数字人文领域的发展,并为未来考古学研究提供了可扩展的技术框架。原创 2025-10-06 09:21:23 · 47 阅读 · 0 评论 -
57、构建个性化医学知识图谱:多本体匹配策略解析
本文探讨了在个性化肿瘤学领域构建综合性知识图谱的整体本体匹配策略。研究整合了28个涵盖19个生物医学子领域的公开本体,比较了全局成对对齐(GPA)、簇内成对对齐(CPA)和簇内增量对齐(CIA)三种策略。实验结果表明,基于谱聚类的CPA和CIA方法在显著减少对齐任务数量和运行时间的同时,仍能生成高质量的知识图谱。其中CIA策略总耗时不足2.5小时,比GPA快14倍,且映射覆盖率达CPA的88%。文章还分析了现有匹配系统的局限性、聚类策略的优势以及映射质量的影响因素,并提出了未来在参考对齐构建、本体加载优化和原创 2025-10-05 11:57:49 · 42 阅读 · 0 评论 -
56、多本体匹配构建个性化医疗知识图谱
本文探讨了基于多本体匹配构建个性化医疗知识图谱的方法,提出利用AgreementMakerLight(AML)系统扩展实现集群内成对对齐(CPA)和集群内增量对齐(CIA)两种整体匹配策略。针对生物医学本体匹配面临的质量、覆盖范围和可扩展性挑战,通过聚类与增量合并优化效率,并在实验中验证了CIA策略在显著缩短匹配时间的同时保持较高映射覆盖范围的有效性。研究为构建支持可解释AI的集成语义模型提供了可行路径,推动个性化医疗中多源异构数据的知识融合与应用。原创 2025-10-04 09:43:35 · 32 阅读 · 0 评论 -
55、基于Spark的大型RDF三元组存储库的CONSTRUCT查询性能
本文探讨了现有RDF三元组存储库(如Virtuoso和GraphDB)在大规模数据下执行CONSTRUCT查询的局限性,提出了一种基于Spark的新型模块化架构TESS。TESS通过分布式存储、事务管理、并行查询引擎等组件,支持完整的SPARQL 1.1 CONSTRUCT查询,并保证数据更新的原子性和可扩展性。实验表明,TESS在串行和并行正向推理中均能高效处理大规模RDF数据集,显著优于传统存储库。未来工作将聚焦于CPU与GPU架构下的性能对比及高负载场景下的本体模块化性能研究。原创 2025-10-03 09:02:42 · 30 阅读 · 0 评论 -
54、知识图谱与CONSTRUCT查询性能研究
本文探讨了知识图谱中CONSTRUCT查询的性能挑战与优化方案。基于RDFox的高效特性,研究聚焦于大型知识图谱OntoSIDES上的CONSTRUCT查询应用,揭示了现有SPARQL实现(如Virtuoso和GraphDB)在处理大规模数据时的性能瓶颈。为此,研究人员设计并实现了基于Spark的新型三元组存储架构TESS,支持并行计算与部分ACID属性,显著提升了CONSTRUCT查询及前向链推理的效率。实验结果表明,TESS在大规模数据集上表现出优越性能,尤其在并行推理场景下大幅缩短执行时间。未来工作将原创 2025-10-02 16:33:30 · 25 阅读 · 0 评论 -
53、RDFox:高效的知识图谱处理引擎
RDFox是一款高效的知识图谱处理引擎,在数据加载、推理和查询回答方面表现出色。其支持多源并行数据导入、基于半朴素算法的并行物化推理,以及采用侧向信息传递的优化SPARQL查询引擎。在道琼斯的应用中,RDFox展现了高性能查询响应、实时增量更新和强大数据集成能力。尽管面临并行化加速瓶颈和大规模复杂查询挑战,未来仍可通过算法优化、GPU等硬件适配及跨领域应用拓展持续提升性能与适用范围。原创 2025-10-01 12:40:15 · 67 阅读 · 0 评论 -
52、道琼斯知识图谱:构建、应用与RDFox系统
道琼斯通过构建包含约26亿三元组的RDF知识图谱,整合公司信息、新闻信号等多源异构数据,并利用RDFox系统实现高效的数据加载、增量更新与复杂查询响应。该知识图谱支持竞争关系识别、破产分析等应用场景,结合ShEx建模与SPARQL查询,显著提升金融情报产品的深度与效率。未来计划拓展数据源、增强推理能力并优化用户体验,进一步推动智能金融应用的发展。原创 2025-09-30 09:23:18 · 76 阅读 · 0 评论 -
51、流推理平台:从自定义场景到实际应用
本文介绍了流推理平台(SRP)从自定义场景到实际应用的完整流程,涵盖交通流量检测、物体状态识别和驾驶场景理解等任务。通过comma2k19数据集示例,展示了数据准备、语义标注和消息广播的工作流程,并结合SR Hackathon 2021的实践案例,总结了多团队解决方案与经验教训。平台以流推理为核心设计,支持可扩展的自定义时间序列处理,并与现有RDF流基准系统对比展现了优势。未来发展方向包括引入基准测试、支持概率流、构建社区数据存储库及优化语义化流程,旨在推动自动驾驶与V2X等领域的流推理研究与应用。原创 2025-09-29 15:09:58 · 34 阅读 · 0 评论 -
50、流推理游乐场:助力流推理方法评估与应用
本文介绍了流推理游乐场(SRP),一个开源的、灵活的框架,旨在支持多种流推理方法的评估与应用,涵盖RSP、逻辑编程和复杂事件检测等。平台采用客户端-服务器架构,具备消费者无关性、可扩展性和高可用性,提供交通管理、车辆信号处理和自定义时间序列流等多个具有挑战性的场景。通过2021年流推理黑客松的案例研究,验证了其在实际应用中的有效性与易用性,并展示了相较于传统RSP平台的优势。未来将持续优化平台以支持更广泛的流推理研究。原创 2025-09-28 15:44:07 · 23 阅读 · 0 评论 -
49、捕捉嗅觉语义:Odeuropa数据模型
Odeuropa数据模型是一个用于捕捉和表示嗅觉语义的创新框架,基于CIDOC CRM和CRMsci扩展,采用OWL格式实现并开放共享。该模型通过RDF*实现信息与来源的分离,利用SKOS格式的多语言受控词汇表消除歧义,并以74个能力问题驱动设计与评估。模型支持复杂的嗅觉场景建模,如历史文献中的气味描述,并可应用于文化遗产、香水研发、环境科学及虚拟现实等领域。通过复用多个本体资源并提出新的嗅觉类与属性,Odeuropa实现了信息表达的灵活性与跨学科整合,具备良好的可扩展性与实际应用前景。原创 2025-09-27 15:37:59 · 51 阅读 · 0 评论 -
48、捕捉气味语义:Odeuropa嗅觉遗产信息数据模型
本文介绍了Odeuropa项目开发的嗅觉遗产信息数据模型,旨在通过复用和扩展CIDOC CRM等本体,结合三层结构与受控词汇表,系统化表示历史气味及其文化背景。该模型以事件为核心,围绕气味排放、嗅觉体验和气味使用组织信息,支持对气味来源、感知者情感、手势、身份意义等多维度描述,并通过能力问题验证其表达能力和实用性。作为首个面向文化遗产领域嗅觉信息的语义模型,Odeuropa为保存非物质感官遗产提供了结构化框架,并在博物馆、历史研究、人机交互等领域展现出广泛应用潜力。原创 2025-09-26 12:38:53 · 39 阅读 · 0 评论 -
47、Stunning Doodle:知识图谱嵌入可视化分析工具
Stunning Doodle 是一款开源的知识图谱嵌入可视化分析工具,旨在连接知识图谱的结构与嵌入空间的表示。它支持图数据与嵌入文件的联合可视化,帮助用户理解知识图谱内容、分析图嵌入特性,并比较不同嵌入模型的表现。博文通过 OntoSIDES 医学教育知识图谱的应用场景,展示了其在节点类型识别、语义关系发现和嵌入相似性分析方面的优势。相比 TensorFlow Projector 等通用工具,Stunning Doodle 提供了针对知识图谱的专用功能,如实体/谓词着色、局部图扩展和最近邻分析。未来计划增原创 2025-09-25 10:51:22 · 18 阅读 · 0 评论 -
46、Stunning Doodle:知识图谱与图嵌入的联合可视化分析工具
Stunning Doodle是一款用于知识图谱与图嵌入联合可视化分析的轻量级Web工具,支持RDF格式的知识图谱动态可视化和图嵌入空间中节点邻域的直观展示。通过交互式图探索、语义过滤与颜色定制功能,帮助用户理解知识图谱结构及其在嵌入空间中的表示关系。文章介绍了其系统架构、核心功能、实际应用案例(如教育与医学领域),并与现有工具进行对比,同时指出其在处理大规模图数据时的性能局限及未来优化方向。原创 2025-09-24 13:38:27 · 36 阅读 · 0 评论 -
45、QuoteKG:多语言引用知识图谱的构建与应用
QuoteKG 是一个基于 Wikiquote 构建的多语言引用知识图谱,旨在解决不同语言间引用的提取、对齐与管理问题。通过页面树提取、引用识别与丰富、跨语言提及对齐及 RDF 三元组生成等步骤,QuoteKG 整合了来自 55 种语言、近 69,000 位人物的近百万条引用数据,并提供了丰富的元数据,如日期、真实性、来源、情感等。系统采用 XLM-RoBERTa 进行句子嵌入与聚类,实现高精度跨语言对齐,评估显示 F1 分数达 0.99。QuoteKG 公开可用,支持 SPARQL 查询,遵循链接数据标准原创 2025-09-23 11:33:59 · 29 阅读 · 0 评论 -
44、探索Chowlk与QuoteKG:本体转换与多语言知识图谱的创新应用
本文介绍了Chowlk和QuoteKG两项在本体开发与知识图谱领域的创新工具。Chowlk通过将UML图表转换为OWL代码,简化了本体构建流程,支持协作编辑且无需额外软件安装;QuoteKG则是首个大规模多语言引用知识图谱,基于Wikiquote数据提取并跨语言对齐引用信息,提供情感、上下文及来源等丰富元数据。两者均具备广泛的应用前景,涵盖数字人文、自然语言处理、机器翻译等领域,并展示了未来在功能拓展、系统集成与跨领域深化应用的巨大潜力。原创 2025-09-22 13:52:22 · 22 阅读 · 0 评论 -
43、Chowlk:从基于UML的本体概念化到OWL实现
Chowlk是一种将基于UML的本体概念化图形转换为OWL本体的Web工具,通过扩展UML Ont配置文件形成独特的可视化符号表示法,支持使用diagrams.net进行直观建模,并实现自动化转换。该工具包含检测、关联和写入三大模块,能够高效生成Turtle格式的OWL本体,降低本体开发门槛,提升开发效率与协作能力。文章详细介绍了其符号系统、转换流程、技术优势、实际应用及未来发展方向,适用于农业、交通、材料科学等多个领域,是推动本体技术普及的重要工具。原创 2025-09-21 11:52:45 · 36 阅读 · 0 评论 -
42、知识图谱与本体开发:LD Connect与Chowlk框架解析
本文深入解析了LD Connect与Chowlk两个在知识图谱和本体开发领域具有重要意义的框架。LD Connect通过结构化书目数据和TransE嵌入方法,支持科学计量系统的构建,提供包括作者合作、论文相似性、关键词趋势等在内的多维度交互式分析。基于该系统,IOS Press实现了自动化更新和可持续部署,并展望了ORCID集成、跨RDF数据集扩展等未来方向。另一方面,Chowlk框架通过基于UML的可视化符号和diagrams.net模板,将本体概念化图表自动转换为OWL,显著提升本体开发效率,促进沟通与原创 2025-09-20 12:41:04 · 21 阅读 · 0 评论 -
41、学术数据处理与分析:oc ocdm与LD Connect的应用
本文介绍了oc ocdm和LD Connect在学术数据处理与分析中的应用。oc ocdm是一个支持SPAR本体的Python库,适用于数据创建、分析及本体管理,服务于学术期刊和图书馆领域。LD Connect作为链接数据门户,整合了IOS Press过去35年的书目数据,提供地理参考与共指消解,并通过扩展BIBO本体支持复杂查询。结合文档嵌入(PV-DBOW)与知识图嵌入(TransE),系统实现了语义与结构知识的建模,并通过科学计量学系统进行数据可视化分析。未来,oc ocdm将优化功能与并发处理,LD原创 2025-09-19 14:16:38 · 16 阅读 · 0 评论 -
40、深入解析 OCDM 数据处理库:功能、应用与影响
本文深入解析了基于OCDM(OpenCitations Data Model)的Python库oc ocdm,全面介绍了其在学术数据管理中的核心功能与实际应用。内容涵盖数据导入、操作、变更跟踪、来源生成和数据同步五大模块,并通过流程图和示例代码详细说明各功能的实现机制。文章还展示了该库在Wikipedia Citations in Wikidata、OpenCitations Meta等项目中的成功应用,强调其在提升数据质量、可互操作性和溯源能力方面的价值。最后展望了未来优化方向与发展潜力,旨在推动学术数据原创 2025-09-18 12:04:13 · 35 阅读 · 0 评论 -
39、轻量级推理器与OCDM数据模型编程接口的探索
本文介绍了轻量级增量推理器LiRoT及其在资源受限设备中的应用,该推理器基于RETE算法并通过优化显著降低内存消耗,在嵌入式环境中表现出优越性能。同时,文章还介绍了用于创建符合SPAR本体和OpenCitations数据模型(OCDM)的Python编程接口oc_ocdm库,该库基于rdflib构建,采用测试驱动开发,支持实体状态跟踪与唯一标识管理,简化了OCDM兼容数据的生成过程。两者分别推动了物联网语义网和学术出版领域数据互操作性的发展,具有良好的扩展与集成前景。原创 2025-09-17 10:09:52 · 15 阅读 · 0 评论 -
38、探索高效推理机:LiRoT优化RETE算法之路
本文介绍了一种面向资源受限平台的高效推理机LiRoT,它通过优化传统的RETE算法,在内存占用和处理时间方面实现了显著提升。LiRoT引入了术语索引、合并相似Alpha节点内存以及改进的增量维护机制,并在C语言基础上实现了轻量级架构,成功部署于Arduino和ESP32等微控制器平台。实验表明,LiRoT在RDFS规则集下相比Apache Jena和RDFox可减少高达98%的内存使用,并在小数据集场景中表现出更快的推理速度。文章还探讨了当前优化的权衡与未来改进方向,如删除算法优化和压缩RDF数据处理,展示原创 2025-09-16 09:18:05 · 38 阅读 · 0 评论 -
37、物联网语义网中轻量级推理器LiRoT的研究与实现
本文提出了一种面向资源受限设备的轻量级增量推理器LiRoT,专为语义万维物联网(SWoT)环境下的雾计算架构设计。LiRoT基于RETE算法,针对内存占用和推理效率进行了多项优化,包括Alpha节点内存管理、Beta节点连接操作加速以及规则的选择性加载。通过与Jena、RDFox等主流推理器的对比实验表明,LiRoT在显著降低内存消耗的同时,在典型SWoT场景下保持了良好的推理性能,适合部署于微控制器等低功耗设备中,推动了边缘智能的发展。原创 2025-09-15 11:27:30 · 27 阅读 · 0 评论 -
36、知识图谱的层次主题建模
本文提出了一种将层次LDA(hLDA)扩展至知识图谱领域的层次主题建模方法,通过引入谓词和标签的主题分布,并采用塌缩吉布斯采样进行高效推理,能够在大规模知识图谱中自动发现连贯的层次结构。模型具有非参数特性、强可解释性和良好的扩展性,在多个真实数据集上验证了其在主题聚类和语义分析方面的有效性,并与基于嵌入的方法进行了对比,展示了其独特优势。文章还探讨了超参数的影响及调优策略,分析了应用场景与未来发展方向。原创 2025-09-14 16:34:44 · 35 阅读 · 0 评论 -
35、知识图谱的主题建模与嵌入技术
本文探讨了知识图谱中的两大核心技术:时空知识图谱嵌入与层次主题建模。首先介绍了ST-NewDE模型,该模型基于二面体代数,能有效捕捉时空依赖关系,在多个数据集上表现优异,并通过维度与正则化消融实验验证其有效性。随后提出一种基于非参数贝叶斯的层次主题建模方法,扩展现有的hLDA模型,利用嵌套中国餐馆过程对知识图谱中的实体与谓词进行层次化组织,采用吉布斯采样实现高效推断。实验表明该模型在定量与定性评估中均具有良好的性能。最后总结研究成果并展望未来方向,包括对未见实体的泛化能力提升及在推荐系统、问答系统等场景的应原创 2025-09-13 11:04:50 · 36 阅读 · 0 评论 -
34、基于二面体代数嵌入的时空知识图谱补全
本文提出了一种基于二面体代数的时空知识图谱补全方法ST-NewDE,通过将实体、关系、位置和时间嵌入到二面体空间中,利用二面体乘积计算查询与答案之间的相似度,有效捕捉多维关联。该方法在多个真实数据集上实现了优越的性能,尤其在头/尾实体、位置和时间补全任务中表现突出,并通过聚类分析验证了其良好的语义编码能力。实验表明,ST-NewDE在保持较低复杂度的同时显著提升了预测准确性,具有良好的应用前景。原创 2025-09-12 15:57:44 · 32 阅读 · 0 评论 -
33、描述逻辑概念学习与时空知识图谱嵌入研究
本文探讨了描述逻辑中的概念长度预测与学习以及时空知识图谱嵌入的研究进展。在描述逻辑方面,通过神经网络预测概念长度可显著提升学习效率,其中CLIP算法在运行时间和性能上均优于CELOE和OCEL。在时空知识图谱嵌入方面,提出基于Dihedron代数的新型嵌入模型,能够同时处理空间和时间信息,弥补传统KGE模型的不足,并在历史、交通、医疗等场景中展现广泛应用潜力。未来研究将聚焦于联合学习嵌入与概念长度、新网络架构探索及代数运算优化。原创 2025-09-11 14:49:38 · 20 阅读 · 0 评论 -
32、学习概念长度加速ALC中的概念学习
本文提出了一种通过学习概念长度来加速ALC描述逻辑中概念学习的方法。基于生成的概念长度训练数据,比较了LSTM、GRU、CNN和MLP等神经网络在长度预测上的表现,发现GRU整体最优。在此基础上构建了集成长度预测的CLIP算法,通过限制搜索空间显著提升了概念学习的效率与准确性。实验表明,CLIP在多个真实数据集上优于CELOE、OCEL等现有方法。文章还探讨了模型优化方向及在生物医学、自然语言处理和推荐系统中的应用前景。原创 2025-09-10 15:42:51 · 32 阅读 · 0 评论 -
31、通过查询候选验证提高问答质量及概念学习加速方法
本文探讨了两种提升知识处理系统性能的方法:一是通过查询候选验证提高问答系统的质量,有效改善对可回答与不可回答问题的处理能力;二是提出基于概念长度预测的加速方法,显著提升描述逻辑ALC中的概念学习效率。实验表明,查询候选验证能显著提升准确率并缩短响应时间,而新算法CLIP在多个数据集上比现有方法快7.5倍以上,且F-分数更高。未来工作将探索该方法在多系统、跨语言场景的应用,并优化模型以实现更广泛的集成与应用。原创 2025-09-09 15:24:23 · 56 阅读 · 0 评论 -
30、通过查询候选验证提高问答质量
本文探讨了通过查询候选验证(QV)提升问答系统性能的方法,采用QAnswer系统与RuBQ 2.0和LC-QuAD 2.0数据集进行实验。利用BERT模型构建查询验证器,对KGQA系统的输出进行过滤优化,显著提高了问答的精度与F1分数。研究还引入了答案可信度分数(ATS)来更合理地评估问答质量,并展示了在处理无法回答问题时的有效性。结果表明,该方法能有效减少错误候选、提升正确答案排名,增强系统整体可靠性。原创 2025-09-08 10:25:21 · 60 阅读 · 0 评论 -
29、提升知识图谱问答质量:RDF数据加载与SPARQL查询验证
本文探讨了提升知识图谱问答(KGQA)系统质量的两种关键技术:RDF数据的模块化、惰性和安全加载,以及基于语言特征的SPARQL查询候选验证。通过惰性评估SPARQL查询和形式化Liskov原则,优化数据加载性能与类型安全;通过将SPARQL查询语言化并利用微调分类器进行查询验证,显著提升问答准确率。实验表明,该QV方法使Precision@1相对改进达204.6%,并有效处理不可回答问题。未来工作将聚焦于方法通用性扩展、语言特征深入挖掘及与其他NLP技术融合。原创 2025-09-07 15:31:46 · 33 阅读 · 0 评论 -
28、模块化、延迟和安全加载RDF数据的技术解析
本文深入探讨了在处理RDF数据时实现模块化、延迟和安全加载的关键技术,介绍了MOL+和LMOL语言的设计与语义机制。通过双射实例化、继承处理、延迟查询及静态分析等方法,系统性解决了OO编程与RDF模型间的阻抗不匹配问题。文章阐述了相关定理的应用,对比了现有方法的不足,并展示了LMOL在支持完整SPARQL、模块化查询、延迟评估和类型安全方面的优势。结合实际案例与实验评估,验证了其在性能、可维护性和安全性上的显著提升,为RDF数据的高效集成提供了可行方案。原创 2025-09-06 09:08:23 · 21 阅读 · 0 评论 -
27、模块化、惰性和安全加载RDF数据的探索
本文探讨了在面向对象编程中实现RDF数据的模块化、惰性和安全加载的方法。通过引入类声明注解和期货机制,实现了数据建模与计算的分离,并支持惰性知识库访问以提升灵活性和性能。提出前向无环类的概念及其急切查询构造方法,确保可生成有限查询并正确实例化对象。结合运行时语义规则与安全性定理,保障加载过程的正确性与类型安全。文章还分析了检索树结构、对象创建流程及特殊场景处理,如节点重复和递归类结构,为语义网数据访问提供了系统化解决方案。原创 2025-09-05 16:04:57 · 29 阅读 · 0 评论 -
26、基于深度上下文词嵌入的情感分析与RDF数据加载技术
本文介绍了两种关键技术:基于深度上下文词嵌入的情感分析方法DCWEB-SOBA,以及一种模块化、惰性和安全加载RDF数据到面向对象程序中的机制。DCWEB-SOBA通过引入副词和上下文感知词嵌入,在方面情感分析中提升了本体的覆盖率与结论性,并在SemEval-2016数据集上验证了其优越性能;另一方面,针对RDF与面向对象编程之间的语义差距,提出了一种支持类型安全、继承和惰性加载的模块化映射方法,通过将SPARQL查询集成到类定义中,实现了高效、安全的数据加载,增强了系统的可维护性与灵活性。原创 2025-09-04 12:40:44 · 16 阅读 · 0 评论 -
25、DCWEB - SOBA:基于深度上下文词嵌入的方面情感分类半自动化本体构建
本文提出了一种基于深度上下文词嵌入的半自动化本体构建方法DCWEB-SOBA,用于方面情感分类。该方法利用BERT模型生成上下文感知的词嵌入,有效处理多义词问题,并引入情感感知微调、副词情感考虑、新颖阈值函数等机制,提升领域情感本体的构建质量。通过在Yelp数据集上构建本体,并在SemEval-2016餐厅数据集上评估,结合HAABSA++混合模型取得了81.85%的预测准确率,优于现有方法。研究为方面情感分析中的本体构建提供了高效且可扩展的解决方案。原创 2025-09-03 15:42:10 · 27 阅读 · 0 评论 -
24、RDF中XSD二进制浮点数据类型的问题
本文探讨了RDF中使用XSD二进制浮点数据类型(xsd:float和xsd:double)导致的数据失真问题,分析了其在实际网络数据中的广泛影响。通过SPARQL查询实现自动失真检测,并基于Web Data Commons数据集进行大规模使用情况调查,发现大量非二进制源数据被错误地使用浮点类型表示,造成29%-68%的数据失真。文章提出了激进解决方案(弃用浮点类型,扩展xsd:decimal并引入十六进制表示)和谨慎缓解方案(改进十进制类型、限制浮点使用),建议优先采用xsd:decimal以提升数据质量和原创 2025-09-02 16:17:41 · 25 阅读 · 0 评论 -
23、RDF 中 XSD 二进制浮点数据类型的问题
本文探讨了在RDF中使用XSD二进制浮点数据类型(xsd:float和xsd:double)表示精确数值所带来的问题,指出其因舍入误差、溢出、下溢等导致的数据失真现象。研究表明,在真实网络数据中29%至68%的浮点值存在失真,严重影响知识表示的准确性和计算结果的可靠性。文章分析了xsd:decimal与二进制浮点类型的差异,强调在需要精确表示十进制数时应优先使用xsd:decimal,并提出了自动检测数值问题的方法及缓解策略,包括自定义映射、类型转换和用户界面优化,以提升RDF数据质量和语义一致性。原创 2025-09-01 12:27:29 · 29 阅读 · 0 评论 -
22、基于知识图谱嵌入的集成事实分类
本文提出了一种基于集成学习的弱监督方法DuEL,用于解决知识图谱嵌入(KGE)在事实分类任务中的挑战。由于传统KGE方法主要面向排名而非分类,且缺乏标注数据,直接用于分类存在噪声和性能瓶颈。DuEL通过聚合多个分类器的输出,在无需真实标注的情况下实现了优于现有监督方法的F1得分。实验表明,该方法在多个数据集和嵌入模型上均表现优异,尤其在FB15k237和DBpedia50上显著超越基线。同时,研究了关键超参数的影响,并探讨了未来扩展方向,如引入本体约束、融合文本知识等,展示了其在知识图谱补全中的广泛应用前景原创 2025-08-31 12:46:42 · 35 阅读 · 0 评论 -
21、基于知识图谱嵌入的集成事实分类:DuEL方法解析
本文介绍了DuEL方法——一种基于知识图谱嵌入的集成事实分类框架,用于解决链接预测中的高精度与高召回率难以兼顾的问题。DuEL结合了五种不同类型的分类器(包括监督与非监督模型),通过构建排名列表并对候选实体进行二进制决策,实现了对潜在链接的有效判断。文章详细解析了各类分类器(如MLP、LSTM、CNN、Subgraph Embeddings和Shared Paths)的工作机制、输入结构及输出聚合策略,并阐述了其在无需大量人工标注数据下的可扩展优势。实验在FB15k237和DBpedia50数据集上进行,采原创 2025-08-30 09:26:11 · 29 阅读 · 0 评论 -
20、知识图谱嵌入的最优ABox修复与事实分类
本文探讨了知识图谱中的两个关键技术:基于描述逻辑的最优ABox修复与知识图谱嵌入(KGEs)在事实分类中的应用。最优ABox修复通过计算不会不必要丢失语义后果的修复方案,提升本体一致性与完整性,尤其在无环qABox和循环受限TBox条件下可保证最优近似存在。针对事实分类难题,提出DuEL系统,结合监督模型(LSTM、CNN、MLP)与无监督模型(子图嵌入、可达性),利用弱监督集成方法聚合输出,在F1分数上显著优于现有方法。文章详细分析了技术流程、应用场景及未来优化方向,为知识图谱修复与补全提供了有效解决方案原创 2025-08-29 16:42:13 · 29 阅读 · 0 评论
分享