
知识图谱
文章平均质量分 83
程序员.小富
这个作者很懒,什么都没留下…
展开
-
知识抽取框架OneKE
OneKE 中指令的格式采用了类 JSON 字符串的结构,本质上是一种字典类型的字符串。优化知识抽取的性能不仅能够强化模型对世界知识的理解和应用,还能够构建知识要素之间的跨领域的深度关联和依赖,这些都是大规模知识图谱构建的关键依赖。一直是知识图谱大规模落地的关键难题之一,因为真实世界的信息高度碎片化、非结构化,大语言模型在处理信息抽取任务时仍因抽取内容与自然语言表述之间的巨大差异导致效果不佳,自然语言文本信息表达中因隐式、长距离上下文关联存在较多的歧义、多义、隐喻等,给知识抽取任务带来较大的挑战。原创 2024-08-25 21:35:24 · 1715 阅读 · 0 评论 -
知识图谱用于推荐系统问题
知识图谱用于推荐系统问题(MKR,KTUP,KGAT):知识图谱用于推荐系统问题(MKR,KTUP,KGAT)-优快云博客知识图谱用于推荐系统问题(CKE,RippleNet):知识图谱用于推荐系统问题(CKE,RippleNet)_cke模型-优快云博客知识图谱用于推荐系统问题(MVIN,KERL,CKAN,KRED,GAEAT):知识图谱用于推荐系统问题(MVIN,KERL,CKAN,KRED,GAEAT)_kred: knowledge-aware document representation原创 2024-08-25 21:10:06 · 268 阅读 · 0 评论 -
Knowledge Graph Completion(知识图谱补全)
而虽然人工干预构建出的特征通常具有较好的可解释性,但显然耗费资源太多,而通过表示学习即通过机器学习算法自动地从数据中学得新的表示,它虽然在较少的人工干预下能自动地根据任务构建特征,但构建出的特征的可解释性通常比较差(最近有把这两种构建方式结合的方法,将先验知识(如规则、实体类型、多跳路径等等)融合到表示学习上)。这个模型能够处理有未知实体的新节点是因为,如果给定的新实体,那么在和这个实体有关的子图sub-graph上有新的结点,且这个实体又和其他几个已知实体相连,这完全可以通过GNN来解决的。原创 2024-08-25 21:08:05 · 1181 阅读 · 0 评论 -
OpenKE:知识图谱表示学习工具包
为了解决这个问题,知识图谱表示学习被引入,将实体和关系转化为连续的向量空间,从而简化操作,同时保留知识图谱的原有的结构。使用我们的工具包复现出的模型与公开论文中公布的历史最高结果相比是基本一致的,相关的参数和训练代码也作为使用案例在我们的工具包中。孙茂松:清华大学计算机系教授,https://nlp.csai.tsinghua.edu.cn/staff/sms/谢若冰:清华大学计算机系硕士生(已毕业),http://nlp.csai.tsinghua.edu.cn/~xrb/原创 2024-08-25 21:05:33 · 1099 阅读 · 0 评论 -
KnowLM知识抽取大模型
KnowLM 是由浙江大学NLP&KG团队的在读博士生研发并开源的项目,是一种将LLM与知识图谱结合的知识抽取大模型,主要包含的任务有命名实体识别(NER)、事件抽取(EE)、关系抽取(RE)。围绕知识和大模型,用构建的中英双语预训练语料对大模型如LLaMA进行全量预训练基于知识图谱转换指令技术对知识抽取任务,包括NER、RE、IE进行优化,可以使用人类指令来完成信息抽取任务用构建的中文指令数据集(约1400K条样本),使用LoRA微调,提高模型对于人类指令的理解。原创 2024-08-25 20:31:44 · 1388 阅读 · 0 评论 -
DeepKE-LLM框架介绍及简单使用
DeepKE作为一个全面的知识提取工具包,不仅在构建知识图谱方面展现出卓越性能,还针对多种场景(如cnSchema、低资源环境、文档级处理和多模态分析)提供了强大支持。它能高效提取实体、关系和属性,并为初学者提供了详尽的使用手册。在当前的知识提取和图谱构建领域,DeepKE迎合了ChatGPTLlaMABaichuan等大型语言模型的发展趋势,并推出了LLM版本。DeepKE-LLM利用先进的闭源语言模型如ChatGPT执行零样本和少样本的知识提取任务,同时支持用户对LlaMA和Baichuan。原创 2024-08-25 20:22:52 · 2348 阅读 · 0 评论 -
【论文阅读】Extract, Define, Canonicalize: An LLM-based Framework forKnowledge Graph Construction
EDC框架可以适应有预定义模式和无预定义模式的情况。实验结果表明,EDC在自动提取高质量知识图谱方面优于现有方法。3.模式标准化(Schema Canonicalization):使用模式定义对三元组进行标准化,使得语义上等价的关系和实体类型具有相同的名词/关系短语。2.模式定义(Schema Definition):为开放式知识图谱中的每个组件生成自然语言定义,例如实体类型和关系类型。综上所述,EDC框架通过灵活的模式标准化策略,能够适应有预定义模式和无预定义模式的情况,并生成规范化的知识图谱。原创 2024-08-25 20:05:19 · 653 阅读 · 1 评论 -
GraphRAG原理详解
如上图所示,GraphRAG包括两个处理阶段,分别是:索引阶段和查询阶段。索引阶段利用LLM来自动化构建知识图谱,提取出对应的节点(如实体)、边(如关系)和协变量(如主张,claim),然后利用社区发现技术(如Leiden算法)对整个知识图谱进行子图划分,然后自底而上对子图利用LLM进行摘要、总结。针对特定查询,“全局答案(Global Search)”汇总所有与之相关的社区摘要最后汇总生成答案。通过LLM对文档中的实体、关系、主张进行提取,本质上是对文档的一种抽象式摘要。原创 2024-08-04 23:44:33 · 2572 阅读 · 0 评论 -
知识图谱在美团推荐场景中的应用
首先介绍美团的知识图谱:美团大脑。美团所涉足的生活服务领域需要大量知识。例如,当用户搜索“10人聚餐”的query时,我们需要对它结合知识进行理解,得到用户想找大桌或者找包间的意图。同时,对于商家侧,我们也需要利用UGC评论中挖掘出类似于“有大桌”、“有包间”这样的标签。原创 2024-08-04 23:35:21 · 1158 阅读 · 0 评论 -
知识增强LLM
检索增强 LLM ( Retrieval Augmented LLM ),简单来说,就是给 LLM 提供外部数据库,对于用户问题 ( Query ),通过一些信息检索 ( Information Retrieval, IR ) 的技术,先从外部数据库中检索出和用户问题相关的信息,然后让 LLM 结合这些相关信息来生成结果。下图是一个检索增强 LLM 的简单示意图。OpenAI 研究科学家 Andrej Karpathy 前段时间在微软 Build 2023 大会上做过一场关于 GPT 模型现状的分享。原创 2024-08-04 21:41:01 · 1285 阅读 · 0 评论 -
知识图谱和 LLM:多跳问答
在实践中,您可以使用不同的 LLM 来生成 Cypher 语句和答案,也可以在单个 LLM 上使用各种提示。到 LLM 中,擅长回答简单的问题。虽然思维链展示了 LLM 的推理能力,但它并不是最用户友好的技术,因为由于多次 LLM 调用,响应延迟可能会很高。使用知识图谱构建 RAG 应用程序可以提高查询效率,尤其是在处理连接的数据时,并且您可以将任何类型的数据(结构化和非结构化)转储到图中,而无需重新设计架构。通常,RAG 会返回三个最相似的文档,为 LLM 提供背景信息,从而增强其生成准确答案的能力。原创 2024-08-04 20:59:11 · 861 阅读 · 0 评论 -
RAG流程中存在的问题及优化方法、研究前沿
以一篇专业的论文切入,让我们来看看当前RAG的基本框架存在哪些问题。论文:《主要在下面这张图,文中提出了当前RAG存在的7个痛点(问题):理解下图中的信息:基本RAG流程可以分为两大块:文本向量化构建索引的过程(Index Process)和 检索增强问答的过程(Query Process)。在文本向量化构建索引的过程中,可能的缺陷如下:内容缺失:原本的文本中就没有问题的答案在检索增强回答的过程中,可能的缺陷如下:错过排名靠前的文档提取上下文与答案无关。转载 2024-08-04 20:55:24 · 1021 阅读 · 0 评论 -
RAG:重排(Rerank)
图 1:RAG 中的重排序技术,其任务是评估这些上下文的相关性,并优先选择最有可能帮助模型响应更准确并相关的上下文(红框标注部分)。图片由原文作者提供。如图 1 所示,重排序(Re-ranking)的作用类似于一个智能过滤器(intelligent filter)。当检索器(retriever)从建立了索引的文档或数据集合中检索到多个上下文时,这些上下文可能与用户发送的 query 非常相关(如图 1 中的红色矩形框),而其他可能只是相关性较低,甚至完全不相关(如图1中的绿色矩形框和蓝色矩形框)。原创 2024-08-04 20:24:53 · 1960 阅读 · 0 评论 -
大语言模型分词的chunk_size和chunk_overlap说明和验证
对于大型语言模型如GPT-3等来说,chunk_size和chunk_overlap通常指的是文本序列的切分参数:chunk_size: 对输入文本序列进行切分的最大长度。大语言模型一般会限制最大输入序列长度,比如GPT-3的最大输入长度是2048个token。为了处理更长的文本,需要切分成多个chunk,chunk_size控制每个chunk的最大长度。chunk_overlap: 相邻两个chunk之间的重叠token数量。为了保证文本语义的连贯性,相邻chunk会有一定的重叠。原创 2024-08-04 17:09:07 · 1354 阅读 · 0 评论 -
RAG:如何与您的数据对话
在这篇文章中,我们经历了检索增强生成的整个过程:l我们研究了不同的数据加载器。l我们已经讨论了数据分割的可能方法及其潜在的细微差别。l我们已经了解了嵌入是什么,并设置了向量存储来有效地访问数据。l我们找到了针对检索问题的不同解决方案,并了解了如何增加多样性、克服上下文大小限制以及使用元数据。l最后,我们使用RetrievalQA链根据我们的数据生成答案,并比较不同的链类型。这些知识应该足以开始构建与您的数据类似的东西。原创 2024-08-04 17:06:21 · 1211 阅读 · 0 评论 -
什么是提示词注入攻击
我们可以做的事情很多。这个问题并没有一种单一的解决方案。事实上,使得提示词注入如此困难的原因之一是,与我们以前处理的许多数据安全问题不同,以前我们只需考虑“数据是否被机密保存”,“坏人无法读取?”这样的问题。而现在,我们实际上在关注数据的含义,即这些信息的语义。这是一个全新的时代,也是我们面临的挑战。原创 2024-08-04 16:58:48 · 1237 阅读 · 0 评论 -
使用LLM(Large Language Model)进行主题建模
本文介绍了《TopicGPT: A Prompt-based Topic Modeling Framework》(https://arxiv.org/abs/2311.01449)这一工作,该工作引入了TopicGPT,使用LLM来发现所提供文本集合中的潜在主题。与其他方法相比,TopicGPT生成的主题更符合人类的分类。不过,该工作也存在不足,例如:其效果依赖于一个较好的大模型,此外上下文限制。长文本限制,该方法需要截断文档以适应TopicGPT的上下文长度限制。原创 2024-08-04 16:49:02 · 1792 阅读 · 0 评论 -
社区检测算法(Community Detection)总结
社区检测(Community Detection)又被称为是社区发现。它是用来揭示网络聚集行为的一种技术。社区检测算法用于评估节点组如何聚类或分区,以及它们增强或分离的趋势。原创 2024-08-04 11:16:45 · 2225 阅读 · 0 评论 -
GraphRag本地测试
我们需要修改 settings.yaml,你可以直接复制我的如下,切记你本机安装了Ollama并且安装了下边两个模型。然后准备一份数据,放到 /ragtest/input 下,我找了一份中文数据,为了演示,截取了部分文本。安装完成后,建立一个文件夹,存放你的知识数据,目前graphRAG仅支持txt和csv。这个也被解析到了知识图谱中了,还可以吧,我数据比较小,你们可以试试大一点的数据。您可以修改此文件以更改管道的设置。graphRAG的安装还是很简单的,直接pip。复制我的这个替换就可以,注意里边的。原创 2024-08-03 23:36:42 · 1498 阅读 · 1 评论 -
Paddlenlp测试
>> [('《', 'w'), ('孤女', '作品类_实体'), ('》', 'w'), ('是', '肯定词'), ('2010年', '时间类'), ('九州出版社', '组织机构类'), ('出版', '场景事件'), ('的', '助词'), ('小说', '作品类_概念'), (',', 'w'), ('作者', '人物类_概念'), ('是', '肯定词'), ('余兼羽', '人物类_实体')]>>> ['第十四届', '全运会', '在', '西安', '举办']原创 2024-07-27 20:41:50 · 467 阅读 · 0 评论 -
中文小样本NER模型方法总结和实战
在UIE出来以前,小样本NER主要针对的是英文数据集,目前主流的小样本NER方法大多是基于prompt,在英文上效果好的方法,在中文上不一定适用,其主要原因可能是:中文长实体相对英文较多,英文是按word进行切割,很多实体就是一个词;边界相对来说更清晰;生成方法对于长实体来说更加困难。但是随着UIE的出现,中文小样本NER 的效果得到了突破。原创 2024-07-22 00:04:20 · 932 阅读 · 0 评论 -
分词工具对比
中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、Microsoft Research), 在评测提供的资源。原创 2024-07-21 16:10:55 · 576 阅读 · 0 评论 -
12类知识图谱构建与应用开源工具总结:从开放知识库到知识抽取再到推理可视化
本文主要从12个角度,对现有的知识图谱开源工具进行了总结,这些开源可用的工具,都为我们进行知识图谱的构建提供了十分好的基础设施,无论是入门知识图谱的,还是做知识图谱研究的,都可以使用,大家可以利用起来。原创 2024-07-21 16:05:10 · 10683 阅读 · 0 评论 -
GraphRAG项目
蚂蚁首个对外开源的Graph RAG框架采用全自主的开源产品:DB-GPT(RAG的AI工程框架)+ OpenSPG(知识图谱系统)+ TuGraph(图存储系统)。随后Neo4j于13日开源了 基于LLM提取知识图谱的生成器:llm-graph-builder。原创 2024-07-21 15:58:38 · 534 阅读 · 0 评论 -
KBQA调研——学术界
知识库问答(knowledge based question answering,KB-QA):给定自然语言形式的问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理,最终得出答案。原创 2024-07-21 15:54:15 · 488 阅读 · 0 评论 -
知识库问答研究进展与展望
基于知识库的问答(QuestionAnsweringoverKnowledgeBase,KBQA)是问答系统的重要组成部分,要求计算机正确理解自然语言问题的语义,并从知识库中提取问题的答案.早期研究主要关注仅涉及到单个关系三元组的简单问答,近年来,随着以深度学习为代表的表示学习技术在简单问答任务的成功应用,研究重点逐渐转移到需要复杂推理能力的推理问答上.本文将对现有知识库问答的研究进展进行综述,先总结简单问答和推理问答两类任务各自的问题和挑战,然后对近年来与知识库问答相关的数据集进行多维度的分析和比较,接下原创 2024-07-21 15:47:44 · 294 阅读 · 0 评论 -
Vector | Graph:蚂蚁首个开源Graph RAG框架设计解读
RAG的目标是通过知识库增强内容生成的质量,通常做法是将检索出来的文档作为提示词的上下文,一并提供给大模型让其生成更可靠的答案。更进一步地,RAG的整体链路还可以与提示词工程(Prompt Engineering)、模型微调(Fine Tuning)、知识图谱(Knowledge Graph)等技术结合,构成更广义的RAG问答链路。增强训练REALM引入了知识检索器增强大模型预训练,以改进大模型的问答质量和可解释性。增强微调RA-DIT实现了对大模型和检索器的双指令微调,RAFT。原创 2024-07-21 15:33:47 · 1105 阅读 · 0 评论 -
微软GraphRAG
通用语言模型通过微调就可以完成几类常见任务,比如分析情绪和识别命名实体。这些任务不需要额外的背景知识就可以完成。要完成更复杂和知识密集型的任务,可以基于语言模型构建一个系统,访问外部知识源来做到。这样的实现与事实更加一性,生成的答案更可靠,还有助于缓解“幻觉”问题。Meta AI 的研究人员引入了一种叫做的方法来完成这类知识密集型的任务。RAG 把一个信息检索组件和文本生成模型结合在一起。RAG 可以微调,其内部知识的修改方式很高效,不需要对整个模型进行重新训练。原创 2024-07-21 15:32:59 · 794 阅读 · 0 评论 -
知识图谱综述
【知识图谱论文】知识图谱自主构建综述A Comprehensive Survey on Automatic Knowledge Graph Construction【论文精读】A Survey on Knowledge Graphs Representation, Acquisition and Applications原创 2024-05-05 17:31:09 · 295 阅读 · 0 评论 -
利用知识图谱克服人工智能幻觉
或者是一个产生幻觉的LLM,给金融公司提供不准确的法律分析,导致做出可能招致重大损失的决定。通过将数据合并到一个单一的、统一的视图中,知识图谱可以帮助以一种易于理解的格式组织数据,这种格式可用于做出更好的决策,识别新的见解,并获得对数据的更全面的理解。通过将以前孤立的和不可访问的数据连接在一起,知识图谱引擎将所有收集到的数据作为一个单一的事实来源,可以分析以发现隐藏的知识宝藏。最近,像ChatGPT这样的大型语言模型产生了不准确的报告,争论了不正确的事实,并在他们的答案中描述了现实世界的偏见。原创 2024-05-05 17:14:45 · 949 阅读 · 0 评论 -
Graph RAG:基于知识图谱的检索增强技术与优势对比
以《银河护卫队 3》的数据集为例,当我们询问“彼得·奎尔的相关信息”时,单独使用向量检索引擎只给出了简单的身份、剧情、演员信息,而当我们使用 Graph RAG 增强后的搜索结果,则提供了更多关于主角技能、角色目标和身份变化的信息——在这个例子中我们不难看出,在传统的搜索引擎中,检索结果通常是基于关键词的匹配。,它是一种基于知识图谱的检索增强技术,通过构建图模型的知识表达,将实体和关系之间的联系用图的形式进行展示,然后利用大语言模型 LLM(Large Language Model)进行检索增强。原创 2024-05-05 16:58:55 · 2903 阅读 · 0 评论 -
知识图谱和大语言模型的共存之道
导读知识图谱和大型语言模型都是用来表示和处理知识的手段。大模型补足了理解语言的能力,知识图谱则丰富了表示知识的方式,两者的深度结合必将为人工智能提供更为全面、可靠、可控的知识处理方法。在这一背景下,OpenKG组织新KG视点系列文章——“大模型专辑”,不定期邀请业内专家对知识图谱与大模型的融合之道展开深入探讨。本期特别邀请到东南大学漆桂林教授、南京柯基数据科技有限公司杨成彪(CTO)和吴刚(CEO)等分享“知识图谱和大语言模型的共存之道”。分享嘉宾 | 漆桂林(东南大学),杨成彪(南京柯基数据科技有限原创 2024-05-05 16:51:45 · 1728 阅读 · 1 评论 -
LLM⊗KG范式下的知识图谱问答实现框架思想阅读
分享一张有趣的图,意思是在分类场景下,使用大模型和fasttext的效果,评论也很逗。这其实背后的逻辑是,在类别众多的分类场景下,尤其是在标注数据量不缺的情况下,大模型的收益是否能够比有监督模型的收益更多。这个例子虽然没有说标注数据量,但估计量不会少。我们继续回到知识图谱与大模型的话题:读到一个大模型和知识图谱融合的有趣工作《 Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph》(原创 2024-05-05 16:40:52 · 1021 阅读 · 0 评论 -
统一大型语言模型和知识图谱:路线图
大型语言模型(LLM),如ChatGPT和GPT4,由于其涌现能力和泛化性,正在自然语言处理和人工智能领域掀起新的浪潮。然而,LLM是黑箱模型,通常无法捕捉和获取事实知识。相反,知识图谱(KGs),例如维基百科和华普,是显式存储丰富事实知识的结构化知识模型。KGs可以通过为推理和可解释性提供外部知识来增强LLM。同时,KGs很难从本质上构建和演化,这对KGs中现有的生成新事实和表示未知知识的方法提出了挑战。因此,将LLM和KGs统一在一起并同时利用它们的优势是相辅相成的。原创 2024-05-05 10:58:19 · 2327 阅读 · 0 评论 -
爱奇艺文娱知识图谱的构建与应用实践
本质上,知识图谱是一种揭示实体之间关系的语义网络,对现实世界的事物及其相互关系进行形式化地描述。——《知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱由一系列的(实体,关系,实体)三元组构成,用以表达现实世界中的诸多场景。实体(Entity)指的是现实世界中的事物,是图里的节点。关系(Relation)指的是不同实体之间的某种联系,是图里的“边”。图示为一个社交网络知识图谱: 实体有『人』『物品』『建筑』『城市』等。原创 2024-05-05 10:42:36 · 755 阅读 · 0 评论 -
知识图谱的构建全流程
知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过知识图谱能够将Web上的信息、数据以及链接关系聚集为知识,使信息资源更易于计算、理解以及评价,并能实现知识的快速响应和推理。原创 2024-05-05 10:34:52 · 6227 阅读 · 0 评论 -
知识图谱基础
定义:在知识图谱中,三元组是由三个元素组成的有序集合,分别是主体(subject)、谓词(predicate)和客体(object)。例如,“苹果是水果”的三元组可以表示为(苹果,是,水果)。结构:三元组的结构清晰简洁,将实体和关系以及它们之间的语义关联完整地体现出来。主体表示描述的实体,谓词表示实体之间的关系,客体表示与主体相关联的实体。实体(Entity)实体是对客观个体的抽象,一个人、一部电影、一句话都可以看作是一个实体。例如:姚明,李安,我不是潘金莲类型(type)原创 2024-05-05 10:24:04 · 4888 阅读 · 0 评论