【知识图谱】王昊奋-公开课笔记-从人工智能到开放知识图谱

本文探讨了知识图谱在人工智能领域的应用,包括其历史发展、关键技术和未来趋势。重点介绍了知识表示、知识抽取、知识融合等核心过程,并讨论了知识图谱在搜索引擎优化、问答系统、决策支持和语言理解等方面的作用。

1. 数据科学是什么?数据科学家在做什么?

2. 描述性数据分析(IJCAI2017)

3. 知识库(IJCAI2017) 

(1) BabelNet 自动构建的、开放领域的、多语言的语义网络 

(2) YAGO2 以Wikipedia为知识来源,包含空间、时间维度的高密度大规模知识库

4. 什么是知识?

(1)表示形式和传承方式:人类的自然语言、创作的绘画和音乐、数学语言、物理模型、化学公式。

(2)关键问题:怎样用计算机易于理解的方式表示知识。

(3)NN也是一种知识表示形式。

5. 两大学派

smart AI 联结主义:学习(感知、识别、判断),如深度学习(DL)

knowledgeable AI 符号主义:推理(思考、语言、推理),如知识图谱(KG)和专家系统

AI的未来:联结主义+符号主义 学习+推理 感知+认知(Learning+Reasoning)

6. 什么是知识表示(KR)

(1)简单而言,KR是易于计算机处理的方式来描述人脑的知识。

(2)关键:KR可以用于推理。

(3)KR的用途

a. A KR is a surrogate

b. A KR is a set of ontological commitments

c. A KR is a theory of intelligent reasoning

d. A KR is a medium for efficient computation

e. A KR is a medium of human expression

(4)KR分类

基于离散符号的KR:RDF,OWL,各种Rule Language等(显式知识、强逻辑约束、易于解释、推理不易扩展)

基于连续向量的KR:Tensor,各种Embedding,神经网络表示等(隐式知识、弱逻辑约束、不易解释、对接神经网络)

7. 知识图谱的应用:Google知识图谱、Facebook兴趣图谱

8. 知识图谱的历史起源

语义网络(1960),本体论(1980),Web万维网(1989),知识图谱(2012)

9. 知识图谱的本质

分别从Web、NLP、KR、AI、DB视角

10. 应用

(1)KG辅助搜索:KG4SEO(搜索引擎优化),从网页搜索到语义搜索

(2)KG辅助问答:KG4BOTS、KBQA(知识库问答)、Visual QA

(3)KG辅助决策:预测性分析

(4)KG辅助语言理解:Machine Reading(利用KB辅助背景知识,将概念性知识作为NN的输入)

(5)KG辅助AI:常识推理

11. 知识图谱工程:知识表示、知识抽取、知识融合、知识链接、知识存储、知识众包、知识推理、可视化、语义搜索、知识问答

12. 各种知识图谱项目:通用的、基于某领域的、基于中文的等

13. KG构建与获取

(1)FreeBase:Google收购的,开放免费(CC BY SA)

(2)WikiData:全世界最大的免费知识库

(3)Schema.org:在网页、邮件、应用程序当中嵌入语义数据,用于SEO

(4)ConceptNet:起源于MIT

(5)事实

a. 大规模KG依赖开放域知识抽取和开放社区协同方式

b. NLP/ML只是获得KG的手段

c. 构建KG的成本非常高

d. KG共同问题是知识缺失严重

14. 关于Open的解读:OpenKG ≠ Open Data

15. 开源的数据:可商业化的开放数据许可协议、常用数据库的许可协议

(1)Creative Common:CC0,CC-BY,CC-BY-SA

(2)Open Knowledge Foundation:PDDL,ODC-BY,ODbL

16. 关于OpenKG

(1)OpenKG DATA(百科知识),Open Schema(通用常识域),Open Bots(QA测试),Open Models

(2)开源的知识库:openkg.cn

(3)工具:protege(知识建模),DeepDive(知识抽取),gStore(知识存储),YodaQA(知识问答),Limes(知识融合)

17. schema.org运行机理

18. schema.org和cnschema.org(中文),cnschema.org用于KG数据建模与推理

思考

1. 利用知识图谱能够实现可解释性的人工智能吗?

2. 行业知识图谱很缺乏吗?

3. “类”和“属性”有什么区别呢?

4. 知识图谱未来是否可能实现自动抽取呢?

<think>嗯,用户是一位基础薄弱的研一软件工程学生,想要在大模型+知识图谱方向发表论文。从ta强调"基础薄弱无完整知识体系"来看,可能存在三个核心痛点:知识断层(可能缺乏NLP/图神经网络基础)、科研方法论缺失(不知如何找创新点)、时间焦虑(研一需要快速出成果)。有趣的是,ta特意要求避开引用中的推广内容(如扫描二维码领取资料),说明需要切实可行的学术路径。 结合用户前序提问和我上次给出的高阶攻略,这次需要降维设计梯度学习计划。关键矛盾在于:顶会论文要求创新性,但基础薄弱者难以直接突破。解决方案应该是双轨制——底层用"最小可行知识模块"填坑,上层用"问题驱动型"轻量实验快速产出。 具体拆解为三阶段:先花2个月用开源工具复现基础实验(比如用HuggingFace+PyKEEN做知识注入),同时精读5篇ACL Findings级别的论文(这类论文创新点明确且代码易获取)。中期聚焦领域知识图谱构建(医疗/金融等),这类方向容易在结构化知识注入上做出微创新。最后用提示工程技巧包装(比如CoT+知识检索的组合),这样即使模型底层改动不大,也能靠评测维度创新发论文。 特别注意要避开两个坑:1)不推荐从零构建知识图谱(时间成本太高)2)慎用多模态(数据获取和算力要求对新手不友好)。工具链全部采用托管服务(比如用Neo4j Aura免运维图数据库),让ta专注在prompt engineering和评测设计上——这是基础薄弱者最能快速上手的高性价比创新点。 用户提到软件工程背景,其实可以利用这个优势。比如在实验部分加入代码复杂度对比(传统知识图谱系统vs大模型增强方案),或者设计开发效率评测指标(如API调用次数减少率$r_{api} = \frac{C_{base}-C_{new}}{C_{base}}$),这就能把劣势转成特色。 </think>以下是为基础薄弱的研一软件工程学生定制的**大模型+知识图谱发论文详细计划**,结合你的学科背景和科研阶段特点,分三个阶段推进(总周期6-8个月): --- ### **第一阶段:夯实基础(1-2个月)** #### **知识补缺路径** ```mermaid graph LR A[基础课] --> B(机器学习基础) A --> C(Python编程) B --> D[掌握关键概念:<br>损失函数$L(\\theta)$、梯度下降$\\theta_{t+1}=\\theta_t-\\eta\\nabla L$] C --> E[熟练PyTorch/TF操作] E --> F[HuggingFace库实战] ``` 1. **必学资源**: - 视频课:吴恩达《机器学习》+ HuggingFace官方教程 - 工具:在Google Colab复现BERT文本分类[^3] - 书籍:《Python机器学习实战》(侧重代码实现) 2. **论文入门**: - 精读2篇综述(如:*Knowledge Graphs Meet Large Language Models*) - 用Markdown笔记记录:创新点+技术方案+未解决问题 --- ### **第二阶段:轻量研究(3-4个月)** #### **低成本创新方向(避开复杂模型训练)** | 研究方向 | 工具组合 | 产出目标 | |-----------------|-------------------------|------------------------| | 知识增强推理 | HuggingFace + Neo4j | 构建医疗问答原型系统 | | 提示工程优化 | LangChain + ChatGPT API | 设计CoT提示模板[^2] | | 知识图谱补全 | pyKEEN库 + 公开数据集 | 在FB15k数据集跑通实验 | **实验设计示例**: ```python # 用预训练LLM+知识图谱检索(避免训练开销) from langchain.chains import RetrievalQA from langchain.llms import OpenAI qa_chain = RetrievalQA.from_chain_type( llm=OpenAI(model_name="gpt-3.5-turbo"), retriever=neo4j_vector_store.as_retriever() # 知识图谱检索器 ) print(qa_chain.run("心绞痛患者禁忌用药?")) # 医疗领域测试 ``` #### **写作突破点** 1. **问题创新**:针对特定领域(如金融法规[^4])设计知识约束 2. **评测创新**:提出新指标(如`知识覆盖率`$C_k=\\frac{\\text{覆盖事实数}}{\\text{总事实数}}$) 3. **开源贡献**:发布代码/数据集到GitHub(增加论文录用概率) --- ### **第三阶段:论文冲刺(1-2个月)** #### **目标会议选择** | 会议 | 特点 | 学生友好度 | |------------|--------------------------|------------| | **COLING** | 接收实证研究短文 | ★★★★☆ | | **ISWC** | 知识图谱专项(易中workshop)| ★★★★☆ | | **CIKM** | 工程导向(系统Demo易中) | ★★★☆☆ | #### **写作模板结构(简化版)** ```latex \section{方法} 本文提出\textbf{知识锚定提示法}(Knowledge-Anchored Prompting): $$ \\mathcal{P}_{KA} = \\underbrace{\\text{[KG三元组]}}_{\\text{知识锚}} + \\underbrace{\\text{“基于知识回答”}}_{\\text{指令}} $$ \section{实验} 对比模型:\\begin{itemize} \item 基线:ChatGPT \\& LLaMA \item 本文:KAP-LLaMA(+知识锚) \\end{itemize} 结果:在金融FAQ数据集上准确率提升\\textcolor{red}{15.2\\%} ``` --- ### **避坑指南(针对基础薄弱者)** 1. **不碰大模型训练**:专注API调用/轻量微调(节省GPU资源) 2. **用公开图谱数据**: - 医疗:UMLS知识库 - 金融:SEC报告结构化数据[^4] 3. **合作策略**:与NLP实验室研究生组队(贡献代码/数据收集) --- ### **进度自查表** | 时间节点 | 里程碑目标 | 完成标志 | |----------|-----------------------------|------------------------------| | 第1个月 | 跑通HuggingFace文本分类示例 | 复现BERT准确率≥85% | | 第3个月 | 完成知识检索原型系统 | Neo4j成功返回10类实体 | | 第5个月 | 产出对比实验结果 | 表格显示本文方法超越基线3点↑ | | 第6个月 | 完成论文初稿 | 获得导师“可投递”反馈 | ---
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值