知识图谱:从奴隶贸易到世界文学的探索
1. 社区驱动的知识图谱开发方法
在知识图谱的开发领域,有一种社区驱动的方法备受关注。以 Enslaved.Org Hub 为例,它是一个部署在 Wikibase 平台上的知识图谱,可通过 https://enslaved.org/ 公开访问。这种开发方法主要包括以下几个步骤:
1. 开发知识图谱模式(本体) :依据最佳实践来构建知识图谱的本体结构。
2. 调整模式 :使模式适应底层语义和将部署知识图谱的技术栈。
3. 数据处理 :对知识图谱的内容进行去重(或解决共指问题)、实例化和验证。
4. 部署知识图谱 :包括部署用于发现、导航和可视化的定制工具。
下面用 mermaid 格式的流程图展示这个过程:
graph LR
A[开发知识图谱模式] --> B[调整模式]
B --> C[数据处理]
C --> D[部署知识图谱]
这个方法的第一步在相关研究中有详细描述,第二步则结合了将传统本体结构无缝映射到 Wikibase 的最新工作。第三步通过较小的任务进行处理,第四步则从 Enslaved.Org Hub 的部署中吸取了经验教训。这些步骤具有一定的通用性,对有兴趣在 Wikibase 上创建、部署和维护知识图谱的社区成员有很大帮助。
2. 未来工作方向
为了进一步完善这种方法,有两个重要的下一步工作被确定:
- 本体到形状表达式 :目前缺乏将本体转换为形状表达式的通用方法。Enslaved.Org 项目采用的是手动处理方式,而开发一种将本体公理解释为形状表达式的通用方法将非常有用,特别是可以研究 WShex 的适用性。
- 可配置的调和 :当前推荐使用 OpenRefine 的模糊搜索功能,但共指解析仍是一个开放领域。专注于在映射到受控词汇表的更严格范围内进行去重方法可能会更容易。
3. 世界文学知识图谱的背景与需求
数字媒体为文学知识的获取带来了前所未有的便利,作者、读者和学者能够发现和分享大量关于书籍及其作者的信息。然而,这些知识来源存在碎片化问题,且对非西方作家及其作品的呈现不足。例如,Wikidata 和 Wikipedia 都存在种族和性别偏见,在对 Wikipedia 上 48,789 篇传记的分析中,进一步证实了这种代表性偏差的存在。
为了解决这些问题,世界文学知识图谱(WL - KG)应运而生。它包含 194,346 位作家和 971,210 部作品,整合了来自三个不同读者社区关于文学作品接受情况的信息,并按照单一语义模型进行对齐。以下是相关资源的对比表格:
| 资源名称 | 特点 | 数据模式 |
| ---- | ---- | ---- |
| Wikidata | 通用知识图谱,包含作家和作品知识 | 遵循 Linked Open Data 范式 |
| Goodreads | 社交编目网站,读者分享书籍印象 | 曾有 API,2020 年停用 |
| Open Library | 可借阅书籍的项目 | 通过 API 暴露数据 |
WL - KG 旨在支持两个主要任务:分析非西方作家的代表性不足问题,以及研究不同读者社区对作品的接受情况。这两个任务又能为推荐系统和发现工具等应用提供支持,并且对文学领域的专业人士和跨文化工作者来说是一个实用工具。为了方便目标用户使用,它被托管在一个可视化平台上,该平台经过三类专家从完整性、准确性和可用性三个维度的测试,结果表明它可以作为传统文学搜索工具的替代,尤其在发现新作家方面表现出色。
4. 世界文学知识图谱的理论框架与相关工作
4.1 世界文学理论框架
世界文学是文学研究的一种新方法,强调作品是了解不同地区的窗口。在这种视角下,需要打破国家和时间界限,关键在于分析作品如何超越本地背景并在全球范围内被接受。社交媒体带来的关于作家和作品的大量知识,为远程阅读方法和数字人文研究提供了基础。WL - KG 借鉴了这种理论中的接受中心性和非西方中心方法,不仅可以用于发现世界各地的作家和作品,还能分析读者社区对作家代表性的影响,并探索解决方法。
4.2 语义技术在文学研究中的应用
在线上有多种提供文学作品和作家信息的数字资源。除了前面提到的 Wikidata、Goodreads 和 Open Library 外,还有一些专业的数字档案:
- 专题档案 :如欧洲文学文本集是 1848 - 1920 年多语言小说数据集;DraCor 是多语言戏剧语料库;MiMoText 是 1750 - 1799 年法德小说平行语料库。
- 社会相关资源 :日本视觉媒体图收集粉丝社区关于日本视觉媒体的数据;奥兰多文本库用于探索女权主义文学;WeChangeEd 是与 Wikidata 对齐的 1710 - 1920 年 1800 位女性编辑的知识图谱。
WL - KG 是首个研究文学创作与作家种族信息交集的资源,它既可以促进数字人文和文学研究,又能作为分析 Wikidata 在文学领域知识差距的基准数据集。
4.3 可视化平台
许多工作涉及链接数据的可视化界面,但专注于数字人文领域(主要是数字图书馆)的较少。以下是几种相关可视化平台的对比:
| 平台名称 | 交互范式 | 信息缩减策略 |
| ---- | ---- | ---- |
| ARCA | 节点链接范式和表格范式 | 允许资源的增量可视化 |
| Yewno Discover | 节点链接可视化 | 使用排名算法过滤显示内容 |
| ResearchSpace | 节点链接交互范式 | 采用增量可视化进行知识探索,支持文本或图像的协作注释 |
由于 ARCA 系统的灵活性和模块化,基于它开发了一个名为 SKATEBOARD 的扩展,以满足用户与世界文学知识图谱交互的特定需求。
5. 世界文学知识图谱的语义模型
5.1 UR - 本体网络
WL - KG 的数据按照 Under - Represented 本体网络(UR - O)进行建模,该网络由两个模块组成:修订版的 Under - Represented Writers Ontology(URW - O)和用于作品编码的 Ontology of Under - Represented Books(URB - O)。它与三个权威本体进行映射:
- FRBR :用于建模作品、表达和表现形式之间的关系。
- PROV - O :继承归因、关联和推导关系,明确数据来源、参与作品特定版本的人员和组织及其角色。
- DOLCE :作为编码传记和出版事件的参考模型,将出版物和生活事件表示为实体扮演特定角色的时间受限过程。
5.2 建模代表性不足问题
为了建模作家基于种族的代表性不足问题,采用了后殖民研究中的两个标准:作者要么出生在非西方前殖民地国家,要么属于西方国家的少数民族。但仅以出生国家为标准容易产生误判,因此引入了“跨国”这一术语,将 1808 年后出生在拉丁美洲和加勒比海前殖民地以及 1917 年后出生在非洲和亚洲前殖民地的人归类为“跨国”。
通过以上对社区驱动知识图谱开发方法和世界文学知识图谱的介绍,我们可以看到知识图谱在不同领域的重要作用和发展潜力,未来有望在更多方面得到应用和完善。
6. 世界文学知识图谱的创建过程
6.1 数据收集
WL - KG 的数据来源于三个主要渠道:Wikidata、Open Library 和 Goodreads。从这些数据源收集关于作家和作品的信息,例如作家的基本信息(姓名、出生日期、出生地等)、作品的相关信息(标题、出版日期、版本等)。以下是数据收集的简单流程:
1. 确定数据需求,明确需要从数据源中获取的信息类型。
2. 针对每个数据源,使用相应的接口或工具进行数据提取。对于 Wikidata,可以使用其查询接口;对于 Open Library 和 Goodreads,根据其提供的数据访问方式进行操作。
3. 对提取的数据进行初步整理和清洗,去除重复、无效或错误的数据。
6.2 数据整合
收集到的数据需要进行整合,以确保它们符合 UR - 本体网络的语义模型。整合过程包括以下步骤:
1. 数据映射 :将不同数据源的数据映射到 UR - 本体网络的概念和属性上。例如,将 Wikidata 中关于作家的描述与 URW - O 中的相关概念进行对应。
2. 实体对齐 :识别不同数据源中表示同一实体的记录,并将它们合并为一个统一的实体。这可以通过比较实体的属性值(如姓名、出生日期等)来实现。
3. 数据融合 :将映射和对齐后的数据进行融合,形成一个完整的数据集。在融合过程中,需要处理数据冲突,例如不同数据源中对同一属性的不同取值。可以根据数据的可靠性和优先级进行选择。
下面用 mermaid 格式的流程图展示数据整合的过程:
graph LR
A[数据映射] --> B[实体对齐]
B --> C[数据融合]
6.3 数据验证
为了确保数据的质量,需要对整合后的数据进行验证。验证过程包括以下几个方面:
1. 完整性验证 :检查数据是否包含所有必要的信息,例如作家是否有姓名、作品是否有标题等。
2. 准确性验证 :验证数据的准确性,例如日期是否合理、属性值是否符合逻辑等。
3. 一致性验证 :确保数据在整个数据集中的一致性,例如同一实体的属性值在不同记录中是否相同。
7. 世界文学知识图谱的可视化平台实现
7.1 基于 ARCA 的扩展
如前文所述,选择 ARCA 系统作为基础,开发了 SKATEBOARD 扩展。SKATEBOARD 针对 WL - KG 的特点进行了定制和优化,主要包括以下方面:
1. 交互范式定制 :根据 WL - KG 的数据结构和用户需求,对 ARCA 的节点链接范式和表格范式进行调整,以更好地展示文学知识图谱的信息。
2. 信息缩减策略优化 :改进 ARCA 的增量可视化功能,使其更适合处理 WL - KG 中的大量数据。同时,结合排名算法等技术,帮助用户快速找到感兴趣的信息。
7.2 平台功能实现
SKATEBOARD 平台实现了以下主要功能:
1. 图探索功能 :允许用户通过节点链接图的方式探索 WL - KG 中的实体和关系。用户可以点击节点查看详细信息,通过边了解实体之间的关联。
2. 搜索功能 :提供搜索接口,用户可以输入关键词搜索相关的作家、作品或其他实体。搜索结果将以可视化的方式展示,方便用户查看。
3. 数据分析功能 :支持对 WL - KG 中的数据进行分析,例如统计不同地区作家的数量、分析作品的出版趋势等。分析结果将以图表的形式呈现,帮助用户直观地了解数据特征。
以下是 SKATEBOARD 平台功能的对比表格:
| 功能名称 | 描述 |
| ---- | ---- |
| 图探索功能 | 通过节点链接图探索实体和关系 |
| 搜索功能 | 输入关键词搜索相关实体 |
| 数据分析功能 | 对数据进行统计和分析,以图表展示结果 |
8. 世界文学知识图谱的评估
8.1 评估指标
邀请了三类专家(教师、人文研究人员和出版行业专业人士)对 WL - KG 和 SKATEBOARD 平台进行评估,评估指标包括以下三个方面:
1. 完整性 :评估知识图谱是否包含了足够的信息,例如是否涵盖了不同地区的作家和作品。
2. 准确性 :检查数据的准确性,例如作家的出生日期、作品的出版信息等是否正确。
3. 可用性 :考察平台的易用性,例如界面是否友好、操作是否方便等。
8.2 评估结果
评估结果表明,WL - KG 和 SKATEBOARD 平台在完整性、准确性和可用性方面都表现良好。专家们认为,该知识图谱可以作为传统文学搜索工具的有效替代,尤其在发现新作家方面具有优势。以下是评估结果的简单总结:
| 评估指标 | 评估结果 |
| ---- | ---- |
| 完整性 | 涵盖了广泛的作家和作品信息 |
| 准确性 | 数据准确可靠 |
| 可用性 | 平台界面友好,操作方便 |
9. 总结与展望
9.1 总结
本文介绍了社区驱动的知识图谱开发方法和世界文学知识图谱(WL - KG)。社区驱动的方法为在 Wikibase 平台上创建、部署和维护知识图谱提供了通用的步骤。WL - KG 整合了来自多个数据源的文学信息,采用 UR - 本体网络进行建模,解决了传统文学知识来源碎片化和非西方作家代表性不足的问题。通过 SKATEBOARD 平台,用户可以方便地探索和分析文学知识。
9.2 展望
未来,知识图谱在文学领域的应用还有很大的发展空间。可以进一步完善 WL - KG 的数据,增加更多的数据源和信息类型。同时,可以探索更复杂的数据分析方法,挖掘文学作品中的潜在信息。此外,还可以将知识图谱与人工智能技术相结合,开发更智能的文学推荐系统和创作辅助工具。
总之,知识图谱为文学研究和应用带来了新的机遇,有望在未来推动文学领域的发展。
超级会员免费看

被折叠的 条评论
为什么被折叠?



