世界文学知识图谱:构建、可视化与评估
1. 跨国作家概念编码与作品出版历史建模
在语义模型中,为减少西方出身人员被选中的数量,设定了特定条件。第一个日期标志着西班牙美洲独立战争的开始,第二个日期则象征着亚非地区非殖民化进程的开端。同时,将“跨国”条件与作者国籍相结合,以揭示知识库中可能存在的代表性不足的作家。例如,雅克·德里达和斯利曼·阿泽姆都被归类为“跨国”作家,尽管他们出生于阿尔及利亚,但雅克·德里达并非阿尔及利亚公民,这有助于推断他的欧洲出身。
在作品出版历史建模方面,在从维基数据、开放图书馆和Goodreads收集数据之前,设计了一个通用的数据模型来对齐这些平台以不同形式呈现的文学信息。根据FRBR本体,将平台上的每个作品定义为frbr:Expression类型的实例,即作品以字母数字、音乐或舞蹈符号形式的智力或艺术实现。将urb:Edition概念定义为frbr:Manifestation的子类,即作品表达的物理体现。这两个概念通过frbr:embodiment属性相连,这种语义关系包含在urb:Publication模式中,它是dul:Event的子类。采用这种模式有两个原因:一是以紧凑的方式表达关于版本的大量事实(出版地点、日期、语言和出版商);二是编码对出版物有贡献但并非作品作者的人员角色。语义模型的最后一个特征是读者群体对作品的反馈,根据作品来源的不同,作品可能有平均评分、评分数量或读者数量。
2. 世界文学知识图谱的创建
2.1 平台间映射
数据收集从维基数据开始,从该知识库中收集所有类型为Person(wd:Q5)、职业为作家(wd:Q36180)、小说家(wd:Q6625963)或诗人(wd:Q49757)、出生于1808年之后且有出生地信息的194,346个实体。为每个作者收集种族、性别、死亡日期和地点、维基百科页面以及所有相关作品,并将从维基数据收集的地理信息转换为“ISO 3166 - 1 alpha 3”代码。
为丰富知识库,对维基数据页面上作家的外部标识符进行了定量分析,重点关注三个标识符:作家的虚拟国际权威文件名称(VIAF)ID、开放图书馆ID和Goodreads ID。为增加映射到VIAF和开放图书馆标识符的作家比例,采用了以下三种启发式方法:
- 通过开放图书馆API检索所有作家的姓名,仅保留满足两个条件的实体:一是知识图谱中的作者姓名与开放图书馆中的姓名完全匹配;二是两者的出生年份相同,最终获得19,737个额外的ID。
- 从Goodreads网站地图中抓取所有作家姓名,过滤掉所有同名者,然后将知识图谱中的所有姓名映射到Goodreads作者列表,仅保留字符串匹配的结果,获得26,019个新ID。
- 通过VIAF搜索与每个作者相关的所有ISBN,并在开放图书馆和Goodreads上通过ISBN进行搜索,从而检索到22,661个开放图书馆ID和44,142个Goodreads ID。
| 标识符 | 映射前 | 映射后 |
|---|---|---|
| VIAF | 163,353 (84.0%) | - |
| Open Library | 36,097 (18.5%) | 71,706 (36.8%) |
| Goodreads | 8,997 (4.6%) | 79,158 (40.7%) |
2.2 映射质量评估
映射完成后,对维基数据与Goodreads、维基数据与开放图书馆之间的部分链接进行了质量评估,以在收集作品之前去除错误链接。评估策略包括三个步骤:
1. 计算同一作家在不同平台上姓名的格式塔模式相似度。例如,Esther Salaman在Goodreads页面上被称为‘Esther Polianowsky Salaman’,两者的格式塔模式得分是0.7。
2. 手动检查100对具有7个相似度等级(x < 0.1, 0.1 ≥x < 0.2, 0.2 ≥x < 0.3, 0.3 ≥x < 0.4, 0.4 ≥x < 0.5, 0.5 ≥x < 0.6, 0.6 ≥x < 0.7)的姓名对。结果表明,正确链接的百分比与作家在不同平台上被提及的姓名相似度成正比。特别是,当相似度在0.5到0.6之间时,准确率急剧上升(77%的正确链接),在0.6到0.7之间时达到89%的准确率。
3. 设置相似度阈值以过滤掉可能不正确的链接。为了优先考虑精度而非召回率,将阈值设置为0.7。最终,有71,706(36.8%)名作家有开放图书馆ID,79,158(40.7%)名作家有Goodreads ID,与至少一个平台链接的作家比例为54%。
2.3 数据收集与统计
在增加作者的外部标识符后,收集了这些平台上作者的所有作品。开放图书馆API允许检索所有作品,并为每个作品获取所有版本,结果包括一组有用的出版信息、读者数量、评分和评分数量。Goodreads不提供API,但允许网页抓取,因此先从作家页面收集所有作品列表、评分和评分数量,然后通过谷歌图书API获取出版信息。
为强调读者社区的作用,仅保留至少获得一次反馈或被至少一名用户标记为已读的作品。各平台收集的作品数量和相关作家数量如下表所示:
| 来源 | 有≥1部作品的作家数量(跨国作家百分比) | 作品数量 |
|---|---|---|
| Wikidata | 22,515 (8.6%) | 117,798 |
| Open Library | 24,370 (12.4%) | 226,108 |
| Goodreads | 60,201 (11.0%) | 627,214 |
| Total | 71,443 (10.6%) | 971,120 |
从读者与作品的互动数量也可以观察读者社区的情况。维基数据不包含用户对文学作品的评价,而开放图书馆和Goodreads可以提供相关信息。两个平台的读者与文学作品的互动数量如下表所示:
| 来源 | 平均评分 | 作品数量 | 读者数量 |
|---|---|---|---|
| Open Library | 3.91 (3.99) | 112,708 (6.0%) | 1.2M (8.5%) |
| Goodreads | 3.86 (3.77) | 1.7B (4.9%) | - |
综上所述,将不同平台的文学事实整合到一个独特的语义资源中,能够更丰富地呈现世界文学,对跨国作家的知识也更加平衡(与至少一部作品相关的跨国作家增加了2%)。此外,这样的数据收集展示了读者社区对作家及其作品传播的影响。
3. 可视化平台
世界文学知识图谱旨在支持高级查询,并与SKATEBOARD无缝集成。SKATEBOARD是一个语义知识高级工具,用于提取、浏览、组织、注释、检索和发现,为用户提供了一种智能直观的方式来探索广阔的文学世界。其界面有“作者”和“作品”两个主要视图,导航流程从搜索感兴趣的主题开始。找到相关主题后,用户可以将资源拖到中央面板上,探索其与其他对象和谓词的关系,创建连接的可视化表示。
通过点击“人物”类型的资源,用户可以访问作者的信息,包括直接关系(如出版作品)和间接关系(如作品涵盖的所有主题或作品出版的所有地点地图)。点击“表达”类型的资源则显示特定作品的信息,如版本、语言和读者评分。文学搜索也可以从知识图谱中的不同类型实体开始,用户可以按作者的出生地或国籍检索所有作家,也可以根据特定少数群体进行搜索,还可以基于主题进行导航。
graph LR
A[开始搜索主题] --> B[找到相关主题]
B --> C[拖资源到中央面板]
C --> D[探索关系并可视化]
D --> E{点击资源类型}
E -->|人物| F[获取作者信息]
E -->|表达| G[获取作品信息]
这个可视化平台为探索和可视化主题、作者和作品之间的关系提供了更新和可定制的界面,在各个研究领域都有潜在应用。
4. 资源评估
为了评估世界文学知识图谱及其可视化平台,组织了一系列与潜在目标用户的结构化访谈,这些用户包括4名教师、6名人文领域的研究人员和3名出版行业的专业人士。访谈分为两部分,第一部分聚焦于搜索跨国作家和作品时平台的使用情况,第二部分则关注该资源在用户工作和研究领域的潜在用途。
4.1 用户体验
在让用户搜索他们选择的至少一位跨国作家和一部作品后,从三个维度调查了用户体验:平台的可用性、结果的完整性和结果的准确性。
-
平台可用性 :大多数用户在导航世界文学知识图谱时遇到了困难。一方面,他们没有意识到搜索区域中的每个元素都可以按照增量范式拖到中央白板上;另一方面,他们未能通过扩展所选实体与图中其他相连实体之间的关系来探索相关信息。不过,少数有知识图谱使用经验的受访者认为平台易于使用,并赞赏通过拖动实体到白板上选择感兴趣对象的功能,认为这能克服基于图的标准导航工具的局限性。推测用户使用困难主要是因为缺乏基于图的资源使用经验,可通过提供更多探索指导(如工具提示、演示模式导航等)来改善。此外,一些用户在输入搜索参数时难以找到合适的作者或作品,有用户建议在网站的单独部分创建按出生地索引的作家姓名列表,尽管这与当前平台从不同类型实体(如主题、国家、话题)探索图的功能部分重叠。
-
结果完整性 :多数受访者对资源的完整性存在误解,将其与维基百科等标准在线档案进行比较。后者面向终端用户,以文本形式包含更丰富的实体信息,但不适合开发依赖基于图表示的应用程序。可以通过更清晰地定义资源的预期用途来解决这个问题。后殖民主义学者提出了更具挑战性的要求,他们抱怨某些作品与主题之间缺少关联。例如,安德里亚·利维的作品《漫长的歌谣》虽与“奴隶制”相关,但在知识图谱中未与该主题建立链接,这是由于数据来源的数字资源中缺乏该主题的归属信息。
-
结果准确性 :几乎所有受访者都认为资源准确,只有少数错误可追溯到数据源。例如,伏尔泰《老实人》的德语译本《老实人或乐观主义》因错误传播被归因于其译者斯蒂芬·赫尔姆林。
4.2 总结与改进方向
通过这次评估,可以总结出世界文学知识图谱和可视化平台在设计和使用上有一定的创新性,但在用户体验方面存在一些问题。为了提升平台的性能和用户满意度,可以采取以下改进措施:
1.
加强用户引导
:针对用户缺乏基于图的资源使用经验的问题,在平台中增加更多的引导功能,如工具提示、演示模式导航等,帮助用户更好地理解和使用平台的操作。
2.
明确资源定位
:修订资源的描述,更清晰地定义其预期用途,避免用户将其与标准在线档案进行不恰当的比较。
3.
完善数据关联
:解决作品与主题之间缺少关联的问题,通过人工审核或改进数据收集方法,确保知识图谱中的数据更加完整和准确。
| 改进方向 | 具体措施 |
|---|---|
| 加强用户引导 | 增加工具提示、演示模式导航等引导功能 |
| 明确资源定位 | 修订资源描述,清晰定义预期用途 |
| 完善数据关联 | 人工审核或改进数据收集方法 |
graph LR
A[用户体验评估] --> B{存在问题}
B -->|平台可用性| C[加强用户引导]
B -->|结果完整性| D[明确资源定位]
B -->|结果准确性| E[完善数据关联]
C --> F[提升用户满意度]
D --> F
E --> F
通过这些改进措施,可以使世界文学知识图谱和可视化平台更好地满足用户的需求,为用户提供更优质的文学探索体验,进一步推动世界文学研究和传播的发展。
超级会员免费看
42

被折叠的 条评论
为什么被折叠?



