9、数字人文中的文本复用与互文性研究

最新推荐文章于 2025-12-23 16:46:33 发布

糖果HTML

最新推荐文章于 2025-12-23 16:46:33 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：定量互文性：信息重用的科学文章标签：数字人文文本复用互文性

本文链接：https://blog.youkuaiyun.com/m5n6o7/article/details/154969171

定量互文性：信息重用的科学专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数字人文中的文本复用与互文性研究

1. 搜索程序概述

在数字人文领域，大量的定量互文性研究采用基于单词的特征，如n - 元语法（n - grams），仅通过单词就能揭示许多有意义的互文关系。即便使用非词汇特征，通常也会与词汇特征结合使用，且非词汇特征大多源于单词，像词性标注、命名实体提取、主题建模、情感分析以及语音和韵律转录等，都依赖于文本的标记。

文本复用检测一直是数字人文中创新语文学研究的基础。许多数字人文项目，如PAIR、Tesserae和TRACER等，虽源于特定的语文学研究，但都为通过识别文本复用来发现互文性提供了可推广的解决方案，并应用于其他相关工作。

这些项目识别文本复用的基本流程如下：
1. 特征提取 ：简单的情况是基于空格进行分词，常见的还包括词形还原、停用词过滤、代词解引用等步骤，同时创建n - 元语法或分片（shingles）也很流行。
2. 索引：生成一个倒排列表，用于标识语料库中单词（或其他词汇特征）的位置。
3. 链接：比较两个（或多个）感兴趣文本的索引，对于在两个文本中都出现的每个特征，将其所有出现位置进行初始链接。
4. 收集：将单个链接在感兴趣的文本单元层面进行整理，这些文本单元可以是诗句、句子、固定大小的单词或字符样本，也可以是对不匹配单词有一定容忍度的灵活区域。
5. 排序/过滤 ：根据匹配的特征为结果赋予相对重要性，例如，保留至少共享N个特征的段落，或者在结果列表中优先显示基于稀有或显著特征的匹配。

会员秒杀 ¥9.9 重磅福利

超级会员免费看