9、数字人文中的文本复用与互文性研究

数字人文中的文本复用与互文性研究

1. 搜索程序概述

在数字人文领域,大量的定量互文性研究采用基于单词的特征,如n - 元语法(n - grams),仅通过单词就能揭示许多有意义的互文关系。即便使用非词汇特征,通常也会与词汇特征结合使用,且非词汇特征大多源于单词,像词性标注、命名实体提取、主题建模、情感分析以及语音和韵律转录等,都依赖于文本的标记。

文本复用检测一直是数字人文中创新语文学研究的基础。许多数字人文项目,如PAIR、Tesserae和TRACER等,虽源于特定的语文学研究,但都为通过识别文本复用来发现互文性提供了可推广的解决方案,并应用于其他相关工作。

这些项目识别文本复用的基本流程如下:
1. 特征提取 :简单的情况是基于空格进行分词,常见的还包括词形还原、停用词过滤、代词解引用等步骤,同时创建n - 元语法或分片(shingles)也很流行。
2. 索引 :生成一个倒排列表,用于标识语料库中单词(或其他词汇特征)的位置。
3. 链接 :比较两个(或多个)感兴趣文本的索引,对于在两个文本中都出现的每个特征,将其所有出现位置进行初始链接。
4. 收集 :将单个链接在感兴趣的文本单元层面进行整理,这些文本单元可以是诗句、句子、固定大小的单词或字符样本,也可以是对不匹配单词有一定容忍度的灵活区域。
5. 排序/过滤 :根据匹配的特征为结果赋予相对重要性,例如,保留至少共享N个特征的段落,或者在结果列表中优先显示基于稀有或显著特征的匹配。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值