43、语言数据管理：从基础类型到获取方法-优快云博客

本文链接：https://blog.youkuaiyun.com/z2a3b4c5d/article/details/155078443

语言数据管理：从基础类型到获取方法

1. 基础数据类型

尽管TIMIT语料库较为复杂，但它仅包含两种基本数据类型，即词典和文本。

1.1 词典

词典类的词汇资源大多可用记录结构来表示，也就是一个键加上一个或多个字段。以下是几种常见的词典类型：
- 传统词典或比较词表 ：如常规的字典，以单个单词为键，包含其释义等信息。
- 短语词典 ：键字段为短语而非单个单词。
- 词库：由记录结构的数据组成，可通过与主题对应的非键字段查找词条。
- 特殊列表（范式） ：用于展示对比和系统变化，例如三个动词的特殊列表。
- TIMIT的说话者表 ：也是一种词典。

1.2 文本

从最抽象的层面看，文本是对真实或虚构言语事件的一种呈现，该事件的时间进程会延续到文本本身。文本可以是小的单元，如单词或句子，也可以是完整的叙述或对话，还可能带有词性标注、形态分析、话语结构等注释。

2. 语料库的生命周期

语料库并非一蹴而就，而是需要经过长时间的精心准备和多人的投入。

2.1 语料库创建的三种场景

探索式创建 ：在创作者的探索过程中逐步形成设计，这是传统“田野语言学”的典型模式。在这种模式下，收集的材料会及时分析，后续的收集往往基于当前分析中产生的问题。例如，Shoebox（现重新发布为Toolbox）等软件工具可辅助此类工作，简单的文字处理器和电子表格也常用于数据采集。
实验研究式创建 ：收集精心设计的材料，从大量人类受试者处获取数据，然后进行分析以验证假设或开发技术。这类数据库在实验室或公司内常被共享和复用，也会更广泛地发布，是“共同任务”研究管理方法的基础。
参考语料库创建 ：旨在为特定语言创建全面的记录，如美国国家语料库（ANC）和英国国家语料库（BNC）。这类语料库依赖自动注释工具和后期编辑来修正错误，同时可编写程序定位和修复错误，并分析语料库的平衡性。

2.2 质量控制

创建高质量语料库，不仅需要好的自动和手动数据准备工具，还依赖于文档记录、培训和工作流程等方面。
- 注释指南 ：定义任务并记录标记约定，需定期更新以涵盖困难情况和新规则，确保注释的一致性。
- 注释人员培训 ：培训注释人员掌握流程，包括解决指南未涵盖情况的方法。
- 工作流程建立 ：建立工作流程，可能借助支持软件，跟踪文件的初始化、注释、验证、手动检查等状态。
- 一致性测量 ：可通过让两人独立注释部分源材料来测量注释人员之间的一致性。常用的测量方法有Kappa系数κ和Windowdiff算法。

Kappa系数κ

Kappa系数κ用于测量两人进行类别判断时的一致性，会校正预期的偶然一致性。例如，当有四个编码选项且可能性相等时，两人随机编码的预期一致率为25%，此时κ = 0；若一致率为50%，则κ = 0.333。

Windowdiff算法

Windowdiff算法用于评估两种语言输入分割的一致性，通过在数据上滑动窗口并为接近匹配的情况给予部分分数。示例代码如下：

import nltk

s1 = "00000010000000001000000"
s2 = "00000001000000010000000"
s3 = "00010000000000000001000"

print(nltk.windowdiff(s1, s1, 3))  # 输出: 0
print(nltk.windowdiff(s1, s2, 3))  # 输出: 4
print(nltk.windowdiff(s2, s3, 3))  # 输出: 16

2.3 管理与演变

随着大型语料库的发布，研究人员越来越倾向于基于从不同目的的语料库中提取的平衡、有针对性的子集进行研究。但使用派生语料库存在一些问题，如缺乏派生版本的创建记录和最新版本信息。以下是几种应对方式：
- 集中管理 ：由专家委员会定期修订和扩展语料库，但这种模式对大多数语料库不实用。
- 中间方案 ：原语料库发布时采用标识子部分的方案，如为每个句子、树或词汇条目设置全局唯一标识符，注释可通过该方案引用源材料（即独立注释）。若语料库有多个版本，版本号或日期可作为标识方案的一部分，通过对应表可轻松更新独立注释。

3. 数据获取

3.1 从网络获取数据

网络是语言分析数据的丰富来源，获取网络文本数据有以下几种方法：
- 使用已发布的网络语料库 ：ACL特殊兴趣小组SIGWAC维护了相关资源列表（http://www.sigwac.org.uk/），使用定义明确的网络语料库具有文档记录完善、稳定且可重复实验的优点。
- 特定网站内容抓取 ：可使用GNU Wget（http://www.gnu.org/software/wget/）等工具捕获网站的所有可访问内容。
- 使用网络爬虫 ：如Heritrix（http://crawler.archive.org/），可实现细粒度的控制，包括查找位置、跟踪链接和组织结果。但编写自己的网络爬虫可能会遇到诸多问题，如检测MIME类型、URL转换、避免陷入循环链接结构等。

3.2 从文字处理文件获取数据

文字处理软件常用于手动准备文本和词典，但不能保证数据结构正确。例如，词典中的每个词条可能有特定的词性字段，常规文字处理器难以验证其正确性。若文字处理器允许将文档保存为非专有格式（如文本、HTML或XML），则可编写程序进行自动检查。

以下是一个检查词典文件中词性一致性的示例程序：

import re

legal_pos = set(['n', 'v.t.', 'v.i.', 'adj', 'det'])
pattern = re.compile(r"'font-size:11.0pt'>([a-z.]+)<")
document = open("dict.htm").read()
used_pos = set(re.findall(pattern, document))
illegal_pos = used_pos.difference(legal_pos)
print(list(illegal_pos))  # 输出: ['v.i', 'intrans']

当数据格式正确后，还可编写程序将数据转换为不同格式，如将Microsoft Word创建的HTML转换为逗号分隔值（CSV）格式：

import csv
import nltk
import re

def lexical_data(html_file):
    SEP = '_ENTRY'
    html = open(html_file).read()
    html = re.sub(r'<p', SEP + '<p', html)
    text = nltk.clean_html(html)
    text = ' '.join(text.split())
    for entry in text.split(SEP):
        if entry.count(' ') > 2:
            yield entry.split(' ', 3)

writer = csv.writer(open("dict1.csv", "wb"))
writer.writerows(lexical_data("dict.htm"))

3.3 从电子表格和数据库获取数据

电子表格 ：常用于获取词表或范式，大多数电子表格软件可将数据导出为CSV格式，Python程序可使用 csv 模块轻松访问。
数据库 ：词典有时存储在成熟的关系数据库中，规范化的数据库可确保数据的有效性，但关系模型要求提前声明数据结构，这与语言数据的探索性特点相悖。当目标只是提取数据库内容时，可将表或SQL查询结果导出为CSV格式并加载到程序中。例如，程序可能执行一些难以用SQL表达的语言相关查询，如选择例句中出现但词典中无条目的所有单词。

4. 数据获取方法总结

4.1 数据获取流程

我们可以用mermaid格式的流程图来展示数据获取的一般流程：

graph LR
    A[确定数据需求] --> B[选择数据获取途径]
    B --> C{途径类型}
    C -->|网络| D[选择获取方式]
    C -->|文字处理文件| E[检查数据格式]
    C -->|电子表格和数据库| F[导出为CSV格式]
    D -->|已发布语料库| G[直接使用]
    D -->|特定网站抓取| H[使用工具抓取]
    D -->|网络爬虫| I[编写或使用工具]
    E --> J[编写程序检查]
    J --> K[转换数据格式]
    F --> L[加载到程序中]
    G --> M[数据预处理]
    H --> M
    I --> M
    K --> M
    L --> M
    M --> N[数据分析]

5. 数据处理与应用

5.1 数据预处理

在获取到数据后，通常需要进行预处理，以提高数据质量和可用性。常见的数据预处理步骤包括：
- 清洗数据 ：去除噪声、重复数据和无效信息。
- 标注数据 ：为数据添加标签，如词性标注、命名实体识别等。
- 分词处理 ：将文本分割成单词或短语。

5.2 数据分析

5.3 数据应用案例

以下是一个简单的词频统计示例，展示如何对获取的数据进行分析：

import nltk
from collections import Counter

# 假设text是获取到的文本数据
text = "This is a sample text. This text is for demonstration purposes."
tokens = nltk.word_tokenize(text)
word_freq = Counter(tokens)
print(word_freq.most_common(5))  # 输出出现频率最高的5个单词

6. 总结与展望

6.1 总结

本文介绍了语言数据的基础类型，包括词典和文本，以及语料库的生命周期，涵盖创建场景、质量控制和管理演变等方面。同时，详细阐述了数据获取的多种途径，如从网络、文字处理文件、电子表格和数据库获取数据，并给出了相应的代码示例和操作步骤。此外，还讨论了数据处理和分析的方法，以及常见的应用场景。

6.2 展望

随着自然语言处理技术的不断发展，对语言数据的需求将越来越大。未来，我们可以期待以下方面的发展：
- 数据获取技术的改进 ：更高效、智能的网络爬虫和数据采集工具将不断涌现，提高数据获取的质量和效率。
- 语料库建设的完善 ：更多高质量、大规模的语料库将被创建，为自然语言处理研究提供更丰富的数据资源。
- 数据分析方法的创新 ：新的数据分析算法和模型将不断出现，提高语言分析的准确性和深度。

通过不断探索和创新，我们将能够更好地管理和利用语言数据，推动自然语言处理技术的发展。