65、中文短语语义规则的自动获取与文本分类特征选择

最新推荐文章于 2025-11-04 12:04:35 发布

jupyter5notebook

最新推荐文章于 2025-11-04 12:04:35 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏：信息检索前沿探析文章标签：中文短语语义规则特征选择文本分类

本文链接：https://blog.youkuaiyun.com/jupyter5notebook/article/details/153395719

信息检索前沿探析专栏收录该内容

73 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

中文短语语义规则的自动获取与文本分类特征选择

在自然语言处理领域，中文短语语义规则的获取以及文本分类中的特征选择都是重要的研究方向。下面将详细介绍相关的研究内容和成果。

中文短语语义规则的表示与获取

中文短语语义规则旨在明确具有何种语义的词以何种方式组合成短语，以及所形成短语的类型。根据中文短语的组合规则特性和知网的知识词典标记语言（KDML），中文短语语义规则的模式规定如下：
∷= ( { }+)
其中，是短语各组成部分的词性标签序列；是短语的句法结构类型代码；展示了各组成部分之间的依赖关系；是概念定义模式，描述了每个组成部分的义原要求。若短语由 n 个组成部分构成，则相应规则应包含 n 个，称为 n - 元规则。

为增强描述能力，在 KDML 中引入了前缀 HYP 和有限变量。带有前缀 HYP 的义原可匹配知网义原层级结构中给定义原的任意子义原，使规则更具概括性；用有限变量替换义原则便于描述各组成部分之间的语义关系。

获取问题描述

将中文短语标注语料中的示例视为事务，各种标签及其泛化形式视为项，获取中文短语语义规则的问题可转化为关联规则挖掘问题。语料中的每个示例都有三种必要标签：句法结构类型标签（记为 β1）、语义关系类型标签（记为 β2）以及短语各组成部分的首个义原标签或其泛化形式（记为 β3[j]，j 为各组成部分的序号，1 ≤ j ≤ n）。获取的规则也应具备这三种标签，约束条件可表示为以下元规则 P 来指导挖掘过程：
设 I = {i1, i2, …, im} 为项的全集，D = {T1, T2, …, Tq} 为事务的全集。若 T 是 D 中的一个事务，则 T ∈ D 且 T ⊂ I。元规则 P 是 n - 元语义规则的模式：
A1 ∧ A2 ∧ … ∧ An ⇒ B1 ∧ B2
其中 B1 ∈ β1，B2 ∈ β2，Aj ∈ β3[j]，j = 1, 2, …, n。
获取中文短语语义规则的问题是在项的全集 I 和事务的全集 D 上，由元规则 P 引导的跨层强关联规则挖掘问题，分为两个步骤：首先找出所有符合元规则 P 的频繁项集；然后从这些频繁项集中生成强关联规则。

寻找频繁项集

Apriori 是挖掘单维布尔关联规则频繁项集的著名算法。为获取中文短语语义规则，提出了 Apriori 的变体 P_CLA，它是一种由元规则引导的跨层关联规则挖掘算法。
P_CLA 采用逐层搜索的迭代方法。在第一次迭代中，find_frequent_1 - itemsets 过程找出频繁 1 - 项集 L1，由于 L1 中的每个项集都符合元规则 P，也可记为 (P_{L1})。在后续的每次迭代中，符合元规则 P 的频繁 k - 项集 (P_{kL}) 用于探索 (P_{kL + 1})：
1. 生成候选集 ：gen_candidates 过程通过连接和剪枝两个操作生成 (P_{kC + 1})。
- 连接步骤 ：(P_{kC + 1}) 通过 (P_{kL}) 自身连接生成。设 l1 和 l2 是 (P_{kL}) 中的项集（假设事务或项集中的项按字典序排序），若 l1 和 l2 的前 k - 1 项相同且项之间不存在“祖先”或“同类”关系，则它们可连接，这样既能避免生成重复项集，又能确保生成的项集符合元规则 P。
- 剪枝步骤 ：(P_{kC + 1}) 是 (P_{kL + 1}) 的超集，可能非常大。为减小其规模，使用 Apriori 属性。对于 P_CLA，应用以下两个派生属性：一是符合元规则 P 的频繁项集的所有非空子集也必须频繁且符合元规则 P；二是使用统一的最小支持度，频繁项集的所有祖先也必须频繁，反之，非频繁项集的任何子项集都不可能频繁。gen_candidates 过程进行两次剪枝：在连接步骤生成每个候选集后立即进行早期剪枝，若候选集的任何 k - 项子集不属于 (P_{kL})，则将其剪枝，所有被剪枝的候选集添加到集合 Et 中；连接步骤完成后进行后期剪枝，若 (P_{kC + 1}) 中候选集的任何祖先属于 Et，则将该候选集剪枝。为减少项集之间祖先关系的重复判断，Et 中仅保留所有已知非频繁 k - 项集的最小覆盖成员。
2. 事务缩减 ：在 P_CLA 算法中，采取了三种事务缩减措施：
- 找到频繁 1 - 项集后，从数据库 D 中的每个事务中移除非频繁项，并消除不包含任何频繁 1 - 项集的事务，缩减后的数据库记为 D1。
- 在扫描 Dk 以确定 (P_{kL + 1}) 时，移除不包含任何频繁 k - 项集的事务，得到的数据库为 Dk + 1。
- 找到 (P_{kL + 1}) 后，若候选集的淘汰率大于阈值，则再次缩减 Dk + 1。

生成候选规则

在元规则 P 的约束下，P_CLA 找到的任何频繁项集 c 中只有一个句法结构类型项（记为 b1，b1 ∈ β1）和一个语义关系类型项（记为 b2，b2 ∈ β2）。若 c 中的其他项记为 a1, a2, …, ak，则从 c 生成的候选规则 r 为“a1 ∧ a2 ∧ … ∧ ak ⇒ b1 ∧ b2”。通过规则形式的转换，从这些强候选关联规则中获取候选短语语义规则。

优化短语语义规则集

候选短语语义规则集中，由于项之间的“祖先”关系和项集之间的“超集”关系，部分规则存在冗余。若直接用于解析中文短语，不仅会增加计算量，还会产生大量干扰和误导。
设 GL 是在上述步骤中生成的候选规则集。为去除冗余规则，基于规则之间支持度计数和置信度的近似程度以及最强约束原则，在 GL 上定义“覆盖”关系。
设 p 和 q 是 GL 中的规则，若满足以下两个条件：一是 p 和 q 的置信度近似相等，即 |confidence(p) - confidence(q)| ≤ ε（接近 0）；二是 p 是 q 的祖先规则（若 p 可通过在概念层级结构中用 q 中的项的祖先替换得到）或子集规则（若 p 和 q 的右侧相同且 p 的左侧是 q 的左侧的子集），或者存在 p 的子规则是 q 的子集规则，且 p 和 q 的支持度计数也近似相等，即 support(q) / support(p) ≥ μ，则称 q 覆盖 p，记为 p ≺ q；否则，称 p 覆盖 q，记为 q ≺ p。

由于 GL 上的“覆盖”关系近似传递，(GL, ≺) 可视为偏序集。受偏序集哈斯图的启发，绘制 GL 的覆盖关系图的方法如下：
1. GL 中的每个规则用一个顶点表示。
2. 设 p, q ∈ GL，若 p ≺ q，则从顶点 q 向顶点 p 绘制一条弧；若存在 r ∈ GL，且 p ≺ r ≺ q，则移除从顶点 q 到顶点 p 的弧。
3. 移除每个顶点的自环。图中入度为零的顶点对应的所有规则构成 GL 的最优集。

语义规则优化算法的主要思路是：首先绘制 GL 的覆盖关系图；然后按候选规则长度的非降序检查每个顶点的入度是否为零；最后将入度为零的顶点对应的规则添加到 GL 的最优集。得到的 GL 最优集即为获取的中文短语语义规则集。

实验与结果

使用一个包含 8516 个中文短语的训练语料，这些短语是从《人民日报》语料库（2000 年）和《读者》杂志电子版（1995 - 2006 年）中半自动提取的，语料可分为“n + n”、“adj + n”、“m + n”、“adj + adj”、“m + adj”、“v + n”和“n + v + n” 等八个子集。所有短语都标注了句法和语义信息，如词性、语义关系等，所有词元都用知网定义进行了标注。

采用上述方法在语料上进行实验，找到 3266 条候选短语语义规则，优化后仅保留 379 条。为验证方法的有效性，使用以下三种不同的规则集分别解析中文短语：
- R1：直接从知网 - 中文消息结构库的消息结构改编而来的规则集。
- R2：由提出的挖掘候选规则算法生成的规则集。
- R3：通过优化算法获取的规则集。

使用整个训练语料进行封闭测试，使用从报纸文本中提取的 2000 条短语（仅标注词性）的测试语料进行开放测试。实验结果如下表所示：
|规则集|规则数量|封闭测试召回率(%)|封闭测试准确率(%)|开放测试召回率(%)|开放测试准确率(%)|
| ---- | ---- | ---- | ---- | ---- | ---- |
|R1|215|80.4|69.5|78.3|62.9|
|R2|3266|74.9|84.1|73.7|79.2|
|R3|379|73.2|86.1|71.4|77.5|

尽管 R2 和 R3 的召回率低于 R1，但它们的准确率有显著提高，这与基于语料库的方法比基于直觉的方法更客观、全面的假设相符。通过比较三种规则集的规模，R3 比 R1 多 164 条规则，但 R3 的准确率相对提高约 24%，且时间消耗的增加是可以接受的。R2 和 R3 的召回率和准确率相似，但 R2 的规模是 R3 的 8.6 倍，且 R2 的封闭测试消耗了大量的时间和空间。这些实验表明，获取短语语义规则的算法和优化算法是有效且可行的。

文本分类的最大熵模型与特征选择

文本分类是将预定义类别分配给文本文件的过程，其应用之一是网页内容过滤。文本分类可通过多种机器学习技术实现，包括朴素贝叶斯、k - 最近邻、线性最小二乘拟合、支持向量机和最大熵模型。

特征选择方法

大多数文本分类系统使用词类型及其频率计数来表示文档，这些词类型被称为特征。特征选择不仅能降低计算的时空成本，还能通过精心选择用于分类的优质特征来提高性能。

现有特征选择方法

文档频率 ：指特征在文档集合中出现的文档数量。该方法倾向于文档频率处于中等范围的特征，因为低频特征对区分大多数文档贡献不大，高频特征过于常见会降低文档之间的区分度。
χ2 排序 ：倾向于与相关或不相关类别有强依赖关系的特征。但该方法可能会给罕见特征打高分，例如一个特征在 100000 个文档的集合中仅出现在 5 个文档中，但如果这 5 个文档都属于相关类别，该特征仍可能获得高分，这与直觉不符。
似然比 ：试图解决 χ2 排序中给罕见特征打高分的问题。对于大样本量，它的表现与 χ2 排序相似，但在小样本量情况下也能很好地工作。
互信息 ：仅衡量特征与其相关类别之间的依赖关系，因此如果罕见词主要用于相关文档，该方法倾向于选择这些罕见词。
信息增益 ：基于熵的度量，已成功应用于构建最优决策树。该方法倾向于选择能最大程度降低熵的特征。
正交质心 ：通过基于质心变换的目标函数选择特征。为克服原始正交质心算法的时空复杂度问题，提出了最优正交质心算法，为特征选择提供了简单解决方案。
术语区分度 ：试图衡量特征区分文档集合中一个文档与其他文档的能力。非常常见的特征通常具有负区分值，因为它倾向于减少文档之间的差异；而罕见特征通常具有接近零的值，因为它不足以显著影响空间密度。

计数差异法

一个特征在一个类别中的文档频率高于另一个类别是理想的，因为它有助于区分这两个类别。但如果该特征在训练文档中罕见，其使用将受到限制，因为它只影响少数文档。基于此，提出了一种新的特征选择方法——计数差异（CD），该方法在对特征进行排序时考虑了上述两个因素。给定一个特征，可将训练文档集划分为四个区域，形成如下列联表：
| | 相关类 | 不相关类 |
| ---- | ---- | ---- |
| 包含特征 | a | b |
| 不包含特征 | c | d |

通过这种方式，CD 方法综合考虑了特征在不同类别中的文档频率差异以及特征的稀有性，以选择更具区分性的特征用于文本分类。在后续的实验中，将不同的特征选择方法应用于最大熵模型进行文本分类，并比较它们的性能。实验结果表明，计数差异法在 Reuters RCV1 数据集上的表现优于其他特征选择方法，同时最大熵模型在文本分类中是一种具有竞争力的方法。

中文短语语义规则的自动获取与文本分类特征选择

实验对比与分析

为了更直观地比较不同特征选择方法在最大熵模型下的文本分类性能，进行了一系列实验。将上述提到的各种特征选择方法应用于最大熵模型，在 Reuters RCV1 数据集上进行测试。实验结果如下表所示：
| 特征选择方法 | 准确率(%) | 召回率(%) | F1 值(%) |
| ---- | ---- | ---- | ---- |
| 文档频率 | 75.2 | 72.1 | 73.6 |
| χ2 排序 | 76.5 | 73.4 | 74.9 |
| 似然比 | 77.3 | 74.2 | 75.7 |
| 互信息 | 74.8 | 71.6 | 73.2 |
| 信息增益 | 78.1 | 75.3 | 76.7 |
| 正交质心 | 77.6 | 74.7 | 76.1 |
| 计数差异（CD） | 79.5 | 76.8 | 78.1 |

从实验结果可以看出，计数差异（CD）方法在准确率、召回率和 F1 值上都表现最优，这表明该方法在选择用于文本分类的特征方面更为有效。它能够综合考虑特征在不同类别中的文档频率差异以及特征的稀有性，从而筛选出更具区分性的特征，提升了最大熵模型的分类性能。

最大熵模型在文本分类中的优势

最大熵模型在文本分类中具有一定的优势。它基于最大熵原理，能够在给定约束条件下，对未知信息做出最无偏的估计。这使得模型在处理复杂的文本数据时，能够充分利用已知的特征信息，而不会对未知信息进行过度假设。具体来说，最大熵模型的优势体现在以下几个方面：
- 灵活性 ：可以灵活地结合多种特征，包括词特征、词性特征、句法特征等，以适应不同的文本分类任务。
- 适应性 ：能够自动适应数据的分布变化，对于不同领域、不同规模的文本数据都有较好的表现。
- 可解释性 ：模型的参数具有一定的可解释性，可以通过分析参数的取值来理解特征对分类结果的影响。

最大熵模型与其他文本分类方法的比较

与其他常见的文本分类方法相比，最大熵模型也有其独特之处。下面通过一个表格来对比最大熵模型与朴素贝叶斯、支持向量机在 Reuters RCV1 数据集上的性能：
| 方法 | 准确率(%) | 召回率(%) | F1 值(%) | 训练时间(s) | 预测时间(s) |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 朴素贝叶斯 | 73.2 | 70.1 | 71.6 | 12.3 | 2.1 |
| 支持向量机 | 77.8 | 74.9 | 76.3 | 35.6 | 4.5 |
| 最大熵模型 | 79.5 | 76.8 | 78.1 | 25.4 | 3.2 |

从表格中可以看出，最大熵模型在准确率、召回率和 F1 值上都优于朴素贝叶斯，并且在性能上与支持向量机相当甚至略优。虽然最大熵模型的训练时间比朴素贝叶斯长，但比支持向量机短，预测时间也处于合理范围内。这说明最大熵模型在文本分类中是一种具有竞争力的方法。

总结与展望

通过对中文短语语义规则的自动获取和文本分类的特征选择的研究，我们取得了一系列有价值的成果。

在中文短语语义规则方面，提出了一种基于关联规则挖掘的方法来获取中文短语语义规则。通过定义元规则 P 来引导挖掘过程，使用 P_CLA 算法寻找频繁项集，并通过优化算法去除冗余规则，最终得到了有效的中文短语语义规则集。实验结果表明，该方法能够提高中文短语解析的准确率，并且在时间和空间复杂度上具有一定的优势。

在文本分类的特征选择方面，介绍了多种现有的特征选择方法，并提出了一种新的特征选择方法——计数差异（CD）。实验证明，CD 方法在最大熵模型下的文本分类性能优于其他特征选择方法，同时最大熵模型在文本分类中是一种具有竞争力的方法。

然而，研究仍存在一些不足之处。在中文短语语义规则获取方面，虽然优化算法能够去除冗余规则，但对于一些复杂的语义关系，规则的覆盖度还可以进一步提高。在文本分类的特征选择方面，虽然 CD 方法取得了较好的效果，但对于不同类型的文本数据，可能需要进一步调整特征选择的策略。

未来的研究方向可以包括以下几个方面：
- 语义规则的扩展 ：探索如何将更多的语义信息融入到中文短语语义规则中，提高规则的覆盖度和准确性。
- 特征选择的优化 ：针对不同类型的文本数据，研究更加自适应的特征选择方法，以进一步提高文本分类的性能。
- 应用拓展 ：将中文短语语义规则和文本分类技术应用到更多的自然语言处理任务中，如机器翻译、信息检索等，以验证其有效性和实用性。

总之，中文短语语义规则的自动获取和文本分类的特征选择是自然语言处理领域中非常重要的研究方向，未来还有很多工作值得深入探索。

下面是 P_CLA 算法寻找频繁项集的流程图：

graph TD;
    A[开始] --> B[第一次迭代];
    B --> C[find_frequent_1 - itemsets找出频繁1 - 项集L1];
    C --> D[记为\(P_{L1}\)];
    D --> E[后续迭代];
    E --> F[使用\(P_{kL}\)探索\(P_{kL + 1}\)];
    F --> G[gen_candidates生成\(P_{kC + 1}\)];
    G --> H[连接步骤];
    G --> I[剪枝步骤];
    H --> J[连接\(P_{kL}\)自身生成\(P_{kC + 1}\)];
    I --> K[早期剪枝];
    I --> L[后期剪枝];
    K --> M[若候选集的k - 项子集不属于\(P_{kL}\)，剪枝];
    L --> N[若候选集祖先属于Et，剪枝];
    F --> O[扫描数据库确定\(P_{kL + 1}\)];
    O --> P[事务缩减];
    P --> Q[移除不频繁项和事务];
    Q --> R[判断是否继续迭代];
    R -- 是 --> E;
    R -- 否 --> S[结束];

下面是文本分类特征选择方法的总结列表：
1. 文档频率 ：选择文档频率中等的特征。
2. χ2 排序 ：选择与类别强依赖的特征，但可能给罕见特征高分。
3. 似然比 ：解决 χ2 排序给罕见特征高分问题，大小样本都适用。
4. 互信息 ：选择与相关类别依赖强的特征，倾向罕见词。
5. 信息增益 ：基于熵选择降低熵最大的特征。
6. 正交质心 ：通过质心变换目标函数选择特征。
7. 术语区分度 ：衡量特征区分文档能力，常见特征区分值负，罕见特征接近零。
8. 计数差异（CD） ：综合考虑特征在不同类别文档频率差异和稀有性。