46、文本分类与聚类技术：从模型选择到实验验证

最新推荐文章于 2025-12-01 17:46:36 发布

落叶知秋263

最新推荐文章于 2025-12-01 17:46:36 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏：智能计算与数据科学前沿文章标签：文本分类聚类 DistilBERT

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/152242054

智能计算与数据科学前沿专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本分类与聚类技术：从模型选择到实验验证

1 分类器概述

学习模型的效率由特征空间中合适特征的选择决定。机器更易于理解数字输入而非文本，因此大多数学习算法需要将文本标记转换为数字（向量化）。以下是一些常见的分类器：
- 朴素贝叶斯（Naïve Bayes） ：一种线性分类器，根据概率分布对文本文档进行向量化，常用的有多元伯努利事件和多项式事件两种模型，通过选择可能的特征来降低维度。
- 支持向量机（SVM） ：能识别文档特征向量及其类别之间的最佳决策边界，可克服分类器使用导致的显著特征减少问题。
- 决策树算法 ：一种决策支持工具，基于树结构表示决策图。随机森林几乎具备决策树的所有优点，通过样本装袋、特征随机子集和投票结构，通常能产生更优结果。
- 神经网络或深度学习技术 ：使用不同计算层学习数据的分层表示，在许多领域取得了最先进的成果。在自然语言处理的文本分类挑战中，逻辑回归是基本的监督机器学习算法，与神经网络密切相关，神经网络可看作是一系列堆叠的逻辑回归分类器。

1.1 不同神经网络模型

前馈神经网络（多层感知器，MLP） ：在分类问题中最受青睐，信息从输入层单向传递到隐藏层，再到输出层，无记忆功能。
循环神经网络（RNN） ：数据通过循环传递，可解决前馈神经网络无记忆的问题，但存在梯度消失问题，常与长短期记忆网络（LSTM）结合使用，LSTM具有长期记忆，可扩展标准RNN的记忆。
Transformer ：通过实现自注意力机制并行计算短语或文本中每个单词的“注意力分数”，克服了RNN顺序处理文本的低效问题，特别适合大规模文本语料库的预训练，能显著提高下游任务（包括文本分类）的准确性。
BERT ：旨在从无标签文本中预训练深度双向表示，通过在所有层中结合左右上下文进行训练。

2 实验设置

2.1 数据

为通过特定任务的微调在少量数据上构建最优模型，上下文语言表示被认为能显著减少所需的训练数据量。选取了2018 - 2020年发布的10000篇关于欺诈、全球、政府、合并或收购、印度储备银行政策、评级机构或专家观点以及结果的新闻文章，标记为积极、消极和中性三类。由于金融新闻的复杂性，即使是领域专业人员对金融新闻事件的分类也可能存在模糊性。数据按照75%和25%的比例分别划分为训练集和测试集。

2.2 嵌入和分类器

本研究将DistilBERT嵌入输入到决策树、随机森林、逻辑回归和线性支持向量分类器（Linear SVC）等五种机器学习模型中，使用Python的transformers和learn库实现。同时，也使用传统的TF - IDF和相同的分类器进行实验。标准模型使用基本的单词表示，不保留单词顺序和上下文信息，旨在通过比较传统机器学习算法和大型预训练上下文网络，了解深度上下文模型的开销是否有助于该任务。

3 结果与讨论

3.1 DistilBERT在银行新闻事件情感分类中的表现

使用不同机器学习分类器对DistilBERT进行微调，评估其在银行新闻事件情感分类中的精度、召回率和F - 1分数，结果如下表所示：
| 分类器 | 消极类（P） | 消极类（R） | 消极类（F1） | 中性类（P） | 中性类（R） | 中性类（F1） | 积极类（P） | 积极类（R） | 积极类（F1） |
| — | — | — | — | — | — | — | — | — | — |
| 逻辑回归 | 0.73 | 0.59 | 0.65 | 0.85 | 0.92 | 0.88 | 0.68 | 0.77 | 0.72 |
| 随机森林 | 0.57 | 0.72 | 0.63 | 0.88 | 0.88 | 0.88 | 0.88 | 0.74 | 0.81 |
| 决策树 | 0.52 | 0.62 | 0.56 | 0.78 | 0.84 | 0.81 | 0.88 | 0.74 | 0.81 |
| 线性SVC | 0.68 | 0.65 | 0.67 | 0.82 | 0.69 | 0.75 | 0.70 | 0.82 | 0.75 |

不同分类器的准确率如下表：
| 分类器 | 准确率 |
| — | — |
| 逻辑回归 | 0.76 |
| 随机森林 | 0.78 |
| 决策树 | 0.74 |
| 线性SVC | 0.73 |

从结果来看，随机森林在F - 1分数和准确率方面表现最佳，除消极类外，对中性类和积极类有较好的精度和召回率。

3.2 TF - IDF在银行新闻事件情感分类中的表现

使用不同机器学习分类器结合TF - IDF对银行新闻事件情感进行分类，评估其精度、召回率和F - 1分数，结果如下表所示：
| 分类器 | 消极类（P） | 消极类（R） | 消极类（F1） | 中性类（P） | 中性类（R） | 中性类（F1） | 积极类（P） | 积极类（R） | 积极类（F1） |
| — | — | — | — | — | — | — | — | — | — |
| 逻辑回归 | 0.45 | 0.38 | 0.42 | 0.76 | 0.67 | 0.71 | 0.70 | 0.84 | 0.76 |
| 随机森林 | 0.48 | 0.58 | 0.53 | 0.76 | 0.76 | 0.76 | 0.85 | 0.74 | 0.79 |
| 决策树 | 0.52 | 0.65 | 0.58 | 0.77 | 0.70 | 0.73 | 0.79 | 0.71 | 0.75 |
| 线性SVC | 0.43 | 0.38 | 0.41 | 0.82 | 0.70 | 0.75 | 0.65 | 0.79 | 0.71 |

不同分类器的准确率如下表：
| 分类器 | 准确率 |
| — | — |
| 逻辑回归 | 0.66 |
| 随机森林 | 0.70 |
| 决策树 | 0.69 |
| 线性SVC | 0.65 |

同样，随机森林在F - 1分数和准确率方面表现相对较好，但整体准确率低于DistilBERT结合随机森林的情况。

3.3 实验结果对比

对比DistilBERT和TF - IDF在不同分类器下的表现，可以发现DistilBERT在所有四个机器学习分类器上的表现都优于TF - IDF。DistilBERT结合随机森林的准确率达到78%，比TF - IDF结合随机森林高7%。此外，DistilBERT在所有类别的精度和召回率方面也高于TF - IDF。

4 文档聚类方法

4.1 数据挖掘与聚类概述

数据挖掘旨在从大量不断产生的数据中发现有价值的信息。聚类是一种无监督的数据挖掘方法，将相似的项目聚集在一个簇中。在网页文档聚类中，如何在较短时间内检索到高质量的文档一直是一个基本问题。

4.2 文档表示

文档聚类是一系列过程，常用向量空间模型（VSM）将文本文档表示为代数形式。所有文档在欧几里得空间中表示为相关单词（关键词）的多维向量，每个关键词根据其在文档中的相关性分配权重。文档在VSM中可表示为：
[D_i = {W_1, W_2, W_3, …, W_n}]

常用Tf - Idf模型为每个文档术语分配综合分数，公式如下：
[W_{mn} = tf_{nm} \times idf_{nm}]
其中，(W_{mn})是第n个文档中第m个术语的值，(tf_{nm})是第m个术语在第n个文档中出现的次数，(idf_{mn} = log_2 (i/tf_{nm}))，(tf)是第n个术语在i个文档中的词频。

4.3 相关研究

K - means聚类的问题 ：K - means聚类存在一些问题，如依赖初始质心的选择，无法提供最优解；最优簇数量的选择是一个难题，结果依赖于先验选择。
改进方法 ：许多研究提出了改进方法，如使用自适应K近邻方法处理不均匀的文档集；优化特征选择方法，关注小类别的特征。
优化算法的应用 ：粒子群优化（PSO）用于聚类过程，可全局搜索整个文档空间；蜂群优化（BSO）在多个领域有应用，如数值函数优化、动态经济调度、关联规则提取、文本分类等。

4.4 增强的Cos - Neuro生物启发方法

该方法引入基于相似性技术的K - means聚类，结合蜂群优化和人工神经网络。人工神经网络根据文档的相似性指数和训练结构，帮助分类最佳质心位置，组织最佳簇数量以进行测试查询，可显著提高返回文档的质量，减少执行时间，提高效率。

5 总结与展望

5.1 总结

本文旨在将银行新闻事件的情感分为积极、消极和中性三类，比较了DistilBERT微调与传统TF - IDF在情感分类任务中的表现。结果表明，DistilBERT在所有四个机器学习分类器上的表现均优于TF - IDF，DistilBERT结合随机森林的准确率最高。在文档聚类方面，增强的Cos - Neuro生物启发方法通过结合蜂群优化和人工神经网络，可提高文档聚类的效率和质量。

5.2 未来方向

数据获取 ：获取更多的训练数据和测试数据，以推广银行新闻领域的情感分类结果。
对比测试 ：进行不同的测试，更方便地比较不同方法的效果。
规则创建 ：为积极、消极和中性类别创建基于字典的规则，支持DistilBERT或其他预训练的基于Transformer的模型进行分类。

通过以上研究，我们可以看到不同分类器和模型在文本分类和文档聚类中的表现差异，为实际应用中的模型选择提供了参考。同时，未来的研究方向也为进一步提高文本处理的效率和准确性提供了思路。

mermaid流程图

graph LR
    A[数据] --> B[DistilBERT嵌入]
    A --> C[TF - IDF]
    B --> D[决策树]
    B --> E[随机森林]
    B --> F[逻辑回归]
    B --> G[线性SVC]
    C --> D
    C --> E
    C --> F
    C --> G
    D --> H[结果评估]
    E --> H
    F --> H
    G --> H

该流程图展示了实验中数据处理和模型应用的流程，数据分别经过DistilBERT嵌入和TF - IDF处理后，输入到不同的分类器中，最后进行结果评估。

mermaid流程图

graph LR
    A[文档数据] --> B[向量空间模型（VSM）]
    B --> C[Tf - IDF模型]
    C --> D[K - means聚类]
    D --> E[蜂群优化（BSO）]
    E --> F[人工神经网络（ANN）]
    F --> G[聚类结果]

该流程图展示了文档聚类的过程，文档数据首先通过VSM表示，然后使用Tf - IDF模型计算权重，接着进行K - means聚类，结合蜂群优化和人工神经网络得到最终的聚类结果。

6 文本分类与聚类的操作步骤

6.1 文本分类操作步骤

6.1.1 数据准备

收集2018 - 2020年关于欺诈、全球、政府、合并或收购、印度储备银行政策、评级机构或专家观点以及结果的新闻文章，数量为10000篇。
由专业人员将新闻文章标记为积极、消极和中性三类。
按照75%和25%的比例将数据划分为训练集和测试集。

6.1.2 模型训练与评估

使用Python的transformers和learn库，将DistilBERT嵌入输入到决策树、随机森林、逻辑回归和线性SVC这五种机器学习模型中进行训练。
同时，使用传统的TF - IDF对相同的分类器进行训练。
对训练好的模型在测试集上进行评估，计算精度、召回率、F - 1分数和准确率。

6.2 文档聚类操作步骤

6.2.1 文档表示

使用向量空间模型（VSM）将文本文档表示为代数形式，将文档在欧几里得空间中表示为相关单词（关键词）的多维向量。
为每个关键词根据其在文档中的相关性分配权重，使用Tf - IDF模型计算权重，公式为：
[W_{mn} = tf_{nm} \times idf_{nm}]
其中，(W_{mn})是第n个文档中第m个术语的值，(tf_{nm})是第m个术语在第n个文档中出现的次数，(idf_{mn} = log_2 (i/tf_{nm}))，(tf)是第n个术语在i个文档中的词频。

6.2.2 聚类过程

采用基于相似性技术的K - means聚类方法。
结合蜂群优化（BSO）对聚类过程进行优化。
使用人工神经网络（ANN）根据文档的相似性指数和训练结构，分类最佳质心位置，组织最佳簇数量以进行测试查询。

7 不同方法的性能对比

7.1 文本分类性能对比

方法	分类器	准确率
DistilBERT	逻辑回归	0.76
DistilBERT	随机森林	0.78
DistilBERT	决策树	0.74
DistilBERT	线性SVC	0.73
TF - IDF	逻辑回归	0.66
TF - IDF	随机森林	0.70
TF - IDF	决策树	0.69
TF - IDF	线性SVC	0.65

从表格中可以看出，DistilBERT在所有四个机器学习分类器上的准确率都高于TF - IDF，其中DistilBERT结合随机森林的准确率最高，达到了0.78。

7.2 文档聚类性能对比

方法	执行时间	文档质量
传统K - means	较长	一般
增强的Cos - Neuro生物启发方法	较短	较高

增强的Cos - Neuro生物启发方法通过结合蜂群优化和人工神经网络，在执行时间和文档质量方面都优于传统的K - means聚类方法。

8 实际应用场景

8.1 金融新闻分析

在金融领域，对银行新闻事件的情感分类可以帮助投资者了解市场动态，做出更明智的投资决策。DistilBERT结合随机森林的方法可以更准确地对新闻事件进行情感分类，为投资者提供更有价值的信息。

8.2 文档检索

在文档检索领域，增强的Cos - Neuro生物启发方法可以提高文档聚类的效率和质量，帮助用户更快地找到相关的文档。

9 结论

综上所述，在文本分类任务中，DistilBERT结合随机森林的方法表现最佳，优于传统的TF - IDF方法。在文档聚类任务中，增强的Cos - Neuro生物启发方法通过结合蜂群优化和人工神经网络，提高了聚类的效率和质量。这些方法为实际应用中的文本处理提供了有效的解决方案，未来可以进一步获取更多数据，进行更多的对比测试，创建基于字典的规则，以提高文本处理的准确性和效率。

mermaid流程图

graph LR
    A[文本分类任务] --> B[数据准备]
    B --> C[模型选择（DistilBERT/TF - IDF）]
    C --> D[模型训练]
    D --> E[模型评估]
    E --> F[结果分析]
    G[文档聚类任务] --> H[文档表示]
    H --> I[聚类方法选择（K - means/增强的Cos - Neuro）]
    I --> J[聚类过程]
    J --> K[结果评估]
    K --> L[结果分析]

该流程图展示了文本分类和文档聚类任务的整体流程，包括数据准备、模型选择、训练、评估和结果分析等步骤。

mermaid流程图

graph LR
    A[实际应用场景] --> B[金融新闻分析]
    A --> C[文档检索]
    B --> D[DistilBERT结合随机森林]
    C --> E[增强的Cos - Neuro生物启发方法]

该流程图展示了不同方法在实际应用场景中的应用，DistilBERT结合随机森林用于金融新闻分析，增强的Cos - Neuro生物启发方法用于文档检索。