基于支持向量机的企业决策支持网络文本分类——GBODSS的应用
1. 引言
随着技术的发展,企业面临着前所未有的压力。为了获得竞争优势,智能挖掘技术的应用越来越受到关注。目前,能够处理非结构化文本数据的文本分类和挖掘,已成为企业决策者的新型决策支持工具。由于文本是存储信息最自然的形式,因此文本分类和挖掘被认为比数据挖掘具有更高的商业潜力。
自动化文本分类已经得到了广泛的研究,支持向量机(SVM)在文本分类方面表现出了很大的潜力。它在文本分类中具有较高的准确性,并且训练速度快。然而,现有的自动文本分类实验原型大多局限于异构、自主、动态和分布式的互联网环境,商业文本分类系统并不普及,主要原因在于难以将机器学习方法应用于具有不同特征的各种文本集合。
基于Web的文本分类实现了互联网上的信息共享,但无法满足异构、自主、动态和分布式决策支持环境下决策者的需求。而网格技术作为“第三次互联网革命”的代表,能够有效整合地理上分散的资源,解决广域网中的大规模问题,其特点非常适合构建基于Web的文本分类系统。
2. 相关工作
决策支持系统(DSS)的发展与网络技术的进步密切相关。第一代网络技术(TCP/IP技术)实现了计算机的互联,使DSS从基于大型机的模式转变为基于客户/服务器的模式;第二代网络技术(Web技术)实现了网站的互联,使DSS从基于客户/服务器的模式转变为基于Web的模式,这也是目前最流行的DSS类型。基于Web的DSS具有用户界面友好、标准,全球连接性好,决策资源丰富等优点,但也存在网站和网页之间连接薄弱的缺点。
随着网格技术的出现,基于网格的开放式决策支持系统(GBODSS)的概念逐渐成为现实。GBODSS的改进模型更清晰地展示了其组件和层之间的关系,以及开放性和动态性的特点。
网络文本分类是DSS知识发现中的一个新研究领域,其主要目标是帮助人们从大量半结构化或非结构化的网络文本中发现知识,以支持决策。这些特点非常适合GBODSS平台的构建需求,将极大地改进基于Web的文本分类,并给其应用带来深刻的变革。
3. 基于支持向量机的网络文本分类
3.1 支持向量机(SVMs)
网络文本分类涉及一系列任务和程序,需要适应网络文本数量的快速增长和动态变化,因此必须具备学习能力。支持向量机是一种从数据中学习分类和回归规则的训练算法,可用于学习多项式、径向基函数(RBF)和多层感知器(MLP)分类器。
SVM的基本思想是从预分类数据中找到一个最优超平面,以最大间隔将两类数据分开。通过对数据空间进行适当的变换,SVM可以处理两类数据边界为非线性的情况。
作为一种强大的统计模型,SVM能够处理非常大的特征集,广泛应用于模式识别领域,如人脸检测、孤立手写数字识别和基因分类等。近年来,SVM在文本分类中也取得了成功应用。
在将SVM应用于文本分类时,常用的特征集是训练集中出现的单词。不同类型的文档包含不同的单词,这些单词的出现情况可以作为文档分类的线索。例如,“计算机”在计算机科学文档中出现的频率可能高于金融文档,而“抵押贷款”在金融文档中出现的频率可能较高。SVM特征空间中的坐标是文档中每个单词的出现次数。
3.2 基于支持向量机的网络文本分类方法
将SVM应用于为新文档分配字段/组和描述符的问题有多种方法。一种方法是将分类和描述符选择问题视为独立的问题,分别用不同的SVM解决;另一种分层方法是先解决分类问题或描述符问题,然后将另一个问题作为受限域问题解决。
这里讨论“独立”方法,并探讨如何解决两个问题独立解决时可能出现的不一致性。整体方法主要包括以下步骤:
1.
训练阶段
:使用现有的网络文本集合进行训练。计算集合模型(T,IDF),其中T是术语向量(不包括停用词表中非常常见的单词),IDF是相应的权重向量。每个文档在训练集中用一个向量表示,该向量通过计算文档的词频(TF)得到。如果某个术语在文档中出现次数超过4次,则ci为1,否则为0。这个向量表示文档在“文档空间”中的一个坐标点。
2.
识别主题类别
:使用训练好的SVM为文档识别主题类别。对于每个主题类别,训练一个不同的SVM来识别该主题的文档。每个SVM根据文档与超平面的距离分配一个可能性因子(范围从0到1)。根据可能性因子对分配的类别进行排序,并根据阈值选择前“k”个类别。
3.
识别描述符
:训练不同的SVM来识别符合某个描述符的文档,对它们进行排序,并根据阈值选择“m”个描述符。输入的新文档使用与训练阶段相同的TF和IDF表示,将其呈现给所有训练好的SVM,SVM输出一个0到1之间的分数,表示测试文档属于与所选描述符相关的文档类别的可能性。选择得分最高的“m”个词库描述符来描述测试文档。
4.
解决不一致性
:步骤2中识别的主题类别和步骤3中识别的描述符可能不一致。一种解决方法是使用描述符/主题映射中识别的描述符和SVM识别的描述符的交集。然后可以使用可能性因子选择几个字段/组(大约两到三个)和五到六个描述符。
4. GBODSS中的网络文本分类
4.1 GBODSS中文本分类的模型
随着网络文本分类系统计算需求的不断增长,网格基础设施被认为是满足大规模网络文本高效分类实际需求的关键技术之一。
下图展示了文本分类工具生成的典型作业模型:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(文本分类工具):::process --> B(单指令多数据流作业):::process
B --> C(CPU资源密集使用):::process
GBODSS的作业模型通过将用户命令和数据集的一部分分配到多个计算节点,克服了单节点的限制。在完成时,每个节点返回结果,实现了移动模式的并行文本分类。文本分类算法和知识发现过程都需要大量的计算和数据,因此GBODSS提供了一个计算和决策资源管理基础设施,支持分散和并行的决策支持。
4.2 网络文本分类节点的框架
在本研究中,SVM服务被用作网络文本分类的网格计算节点。在提出的方法环境中,节点首先使用大量相关的网络文档进行训练,当新的网络文档到来时,训练好的节点可以为决策提供预测。
网络文本分类网格节点的主要组件和控制流如下:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(实时爬虫):::process --> B(新文档):::process
B --> C(文本处理):::process
C --> D(元特征):::process
D --> E(专家学习机制[SVMs]):::process
E --> F(知识发现):::process
G(过去样本文档):::process --> E
H(模型文档):::process --> E
I(网格):::process --> E
J(Web服务):::process --> E
在这个框架中,新的网络文本通过实时爬虫获取。爬虫组件负责定位、获取和存储网络中的内容。一个典型的Web爬虫从一组种子页面开始,通过解析下载的页面并提取其中的超链接来定位新页面。提取的超链接存储在先进先出(FIFO)获取队列中,以便进一步检索。爬虫会一直运行直到获取队列为空或下载了足够数量的页面。
在GBODSS中,可以构建文本分类器并估计新网络文本的类别。该框架的三个关键贡献包括:
1. 使用Web服务技术构建框架,划分文本分类过程并设计文本分类服务。
2. 多个Web服务并发执行,以重叠网络操作和CPU处理,从而提高吞吐量。
3. 引入一种名为Agent的新型中间件,用于执行用户定义的任务,定位和调用网格节点上的服务,根据爬虫下载文档,并统一前一个模块和/或外部模块的输出数据,将其转换为下一个模块的输入数据。
5. 实验与性能分析
为了衡量并行SVM算法的效率,设置了不同配置的网格进行测试。测试在独立PC、两个由三个节点组成的集群和三个由三个节点组成的集群上进行。集群内的节点通过局域网(LAN)连接,集群之间通过广域网(WAN)连接。每个节点都安装了WSRF.NET,并部署了SVM.NET和SVM网格服务。
以下是不同网格配置下的执行时间:
| 节点数量 | URL数量 | 网络文本下载时间(hh:mm:ss) | 文本处理时间(hh:mm:ss) | 测试时间(hh:mm:ss) | 总时间(hh:mm:ss) |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 1 | 5400 | 00:12:56 | 00:02:32 | 00:38:24 | 00:53:52 |
| 6 | 900 | 00:02:48 | 00:00:54 | 00:07:11 | 00:10:53 |
| 9 | 600 | 00:01:56 | 00:00:41 | 00:04:58 | 00:07:35 |
从表中可以看出,当使用多个节点时,网络文本下载、文本处理和测试可以并行进行。使用六个节点时,总加速因子约为5;使用九个节点时,加速因子约为7。这表明并行和分布式的网络文本分类是最优的,其性能在文档数量和节点数量方面具有可扩展性。
6. 总结与展望
通过上述的研究和实验,可以清晰地看到基于支持向量机(SVM)的网络文本分类在企业决策支持中的应用潜力,以及GBODSS框架为其带来的显著优势。
6.1 研究成果总结
- 方法有效性 :基于SVM的网络文本分类方法在处理网络文本的分类和描述符选择问题上表现出了良好的效果。通过“独立”方法并解决可能出现的不一致性,能够较为准确地为新文档分配主题类别和描述符,为企业决策提供有价值的信息。
- GBODSS框架优势 :GBODSS作为一种先进的技术框架,为网络文本分类提供了强大的支持。它能够有效地整合地理上分散的资源,支持分散和并行的决策支持,提高了文本分类的效率和性能。其构建的文本分类节点框架,结合Web服务技术和新型中间件Agent,实现了文本分类过程的优化和自动化。
- 性能提升 :实验结果表明,并行和分布式的网络文本分类在不同网格配置下具有显著的性能提升。随着节点数量的增加,网络文本下载、文本处理和测试的时间明显减少,总加速因子显著提高,证明了该方法在大规模文本处理中的可行性和优越性。
6.2 未来研究方向
尽管本研究取得了一定的成果,但仍有一些方面值得进一步深入研究和探索:
-
优化SVM算法
:虽然SVM在文本分类中已经取得了较好的效果,但仍可以进一步优化其算法,以提高分类的准确性和效率。例如,研究更合适的核函数、优化参数选择方法等。
-
拓展应用领域
:目前的研究主要集中在企业决策支持中的网络文本分类,未来可以将该方法拓展到其他领域,如医疗、教育、金融等,为不同行业的决策提供支持。
-
结合其他技术
:可以将SVM与其他机器学习技术或深度学习技术相结合,如神经网络、深度学习模型等,以进一步提高文本分类的性能和效果。
-
处理更复杂的文本数据
:随着互联网的发展,网络文本数据变得越来越复杂,包括多模态数据、语义信息等。未来的研究可以关注如何处理这些更复杂的文本数据,提高文本分类的准确性和鲁棒性。
7. 结论
基于支持向量机的网络文本分类在企业决策支持中具有重要的应用价值。通过GBODSS框架的支持,能够实现并行和分布式的文本分类,提高分类效率和性能。实验结果证明了该方法的有效性和优越性。未来,随着技术的不断发展和研究的深入,相信该方法将在更多领域得到广泛应用,并为企业和社会的发展提供有力的支持。
为了更直观地展示本研究的整体流程,以下是一个mermaid格式的流程图:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(网络文本数据):::process --> B(实时爬虫):::process
B --> C(文本处理):::process
C --> D(特征提取[TF - IDF]):::process
D --> E(支持向量机训练):::process
E --> F(文本分类):::process
F --> G(企业决策支持):::process
H(GBODSS框架):::process --> I(资源整合):::process
I --> E
I --> F
综上所述,基于SVM的网络文本分类结合GBODSS框架为企业决策支持提供了一种高效、准确的解决方案。通过不断的研究和优化,该方法有望在未来发挥更大的作用。
以下是对本研究中关键步骤和技术的总结表格:
| 关键步骤 | 描述 | 技术要点 |
| ---- | ---- | ---- |
| 数据获取 | 通过实时爬虫从网络获取文本数据 | 解析网页、提取超链接、FIFO队列管理 |
| 特征提取 | 计算TF - IDF特征 | 去除停用词、统计词频、计算逆文档频率 |
| 模型训练 | 使用支持向量机进行训练 | 选择合适的核函数、优化参数 |
| 文本分类 | 根据训练好的模型对新文本进行分类 | 计算文档与超平面的距离、分配可能性因子 |
| 决策支持 | 为企业决策提供分类结果 | 结合业务需求进行分析和应用 |
通过以上的研究和分析,我们可以看到基于支持向量机的网络文本分类在企业决策支持中的重要性和应用前景。未来的研究将不断推动该领域的发展,为企业和社会带来更多的价值。
超级会员免费看
2051

被折叠的 条评论
为什么被折叠?



