基于关键词表达式模型的文本自动分类系统的研究与实现
Research and Implementation of Text Categorization System Based on Keyword Expressions
常毅() 张鑫( 谭建龙(Tan jianlong) 白硕(Bai shuo)
(中国科学院计算技术研究所 Institute of Computing Technology , CAS 100080)
E-mail: changyi@ncic.ac.cn
中图法分类号 TP391
摘 要:文本提出了一种新的基于关键词表达式模式的文本向量空间表示模型,在这个表示模型基础上实现了一个的自动分类系统。相对于只使用文本中词语的频率的文本向量空间模型,这种新的模型在可以计算的前提下,使用了词语之间的相对位置信息,从而可以解决部分词语向量空间模型表示的不足。本文描述了使用这种模型的自动文本分类系统。包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。
关键词:文本分类 中文信息处理 向量空间模型,关键词表示式,关键词匹配
Abstract:In recent years , information processing turns more and more important for us to get useful information . Text Categorization, the automated assigning of natural language texts to predefined categories based on their contents, is a task of increasing importance. This paper gives a research to several key techniques about Text Categorization , including Vector Space Model , Feature Extraction , Machine Learning . It also describes a text categorization model based on VSM, and gives the evaluations and results .
Key words:Text Categorization Chinese Information Processing Vector Space Model
1 引言
基于统计技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。
本文主要探讨了新的文本表示模型和这种模型下的一个分类系统的实现,第一部分为引言,第二部分描述了文本分类解决的问题并对其性能评估方法进行了介绍,第三部分探讨了基于关键词表达式的文本表示模型,第四部分给出了我们实现的的文本分类系统,第五部分是该系统的实验结果和计算复杂度分析,第六部分总结和对将来工作的设想。
2问题描述
2.1 系统任务
简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下:
文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。
2.2 评估方法
我们使用评估文本分类系统的两个指标:准确率和查全率。准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下:
查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数学公式表示如下: 。 准确率和查全率反映了分类质量的两个不同方面,两者综合考虑的评估指标,F1 测试值,其数学公式如下:
2.3词语向量空间模型的文本表示
目前,在信息处理方向上,文本的表示主要采用向量空间模型 (VSM)。向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用 TF-IDF 公式,目前存在多种 TF-IDF 公式,一种比较普遍的 TF-IDF 公式:
其中, 为词 t 在文本 中的权重,而 为词 t 在文本 中的词频,N 为训练文本的总数, 为训练文本集中出现 t 的文本数,分母为归一化因子。
2.42.3词语向量空间模型的训练方法和分类算法
训练方法和分类算法是分类系统的核心部分,目前存在多种基于向量空间模型的训练算法和分类算法,例如,支持向量机算法、神经网络方法,最大平均熵方法,最近 K 邻居方法和贝叶斯方法等等。
一般相似度定义公式为:
其中, , 为不同的文本,M 为特征向量的维数, 为向量的第 K 维。
《支持向量机的公式》
3 关键词表达式向量空间的文本表示模型
3.1 关键词表达式
关键词表达式是大多数搜索引擎使用的查询语言。我们这里定义的关键词表达式(Keyword expression)为,
keyword expression := keyword [and keyword ] *
例如keyword expression=“大海” and “海鸥“ 表示如果文本中同时出现“大海” 和 “海鸥“,则这个文档满足关键词表达式。
3.2文本表示模型
定义P为可能关注的关键词集合为P,|P|为关键词的个数。对于一般的分类系统|P|一般为10万左右。Pi为其中的一个关键词。关键词可以是一个有稳定的词语也可以是一个短语。
定义E表示可能关注的关键词表达式集合。 |P|为关键词表达式的个数. Ei是其中的一个表达式。同时保重出现在Ei的关键词一定在P中。
定义D表示全部文档集合。|D|为的文档个数. 是其中的一个文档。
定义l表示一个表达式必须出现在多少连续的句子中。一般定义为3个句子。则定义文档 当且仅当在文本dk..k+l中出现了关键词表达e的全部关键词。
定义 。则 表示表达式出现在文档的中的频率。
类似向量空间模型,我们定义表达式的权重
其中, 为词 e在文本 中的权重,N 为训练文本的总数, 为训练文本集中出现 t 的文本数,分母为归一化因子。
同理我们可以定义文本的相似度:
其中, , 为不同的文本,M 为特征向量的维数, 为向量的第 K 维。
计算由于对于存在O(| |)的多关键词匹配算法,所以对关键词集合P可以在O(| |)计算出出现的关键词序列Q。由参考文献[2]使用的自动机算法可以在O(|Q|)时间内计算出全部出现的表达式集合。所以计算E集合中的全部 的时间复杂度为O(| |)
3.2 特征项的抽取
构成文本的词汇,数量是相当大的,因此,表示文本的基于词向量空间的维数也相当大,可以达到几万维,我们限定关键词表达式的
4 系统的结构框架
我们实现的文本分类系统,研究并结合了上述的关键技术,其结构如下图所示:
|
新文本 预处理 |
训练文本 预处理 |
特征项 抽取 |
训练文本 再处理 |
构造分类器 |
训练过程 |
分类过程 |
分类和输出 |
5 测试数据和实验结果
我们在一个具有2830篇中文文本的语料库上测试我们系统实现的分类算法,并对其效率和结果进行比较分析。
语料库中的文本都是新闻电讯稿,绝大部分采自新华社,还有200余篇采自中国新闻社和人民日报。所有的新闻稿都由领域专家事先进行分类,按照中图分类法分成政治、经济、军事等共38类。我们选择训练集和测试集的方法如下:将这些分好类的语料平均分成十份,选择其中一份作为开放测试集,剩余的九份作为训练集和封闭测试集。这样每一份都依次轮流作为开放测试集,运行分类算法,共执行10次分类操作,计算其平均值,实验结果如下表所示:
算法 |
封闭测试查全率 |
封闭测试准确率 |
封闭测试F1值 |
开放测试查全率 |
开放测试准确率 |
开放测试F1值 |
简单向量距离 |
87.08% |
87.08% |
87.08% |
80.23% |
80.23% |
80.23% |
贝叶斯 |
82.39% |
83.78% |
83.08% |
76.17% |
77.26% |
76.71% |
KNN |
89.11% |
91.42% |
90.25% |
83.29% |
85.12% |
84.20% |
另外,从算法的时间花费考虑,假设系统的训练文本集包括 m 篇文本(向量),分别属于 k 个类,而抽取的特征项为 n 维,则这三种算法的时间花费分别为:
算法 |
训练算法 |
分类过程 |
简单向量距离 |
O (mn) |
O (kn) |
贝叶斯 |
O (mn) |
O (kn) |
KNN |
无 |
O (km+nm) |
因此,从测试结果看来,KNN 算法在分类效果上是最佳的,同时在训练过程中投入的时间最少,但是在分类过程中花费的时间最多,不利于文本的实时处理;而贝叶斯算法和简单向量距离算法的时间花费近似,其分类效果也近似,简单距离算法的效果略好。
6 将来的工作
今后,我们在文本分类方向上的研究工作主要围绕三个方面展开:
1. 在向量空间模型方面,结合计算语言学,使用概念空间代替词空间;
2. 目前的分类体系为平面体系,可以在层次分类体系中考虑文本分类系统;
3. 新算法的研究及旧算法的改进
7 结束语
本文探讨了文本分类系统的关键技术,比较和分析了三种训练和分类算法,并提出了文本分类系统的结构模型,同时给出了实验结果和分析,将来还将继续在层次分类体系中进行文本分类系统的进一步研究。
参考文献
1. David D. Lewis: Feature selection and feature extraction for text categorization, In Proceedings of Speech and Natural Language Workshop, pp 212-217. Defense Advanced Research Projects Agency, Morgan Kaufmann, February 1992
2. Yiming Yang: An evaluation of statistical approaches to text categorization, In Journal of Information Retrieval, 1999, Vol 1, No. 1/2, pp 67--88
3. David D. Lewis and Marc Ringuette: A comparison of tow learning algorithms of text categorization , In Third Annual Symposium on Document Analysis and Information Retrieval, pp 81-93, Las Vegas, NV, April 11-13 1994. ISRI; Univ. of Nevada, Las Vegas
4. Andrew McCallum and Kamal Nigam: A comparison of event models for naive bayes text categorization , AAAI-98 Workshop on "Learning for Text Categorization",1998
5. Yiming Yang and Xin Liu: A re-examination of text categorization methods , Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 1999, pp 42--49
6. 黄萱菁、吴立德:独立于语种的文本分类方法,2000 International Conference on Multilingual Information Processing , pp 37-43 , 2000
7. 鲁松、白硕等:文本中词语权重计算方法的改进,2000 International Conference on Multilingual Information Processing , pp 31-36 , 2000
8. 卜东波:聚类/分类理论研究及其在大规模文本挖掘中的应用,博士论文 2000 11
作者简介
庞剑锋:Pang Jianfeng 24 岁,男,硕士研究生,导师为李国杰院士,当前研究领域为网络信息处理和中文信息处理,现在中国科学院计算技术研究所软件研究室。通信地址:北京2704信箱软件研究室, 邮政编码100080,电话010-62587953。
卜东波:Bu dongbo,28岁,男,博士,当前研究领域文本挖掘,中国科学院计算技术研究所软件研究室。联系方式同上。
白硕:Bai shuo,45 岁,男,研究员,中科院计算所首席科学家,当前研究领域网络安全和计算语言学。联系方式同上。
转载来源:http://www.searchforum.org.cn/seminar/members/tjl/keyExpr/%E5%9F%BA%E4%BA%8E%E5%85%B3%E9%94%AE%E8%AF%8D%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%96%87%E6%9C%AC%E8%87%AA%E5%8A%A8%E5%88%86%E7%B1%BB%E7%B3%BB%E7%BB%9F%E7%9A%84%E7%A0%94%E7%A9%B6%E4%B8%8E%E5%AE%9E%E7%8E%B0.doc