基于模糊决策树的文本数据规则发现
1. 引言
随着计算机和网络环境的飞速发展,大量文本数据如日常业务报告、电子邮件和电子报纸等能轻松存储在计算机中。这些文本数据蕴含着各种知识,对许多决策场景有重要帮助,因此从文本数据中发现知识意义重大。然而,由于数据量巨大,全面调查所有文本数据不切实际,需要有效的知识发现方法。
规则发现方法在机器学习领域的人工智能研究初期就已开始,产生了决策树、神经网络、遗传算法和关联规则等技术。但这些技术大多针对结构化数据,无法直接处理文本数据。文本数据具有模糊性,相同的字词和短语可能有不同含义,不同的字词和短语也可能表达相似意思,且其解读依赖于人。为克服这些问题,我们引入基于模糊集理论和决策树的规则发现方法。
2. 文本数据格式
文本数据有多种类型,如包含HTML和XML标签的文本、博客等具有相互链接的文本。这里主要关注由文本和文本类别组成的文本数据项。文本类别对应决定内容相似性的观点,同一文本数据项根据不同观点可归入不同文本类别。例如,描述冰箱用户投诉的文本,从家电产品角度可归为“冰箱”类别,从客户评价角度可归为“投诉”类别。这些文本类别反映了用户的兴趣,文本挖掘技术旨在从文本数据项中发现关键特征与文本类别之间的关系。
3. 模糊决策树
3.1 模糊决策树的格式
模糊决策树是由树结构描述的模糊IF - THEN规则集。树由分支节点、叶节点和分支组成(不考虑仅由一个叶节点组成的情况)。顶部的分支节点为根节点,根节点连接下级分支节点或叶节点,其余分支节点连接上级和下级节点。每个分支节点分配一个属性,属性由具有相应隶属函数的基本属性值组成。叶节点连接上级分支节点,每个叶节
超级会员免费看
订阅专栏 解锁全文
682

被折叠的 条评论
为什么被折叠?



