利用关联规则进行特征选择以实现文本分类及区块链技术保护电子健康记录访问系统
1. 利用关联规则进行特征选择以实现文本分类
在数据挖掘和机器学习领域,合适的特征选择至关重要。它能降低数据维度,生成更简单且方差更低的分类模型。
1.1 背景与问题
随着在线数据的增多,文本自动分类变得必要。文本分类方法将文本数据映射到预定义的类别中,在传感器网络、智慧城市和交通分析等应用中发挥着重要作用。然而,在线文档规模庞大,需要高效的特征选择方法用于文本分类。
目前,机器学习工具常被用于根据文本内容对文档进行分类,信息检索系统(IRS)也常用这些工具来回答用户查询。但这些工具需要大量带标签的文档来学习分类模式,且IRS系统用特征向量表示文本,这些特征向量通常维度很高,导致时间性能和分类准确率较低。
为解决这些问题,需要设计特征选择方法来过滤掉特征向量中的无关特征。数据挖掘算法,如关联规则,可用于特征选择。关联规则由前件(头部)和后件(主体)组成,例如“面包 → 牛奶”表示购买面包的顾客可能也会购买牛奶。
1.2 相关工作
文本分类的特征选择方法可分为包装法、嵌入法和过滤法三类:
- 包装法 :采用贪心搜索方法,根据分类准确率比较所有可能的特征组合,计算复杂度高。
- 嵌入法 :作为分类器的一部分开发,如决策树算法。
- 过滤法 :通常是分类模型的独立组件,无需训练,速度比包装法快。
许多研究人员使用关联规则进行特征选择,过滤无关特征并提取有意义的特征
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



