利用关联规则进行特征选择以实现文本分类及区块链技术保护电子健康记录系统
利用关联规则进行特征选择以实现文本分类
在数据挖掘和机器学习领域,合适的特征选择至关重要。它能降低数据维度,生成更简单且方差更小的分类模型。
背景与问题
随着在线数据的增多,文本自动分类变得必要。文本分类方法将文本数据映射到预定义的类别中,在传感器网络、智慧城市和交通分析等领域有应用。信息检索系统(IRS)常利用机器学习工具根据文本内容对文档进行分类,但这些工具需要大量标注文档来学习分类模式,且文本特征向量通常维度很高,导致时间性能和分类准确率较低。
为解决这些问题,需要设计特征选择方法过滤无关特征。关联规则等数据挖掘算法可用于特征选择,关联规则能发现大型数据库中项目间的隐藏关联或模式,由前件(头部)和后件(主体)组成,如“面包 → 牛奶”表示买面包的顾客可能也会买牛奶。
相关工作
文本分类的特征选择方法可分为包装式、嵌入式和过滤式三类。包装式方法采用贪心搜索比较所有特征组合的分类准确率,计算复杂度高;嵌入式方法是分类器的一部分;过滤式方法是分类模型的独立组件,速度更快。
许多研究使用关联规则进行特征选择,如[6]提出的文本分类算法在特征选择阶段使用关联规则,其Bit - priori Association Classification Algorithm(BACA)将文本文档表示为二进制结构,用二进制运算查找关联规则。[13]基于启发式方法,选择支持度和相对置信度作为约束生成关联规则,用Apriori算法挖掘满足条件的规则,根据规则对术语打分确定相关性。[14]提出SemanQE语义查询扩展算法,由关联规则查询扩展、特
超级会员免费看
订阅专栏 解锁全文
1139

被折叠的 条评论
为什么被折叠?



