新兴序列模式应用研究
1. 引言
新兴模式挖掘在数据挖掘领域是一个研究较为深入的课题。新兴模式(EPs)指的是那些在不同数据集之间频率发生显著变化的模式。在静态数据集中,如具有不同类别(男性与女性、治愈与未治愈)的数据集,EPs 能够揭示出数据集之间有用且隐藏的对比模式,可用于各种决策,例如构建准确的分类器、预测疾病可能性、发现基因表达数据中的模式等。
新兴序列模式(ESPs)是指在时间上从一个序列数据集到另一个序列数据集频率增加的序列模式(在本文中,带时间戳的数据集和序列数据集可互换使用)。ESPs 能够捕捉序列数据集中随时间变化的新兴趋势,可用于各种决策。例如,商店的序列交易中的 ESPs 可以反映出顾客兴趣的新兴趋势,管理层可以利用这些信息来了解顾客行为并预测未来的购买情况。
近年来,Tsai 等人提出了一种挖掘新兴序列模式的框架,用于检测顾客行为(交易)中的变化和 ESPs,这些交易被挖掘为清晰(一般)的序列模式。后来,该方法被改编用于挖掘时间间隔序列模式中的变化和 ESPs,Huang 等人也对其进行了修改,用于挖掘模糊时间间隔序列模式中的变化和 ESPs。这些工作中检测到的 ESPs 为零售管理提供了有价值的参考,有助于理解和预测顾客行为。
本文旨在研究在带时间戳的数据集中检测 ESPs 的技术,以及检测到的 ESPs 进行预测的有效性。研究目的是通过评估 ESPs 与频繁模式的预测效果,来评估基于当前定义的 ESPs。
2. 基本概念
2.1 序列模式
序列模式挖掘问题及其相关符号定义如下:
设 $I = {i_1, i_2, …, i_n}$ 是一组文字,称为项,构成
超级会员免费看
订阅专栏 解锁全文
2508

被折叠的 条评论
为什么被折叠?



