D3CAS算法实验与社交网络市场细分的数据挖掘应用
1. D3CAS算法实验
D3CAS在处理模拟数据集的数字数据流时表现出色,在处理球形分布和不规则分布的聚类时,其结果优于CluStream。本次实验使用模拟的真实短文本流,尝试不同的参数配置,以分析D3CAS的性能。
- 文本流构建
- 数据集来源 :实验使用的文本流来自“Random Acts of Pizza”(RAOP)数据库,该数据库包含2010年12月8日至2013年9月29日的21,577个帖子,仅选取了5671个能确定请求是否成功的帖子。
- 数据处理 :每个帖子仅使用文本标签、全文、标题和请求的Unix时间戳。时间戳用于按时间顺序排序帖子,并修改为模拟约57秒的数据流,到达频率为每秒100个帖子。
- 主题与特征表示 :研究确定了五个主要主题(金钱、工作、学生、家庭和渴望者),共110个特征词。使用词袋模型和TF - IDF创建长度为110的向量。
- 实验过程
- 参数配置 :多次使用D3CAS处理文本流,尝试不同的e、eps和minpoints参数配置。
- 聚类纯度测量 :完成聚类后,为每个聚类分配标签,计算其纯度。给定聚类Ci,rpi为请求成功的帖子数,rni为请求失败的帖子数,TP为整个流中成功的案例数,TN为失败的案例数。若(rpi/TP) > (rni/TN),则Ci为正类,否则为负类。
-