23、D3CAS算法实验与社交网络市场细分的数据挖掘应用

D3CAS算法实验与社交网络市场细分的数据挖掘应用

1. D3CAS算法实验

D3CAS在处理模拟数据集的数字数据流时表现出色,在处理球形分布和不规则分布的聚类时,其结果优于CluStream。本次实验使用模拟的真实短文本流,尝试不同的参数配置,以分析D3CAS的性能。
- 文本流构建
- 数据集来源 :实验使用的文本流来自“Random Acts of Pizza”(RAOP)数据库,该数据库包含2010年12月8日至2013年9月29日的21,577个帖子,仅选取了5671个能确定请求是否成功的帖子。
- 数据处理 :每个帖子仅使用文本标签、全文、标题和请求的Unix时间戳。时间戳用于按时间顺序排序帖子,并修改为模拟约57秒的数据流,到达频率为每秒100个帖子。
- 主题与特征表示 :研究确定了五个主要主题(金钱、工作、学生、家庭和渴望者),共110个特征词。使用词袋模型和TF - IDF创建长度为110的向量。
- 实验过程
- 参数配置 :多次使用D3CAS处理文本流,尝试不同的e、eps和minpoints参数配置。
- 聚类纯度测量 :完成聚类后,为每个聚类分配标签,计算其纯度。给定聚类Ci,rpi为请求成功的帖子数,rni为请求失败的帖子数,TP为整个流中成功的案例数,TN为失败的案例数。若(rpi/TP) > (rni/TN),则Ci为正类,否则为负类。
-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值