29、网络垃圾邮件与黑名单流量的检测与分析

网络垃圾邮件与黑名单流量的检测与分析

一、网络账户垃圾邮件检测

1.1 用户名与显示名搜索差异

在通过网络搜索检测欺诈账户时,用户名和显示名搜索结果存在显著差异。用户名搜索结果常来自Twitter等针对账户持有者的社交网络服务;而显示名搜索结果则常被用于查找个人的目录条目所污染。基于此,我们为这两种搜索类型分别生成了黑名单。

1.2 黑名单长度优化

在调整黑名单长度这一参数时,我们需要确定何种长度能带来最佳性能。为此,我们以0到50为范围,间隔为5进行分析对比。黑名单长度为0表示不过滤任何域名,长度为5表示从每个分析查询中移除前5个最常见的结果,以此类推。结果表明,当黑名单长度为10时,真阳性率(TPR)和假阳性率(FPR)达到了最佳平衡,如下表所示:
| 黑名单长度 | TPR | FPR |
| — | — | — |
| 0 | [具体值] | [具体值] |
| 5 | [具体值] | [具体值] |
| 10 | [最佳TPR值] | [最佳FPR值] |
|… |… |… |
| 50 | [具体值] | [具体值] |

1.3 训练集规模对黑名单质量的影响

为使黑名单能快速生成并获得有意义的结果,我们研究了生成有效黑名单所需考虑的结果集数量。通过对不同规模的账户随机样本生成黑名单,发现当训练集小至500个账户时,TPR和FPR就已稳定。在Twitter等环境中,这样规模的数据集几乎能立即获取。具体数据可参考以下表格:
| 训练集规模 | TPR均值 | FPR均值 | 标准差 |
| — | — | — |

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值