暗网流量分析与知识图谱聊天机器人开发
1 暗网流量分析
1.1 暗网网络数据及数据集详情
暗网网络存在多种流量类别,不同类别对应不同的应用程序,具体如下表所示:
| 流量类别 | 应用程序 |
| — | — |
| 音频流 | Vimeo 和 YouTube |
| 浏览 | Firefox |
| 聊天 | ICQ、AIM、Skype、Facebook |
| 电子邮件 | SMTPS、POP3 和 IMAPS |
| P2P | utTorrent 和 BitTorrent |
| 视频流 | Vimeo 和 YouTube |
| VOIP | Facebook、Skype 和 Hangout |
本研究使用的数据集是 CICDarknet2020 数据集,包含良性和暗网流量。该数据集分为两层,一层表示正常流量,另一层表示来自 Tor 或 VPN 的恶意流量。数据集中总共有约 158,659 个条目,其中正常数据包有 134,348 个,暗网数据包有 24,311 个,音频流的数据包数量最多。具体流量详情如下表:
| 流量类别 | 数据包数量 |
| — | — |
| 正常流量 | 134,348 |
| 暗网流量 | 24,311 |
| 总计 | 158,659 |
1.2 特征选择
特征选择在机器学习应用中至关重要。选择数据中的最佳特征不仅能提高准确性,还能使系统在时间和内存方面更高效。本研究使用特征重要性方法进行特征选择,这是基于树的分类器自带的类。具体实现时,采用额外树分类器
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



