一、本周任务
- 读师兄的论文
- 运行师兄给的代码
二、已完成的任务
1.论文
-
论文的理解
a) 论文思路来源:新冠检测的方法是首先,将多个采集样本混合在一起检测,这样就对一片大的区域进行了调查,对于有问题的样本,在对该区域进行仔细的测试;这种方法如果可以用在流量分析上,在理论上这种方法是可以大大提高检测效率的。
b) 思路设计:
Ⅰ. 多示例包生成
将数据样本通过数据的服务类型(或者其他的方式)区分为大小相同的包,对于没有nagative标签数据的包给一个positive的标签,对于有任意个negative标签样本的包给一个negative的标签,以此来区分有问题的包和没有问题的包
Ⅱ . 多示例包映射
多示例包的映射就是通过映射方法通过示例级别的数据获得表示包的向量。多示例包映射分为三个子步骤。第一步是通过K-means将所有示例聚类为几个代表点;第二步是计算代表点与每个包示例之间的距离;第三步是根据距离构造一个向量来表示每个袋子。
Ⅲ . 多粒度分类
对于检测到有问题的示例包,则将包内的数据样本一个一个的进行检测,区分出恶意流量
总的过程如下图
以上图均引用自师兄的论文 -
对论文提出修改意见
Ⅰ . 在 Related Work部分第三页右边第一段部分
划线句子有歧义,“set concept tags without concept tags” 数据集到底是有标签还是没有标签
Ⅱ . 紧接着Ⅰ的下一段
T r T_r Tr 在全文中并没有用到,他提出的意义在哪里; a r a_r ar 是什么,没有给出定义
Ⅲ . The Proposed Approach - Overall Framework 的第一段
B \mathcal{B} B集合中最后一个元素的符号为什么与前面的元素不统一; Table3 应该改为 table1
Ⅳ . The Proposed Approach - Multi-instance Bag Mapping 中第四页公式(4) 上面一段
划线处 v j \mathbf{v}_j vj 和 v j \mathbf{v}_j vj 应修改为 v i \mathbf{v}_i vi 和 v j \mathbf{v}_j vj
2.运行代码
在三种不同的分类算法下得到的结果
knn
svm
j48
![在这里插入图片描述](https://img-blog.csdnimg.cn/b68d2648d23c43aa82c962c7bngj48
三、下周任务计划
- 继续跟进师兄的代码和论文
- 调研人工智能安全的国内外团队的研究成果
- 学习机器学习的十种基本算法