论文阅读笔记

本文探讨了深度学习在网络安全领域的应用,如恶意软件检测和入侵检测,同时指出特征选择、自适应性和可解释性是当前面临的挑战。深度学习模型易受对抗攻击,且在序列数据建模、模型训练效率和隐私保护方面存在问题。未来研究方向包括增强模型的鲁棒性、可解释性和隐私保护措施。

深度学习应用于网络空间安全的现状_趋势与展望_张玉清

文章发表于2018

摘要

  • 本文从分类算法、特征提取和学习效果等方面分析了深度学习在网络安全领域的研究现状和进展,目前深度学习主要应用于恶意软件检测和入侵检测两个领域

  • 目前应用领域存在的问题:

    • 特征选择:
      • 需要从原始数据中提取更全面的特征
    • 自适应:
      • 可通过early-exit策略对模型进行实时更新
    • 可解释性:
      • 可使用影响函数得到特征与分类结果之间的相关性
  • 归纳总结了深度学习应用于网络安全领域面临的问题和机遇

    • 算法脆弱性:
      • 深度学习模型容易受到对抗攻击和隐私窃取攻击
        • 对抗样本的危险
        • 机密性差
          • 基于多方协作的深度学习模型,其数据来自于多个提供方,其模型容易被恶意的一方来还原其他数据源的数据
    • 序列化模型相关问题:
      • 网络安全领域的数据大多都是序列数据,如何对数据建模是很大的问题
      • 程序语法分析、程序代码生成和序列建模长期依赖问题
    • 算法性能问题:
      • 可解释性和可追溯性问题、自适应性和自学习性问题、存在误报以及数据集不均衡的问题

分类算法

  • 深度神经网络DNN
  • 卷积神经网络CNN
  • 循环神经网络RNN
  • 深度信念网络DBN
  • 自编码器AE

深度学习在安全领域的应用

  • 恶意软件检测
    • 研究广泛
  • 入侵检测
    • 研究广泛
  • 程序分析与漏洞挖掘
    • 局限性比较大,进展缓慢
  • 密码破解
    • 有一定的进展
  • 恶意软件检测系统的对抗攻击与防御
    • 对抗样本,研究比较多

深度学习在网络安全领域应用面临的问题

  • 特征选择问题
    • 目前基于恶意软件检测和入侵检测领域均是使用现有数据集,这些数据集的默认特征(入侵检测领域KDD中默认的41个特征,恶意软件检测领域默认的API调用序列)可能不足以完全概括数据的特点
    • 从最原始的数据入手,重新对特征进行建模可能是一个切入点
  • 特征学习问题
    • 网络安全领域的数据大多都是序列化数据
    • 现有阶段很少有人关注到特征的可解释性问题
      • 仅仅借鉴于图像领域的影响函数
      • 未来对于模型特征的可解释性研究可能是一个切入点
  • 自适应问题
    • 深度学习模型训练和测试时间长
    • 在网络安全领域,技术迭代很快,模型应当要及时更新
      • 如入侵检测,恶意软件检测领域,攻击者的攻击技术可能会逐步提升,这就使得早期训练模型无效
    • 保证比较高的准确率和误报率的前提下,如何高效训练和测试深度学习模型是一个研究难点
13-17进展调研

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

深度学习本身面临的问题

  • 深度学习模型易受对抗攻击

    • 设计对抗攻击框架,可以采用不同方法生成对抗样本检验目标模型鲁棒性以此来设计更好防御措施保护模型
  • 模型的可解释性和可朔源性

    • 研究表明模型的准确度与模型的可解释性和可朔源性成反比
      • 在尽可能保证高准确率前提下,提高模型的可解释性和可朔源性
    • 是人类能从机器学习决策中学到知识,是一个研究难点
    • 目前研究
      • 对样本在局部特征空间进行细微扰动,根据每次扰动之后的预测结果来得出特征与预测类别之间的关系
      • 使用稳健统计学(robust statistics)中 的 影 响 函 数,来 得 出训练集中对测试样本的预测类别影响最大的样本
  • 于所有协作性深度学习模型,即协作性模型易受隐私窃取攻击、机密性差,目标模型的训练集或者架构参数等会被攻击者恶意获取

  • 神经网络优化中的全局最小值点问题

    • 在训练神经网络的过程中,由于损失函数往往非凸(nonconvex),容易使算法陷入局部最小值点,很难找到一个全局最小值点,使得损失函数值最低
  • 初始化策略

    • 网络初始化权重的选取
  • 生成型深度学习模型

    • 记忆网络包含一个可以实现超长序列的记忆模块,其记忆能力优于 RNN
  • 生成对抗网络(GAN)的训练难点问题

对抗样本

利用的机器学习缺陷:
  • 模型通过有限训练集训练得到,具有未完全泛化的特性
  • 机器学习模型组件的线性特性
对抗知识:
  • 模型架构(目标模型的参数、损失函数和激活函数)

  • 训练数据

  • 模型架构(目标模型对攻击者具有可得性,攻击者可对目标模型进行输入并得到相应输出)

传属性
  • 即 使2个 分 类 器 具 有 不 同 的 体 系结构或者是在不相交的数据集上进行训练的,用其中一个分类器产生的对抗样本也可能导致另一个分类器也对该样本进行错误分类

在这里插入图片描述

隐私窃取与隐私窃取防御

窃取:
  • 模型反演攻击
  • 污染攻击
  • 利用GAN的信息窃取

展望:

  • 防御对抗攻击
    • 对抗训练
      • 搜索到全部可能的虚拟对抗样本来扩充训练集,是对抗训练的难点
  • 防御针对协作性模型的攻击
    • 隐私窃取
  • 特征学习
    • 数据规模
    • 有效特征学习
    • 序列化建模
  • 可解释性
    • 模型输出结果与各个特征之间的关联
    • 分类结果的支撑性依据
### 图像质量评估论文阅读笔记与总结 #### 关于无参考图像质量评估的研究进展 无参考图像质量评估(No-Reference Image Quality Assessment, NR-IQA)是一种无需原始参考图像即可对失真图像的质量进行量化的方法。近年来,基于深度学习的技术显著提升了NR-IQA模型的表现能力。 MetaIQA 是一种采用元学习框架的无参考图像质量评估方法[^1]。它通过模拟不同类型的图像退化来训练模型,使其能够适应多种未知场景下的图像质量预测任务。这种方法的核心在于引入了一个可微分的优化过程,从而使得模型能够在少量样本上快速泛化到新的分布环境。 另一篇重要工作 Controllable List-wise Ranking 提出了针对通用型无参考图像质量评估的新思路[^2]。该研究设计了一种可控列表排序机制,允许用户根据实际需求调节评分标准中的某些特性权重,比如清晰度或者色彩还原准确性等方面的重要性程度。这种灵活性极大地增强了算法的实际应用价值。 对于希望深入了解这些技术背后原理以及其实验细节的人来说,可以参考上述两篇文章的具体实现部分及其附带的数据集说明文档等内容来进行更深入的学习理解。 此外,在数据分析领域也有不少关于如何有效展示研究成果的好例子可供借鉴。例如有学者分享过利用 Excel 和 Gephi 工具制作复杂关系网络图的经验教程[^3],这对于整理归纳大量文献资料非常有用处;而另一个案例则是展示了怎样从人民网获取公开新闻资源并进一步加工处理成适合输入给图形渲染引擎使用的结构化信息形式。 ```python import pandas as pd from gephi import GephiGraphStreamer # 假设存在这样的库用于简化演示目的 # 加载节点和边数据 nodes_df = pd.read_csv('nodes.csv') edges_df = pd.read_csv('edges.csv') streamer = GephiGraphStreamer() graph = streamer.create_graph() for _, node in nodes_df.iterrows(): graph.add_node(node['id'], label=node['label']) for _, edge in edges_df.iterrows(): graph.add_edge(edge['source'], edge['target']) # 将最终生成的知识图谱导出供后续查看分析 streamer.export_to_gephi(graph) ``` 以上代码片段仅作为示意用途,显示了可能用来创建知识图谱的一个简单流程概览。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值