本课题的主要研究内容是LLM计算基础设施攻击技术研究、LLM模型自身安全研究和利用新prompt范式诱导LLM输出不良内容的攻击技术研究。这涉及到对驱动、AI平台、数据库、API接口等关键组件的深入剖析,探索LLM模型的安全边界,揭示其可能遭受的隐私泄露和恶意操控风险。保障LLM模型的道德和伦理使用。
研究方案和技术路线:
- 文献调研与资料收集:收集国内外关于LLM攻击技术的最新研究成果和资料,了解当前的研究进展和存在的问题,为本研究提供理论支撑和参考。
- 实验设计与实施:设计并实施一系列针对LLM的攻击实验,包括但不限于基础设施攻击、模型攻击和prompt攻击等,通过实际测试验证攻击技术的有效性和可行性。
- 数据分析与结果评估:对实验数据进行深入分析,评估各种攻击技术的威胁程度和影响范围,为制定有效的防御策略提供依据。
主要创新点:
- 首次针对依托昇腾Atlas计算平台构建的LLM模型进行攻击技术研究,填补了该领域的空白。
- 提出了一系列针对LLM模型及其计算基础设施的攻击技术和方法,为LLM模型的安全评估提供了新的视角和手段。
- 通过研究新的prompt范式对LLM模型输出的影响,揭示了LLM模型在道德和伦理使用方面可能存在的问题,为未来的LLM模型研究和应用提供了重要参考。