众所周知,
XML
的快速发展,已经越来越多地出现在数据交互、文件配置和格式化的数据载体中,尽管
XML
支持的语言越来越多,但是还是有些字符是不被支持的。我在工作中就遇到了这样的问题,通过
.csv
文件录入数据,然后通过在程序中转化为
XML
中间文件,再将
XML
文件录入进行处理时发生异常,经过分析,是由于
.csv
文件中含有
XML
不支持的非法字符。
查询XML规范(http://www.w3.org/TR/2004/REC-xml-20040204),得知:XML支持的字符范围:
Character Range
| [2] |
Char |
::= |
#x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] |
/* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */ |
从字符串中检测XML不支持的字符的Java代码:
1
public
static
int
checkCharacterData(String text)
{
2
3
int errorChar=0;
4
5
if (text == null)
{
6
public
static
int
checkCharacterData(String text)
{
2

3
int errorChar=0;4

5

if (text == null)
{
6

博客介绍了如何根据XML规范来识别并处理不被支持的字符。内容包含XML字符范围的说明,并提供了用于检测XML不支持字符的Java代码片段。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



