html文档转为xml文档

本文介绍了一个实用的字符串处理方法,能够将HTML格式的内容转换成XML格式。此转换包括修复非闭合标签、处理特殊字符及移除脚本内容等步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  public string html转为xml(string 字符串)
    {
        if (字符串 == string.Empty) return string.Empty;
        string 结果字符串 = 字符串;
        string 替换字符串;
        Regex 正则;
        //1 <\/name>替换为</name>
        // 正则 = new Regex(@"<\s*[^<>]+\s*/\s*(\w+)\s*>");
        //  替换字符串 = @"</$1>";
        //  结果字符串 = 正则.Replace(结果字符串, 替换字符串);
        //1 非闭合标签<META >,将>替换成></META>
        正则 = new Regex(@"(<\s*META[^>]*)(>)");
         替换字符串 = @"$1></META$2";
        结果字符串 = 正则.Replace(结果字符串, 替换字符串);
        //2 非标准闭合标签<name />,将/>替换成></name>
        正则 = new Regex(@"(?<头><\s*(?<标签>\w+)\b[^>]*)/\s*>");
        替换字符串 = @"${头}></${标签}>";
        结果字符串 = 正则.Replace(结果字符串, 替换字符串);
        //3   替换成 &nbsp;
        正则 = new Regex(@" ");
        替换字符串 = @"&nbsp;";
        结果字符串 = 正则.Replace(结果字符串, 替换字符串);
       
        //4 <script> * </script> 替换为空白
        正则 = new Regex(@"<\s*script\b[^>]*>[\s\S]*?<\s*/\s*script\s*>");
        替换字符串 = @" ";
        结果字符串 = 正则.Replace(结果字符串, 替换字符串);
        return 结果字符串;
    }

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值