正则表达式的威力--轻松消除HTML代码

本文介绍如何使用正则表达式快速清除网页内容中的HTML标记和JavaScript代码,适用于自动化清理采集内容。

      正则表达式再次让我震撼,寥寥数行代码就可以完成普通代码不易实现的功能,至少是实现起来比较复杂的功能。

一、清楚内容中的Javsscript 代码

 1 Function ClearJSCode(originCode)
 2 
 3   Dim reg
 4 
 5   set reg = New RegExp
 6 
 7   reg.Pattern = "<SCRIPT[^<]*</SCRIPT>"
 8   reg.IgnoreCase = True
 9   reg.Global = True
10 
11   clearJSCode = reg.Replace(originCode, "")
12 
13 End Function
14 

 二、清除内容中的HTML代码

 1 Function ClearHTMLCode(originCode)
 2 
 3     Dim reg 
 4     set reg = new RegExp 
 5 
 6     reg.Pattern = "<[^>]*>"
 7     reg.IgnoreCase = True
 8     reg.Global = True
 9  
10     ClearHTMLCode = reg.Replace(originCode, "")
11 
12 End Function
13 


现在好多网站的内容都是使用采集程序生成的,使用上边的代码就可以轻松的将内容中的HTML和JS代码清除掉。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值