问题:
在分析某网站HTML过程中,想使用正则表达式查找clstag="....",使用的正则表达式为clstag=".*".
当时 常常查到多余的内容,如 <div clstag="http://www.xxx.com" ></div><a href="#" >测试</a> 也会被查找到。
我的解决过程:
1.怀疑是 双引号问题。通过搜索引擎发现解决未果
2.是因为 在Eclipsee和notepadd++中,默认进行的是贪婪查询。所以,匹配的较多的内容
解决办法:
使用正则表达会clstag=".*?" 增加?,以进行最小查找,便获得了结果
OVER!
本文介绍了一种在HTML分析中使用正则表达式的技巧,针对如何精确匹配目标字符串clstag=...而不获取多余内容的方法。通过调整正则表达式的贪婪性,实现了更准确的数据抓取。
2015

被折叠的 条评论
为什么被折叠?



