webmagic 爬虫爬取某些网址URL的Regex过滤不生效
最近使用Webmagic进行过滤url的时候:如下格式的page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/[\\w\\-]+/[\\w\\-]+)").all()); page.addTargetRequests(page.getHtml().links().regex("(ht...
原创
2020-02-22 17:57:21 ·
1015 阅读 ·
0 评论