在开发爬虫的过程中会解析出Url地址,因为不同网站的不同风格,这些Url有些是相对路径,有些是绝对路径,有些是广告链接。
我们需要统一处理这些新的额Url
1.过滤Url
假如我们想只采集一个网站的信息,就需要把和这个网站有关的Url放入queue
一般的方法是Regex
根据网站Url的特点编写,逐一匹配过滤Url。
2.相对地址转绝对地址
有些网站的Url采用相对地址,有些是绝对地址,绝对地址可以直接放入queue,相对地址需要解析出之后转换成绝对地址,还有些网站会两种Url都存在,这需要我们判断转化。
根据上边思路,还可以用正则表达式,这里另一种方法,Java.net
中有两个类,URI\URL
我们可以使用URL去处理网页地址,比直接采用String要方便些,URI中有一个判断绝对路径和相对路径的方法
isAbsolute
public boolean isAbsolute()判断此 URI 是否为绝对的。
当且仅当 URI 具有方案组成部分时,它才是绝对的。返回:
当且仅当此 URI 是绝对的,才返回 true
本文深入探讨了爬虫开发过程中如何有效解析并处理Url地址,包括过滤相关Url、相对路径转绝对路径等关键步骤。通过正则表达式及Java.net中的URI与URL类实现Url转换,确保数据收集的准确性与效率。
671

被折叠的 条评论
为什么被折叠?



