前面已经能够根据正则表达式、div的id属性、以及结果的正则表达式可以获取复杂的divs列表数据。
参数设置如下:
- divID属性
- 获取div的正则表达式
- 得到第几个div
- 获取结果的正则表达式
- 结果分组中的序号
通过以上参数的设置基本可以获取任何符合条件的div,在通过解析结果的正则表达式基本可以得到任意结果。
接下来要根据url信息获取详细结果,目前实现了:
- url指定的html代码
- 通过正则表达式得到想要的详细信息
这样可以获取任意想要的详细信息,过滤掉不需要的数据;但是有一个问题,就是如果获取某些字段数据时就会有问题,譬如只需要详细信息页面中的姓名、性别、住址信息;并且要把详细信息的数据合并到结果中,这就涉及到以下两个问题:
- 详细信息的精确性获取
- 结果的合并问题
下载的功能相对比较好实现,加入以下参数设置即可:
- 文件的链接
- 判断文件扩展名,通过流保存到本地指定文件夹
- 替换源文件的文件链接