一.该爬虫用了WebMagic爬虫框架实现
1.WebMagic开发文档:http://webmagic.io/
2.在使用之前,您需要了解正则表达式和XPath,大神请忽略
二.下面是实现代码和分析
2.1添加maven依赖
不知道maven的童鞋请参考https://my.oschina.net/huangyong/blog/194583
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.11</version>
<scope>test</scope>
</dependency>
<!--爬虫框架-->
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.7.3</version>
</dependency>
2.2.1.实现步骤
首先进入校花网首页,fn+f12进入开发者模式,找到class为title的a标签,下图