1、引入相关包
<!-- WebMagic -->
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>${webmagic.version}</version>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>${webmagic.version}</version>
</dependency>
<!-- selenium本身是一种自动化测试工具 -->
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-selenium</artifactId>
<version>${webmagic.version}</version>
</dependency>
<!-- selenium需要依赖的包,不能少 -->
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>25.0-jre</version>
</dependency>
2、我使用的chrome浏览器,版本 78.0.3904.70

驱动下载地址(驱动的版本与浏览器版本要严格一致):http://npm.taobao.org/mirrors/chromedriver/

(windows-32位的)
下载驱动后,将驱动所在的目录路径放入windows的环境变量path中去。

然后就可以测试了:
public class SeleniumTest {
public static void main(String[] args) {
// 第一步: 设置chromedriver地址。一定要指定驱动的位置。
System.setProperty("webdriver.chrome.driver",
"C://xxx//misjey//chromedriver_win32//78.0.3904.70_win32//chromedriver.exe");
// 第二步:初始化驱动
WebDriver driver = new ChromeDriver();
// 第三步:获取目标网页
driver.get("http://blog.youkuaiyun.com/wgyscsf/article/details/52835845");
// 第四步:解析。以下就可以进行解了。使用webMagic、jsoup等进行必要的解析。
System.out.println("Page title is: " + driver.getTitle());
System.out.println("Page title is: " + driver.getPageSource());
}
}
WebMagic与Selenium实战
本文详细介绍如何使用WebMagic和Selenium进行网页抓取及自动化测试。从引入依赖包到配置浏览器驱动,再到具体代码实现,一步步解析如何利用这些工具进行高效的数据抓取和页面自动化操作。
614

被折叠的 条评论
为什么被折叠?



