java+webMagic+selenium

WebMagic与Selenium实战

最新推荐文章于 2023-12-07 20:33:41 发布

原创最新推荐文章于 2023-12-07 20:33:41 发布 · 758 阅读

1 ·

CC 4.0 BY-SA版权

爬虫专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍如何使用WebMagic和Selenium进行网页抓取及自动化测试。从引入依赖包到配置浏览器驱动，再到具体代码实现，一步步解析如何利用这些工具进行高效的数据抓取和页面自动化操作。

1、引入相关包

<dependency>
       <groupId>us.codecraft</groupId>
       <artifactId>webmagic-core</artifactId>
       <version>${webmagic.version}</version>
       </dependency>
       <dependency>
       <groupId>us.codecraft</groupId>
       <artifactId>webmagic-extension</artifactId>
       <version>${webmagic.version}</version>
       </dependency>

<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-selenium</artifactId>
<version>${webmagic.version}</version>
</dependency>

<dependency>
       <groupId>com.google.guava</groupId>
       <artifactId>guava</artifactId>
       <version>25.0-jre</version>
       </dependency>

2、我使用的chrome浏览器，版本 78.0.3904.70

驱动下载地址(驱动的版本与浏览器版本要严格一致)：http://npm.taobao.org/mirrors/chromedriver/

(windows-32位的)

下载驱动后，将驱动所在的目录路径放入windows的环境变量path中去。

然后就可以测试了：

public class SeleniumTest {
	public static void main(String[] args) {
        // 第一步： 设置chromedriver地址。一定要指定驱动的位置。
        System.setProperty("webdriver.chrome.driver",
        		"C://xxx//misjey//chromedriver_win32//78.0.3904.70_win32//chromedriver.exe");
        // 第二步：初始化驱动
        WebDriver driver = new ChromeDriver();
        // 第三步：获取目标网页
        driver.get("http://blog.youkuaiyun.com/wgyscsf/article/details/52835845");
        // 第四步：解析。以下就可以进行解了。使用webMagic、jsoup等进行必要的解析。
        System.out.println("Page title is: " + driver.getTitle());
        System.out.println("Page title is: " + driver.getPageSource());
    }
}