WebCollector教程——爬取新浪微博

最新推荐文章于 2020-02-02 18:26:44 发布

原创

最新推荐文章于 2020-02-02 18:26:44 发布 · 7k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#JAVA爬虫

本文提供了一篇关于如何使用WebCollector爬取新浪微博的教程。首先介绍了需要下载的WebCollector核心jar包和selenium的maven依赖。接着，展示了如何利用Selenium获取新浪微博登录cookie，然后使用这些cookie配合WebCollector爬取并抽取微博数据。文章最后鼓励读者通过捐款支持WebCollector的开发者。

下载

本教程需要两套jar包，WebCollector核心jar包和selenium的jar包。

WebCollector最新jar包可在WebCollector github主页下载。

selenium的maven依赖：

<dependency>
    <groupId>org.seleniumhq.selenium</groupId>
    <artifactId>selenium-java</artifactId>
    <version>2.44.0</version>
</dependency>

内容:

利用Selenium获取登陆新浪微博weibo.cn的cookie(WeiboCN.java)
利用WebCollector和获取的cookie爬取新浪微博并抽取数据(WeiboCrawler.java)

WeiboCN.java


import cn.edu.hfut.dmic.webcollector.net.HttpRequest;
import cn.edu.hfut.dmic.webcollector.net.HttpResponse;
import java.io.ByteArrayInputStream;
import java.io.File;
import java.util.Set;
import javax.imageio.ImageIO;
import org.openqa.selenium.Cookie;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.htmlunit.HtmlUnitDriver;

import java.awt.BorderLayout;
import java.awt.Container;
import java.awt.Dimension;
import java.awt.Graphics;
import java.awt.Toolkit;
import java.awt.event.ActionEvent;
import java.awt.event.ActionListener;
import java.awt.image.BufferedImage;
import javax.swing.JButton;
import javax.swing.JFrame;
import javax.swing.JPanel;
import javax.swing.JTextField;

/**
 * 利用Selenium获取登陆新浪微博weibo.cn的cookie
 *
 * @author hu
 */
public class WeiboCN {
   
   

    /**
     * 获取新浪微博的cookie，这个方法针对weibo.cn有效，对w