爬虫

爬虫技术详解：使用Jsoup进行网页数据抓取

最新推荐文章于 2024-07-05 11:40:03 发布

原创最新推荐文章于 2024-07-05 11:40:03 发布 · 476 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍了如何使用Jsoup库进行网页数据抓取，包括登录验证、页面翻页和数据解析等关键步骤。通过实例演示了如何获取特定网页的数据并进行初步处理。

package cn.edu.hfut.dmic.contentextractor;

import java.io.IOException;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class jsouptest {

   public static void main(String[] args) throws Exception {
       Connection.Response loginForm = Jsoup
               .connect(
                       "http://www.noah-fund.com/fundtools/FundDaQuanQuery.do?method=initDaQuan")
               .method(Connection.Method.GET).execute();
       for(int i=1;i<134;i++){
       Document document = Jsoup
               .connect(
                       "http://www.noah-fund.com/fundtools/FundDaQuanQuery.do?method=initDaQuan")
               .data("cookieexists", "false").data("pageNum", String.valueOf(i))
               .cookies(loginForm.cookies()).post();
       System.out.println(document);
       }

   }

}