j网络爬虫之WebMagic

最新推荐文章于 2022-09-23 10:37:43 发布

转载最新推荐文章于 2022-09-23 10:37:43 发布 · 159 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/zhumengke/p/8868257.html

文章标签：

#爬虫 #json

本文介绍了如何使用WebMagic框架进行POST请求爬取网页，并提供了两种请求参数方式：form表单和JSON格式。通过具体示例代码展示了从创建请求到处理响应的完整流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

WebMagic官网：http://webmagic.io/

注意：

1、在自定义PageProcessor中使用System.out.println(“str”),Spider.create(new myPageProcessor()).start()爬虫启动后，console并不会输出

spider.addPipeline(new ConsolePipeline())//在控制台上输出

webMagic之post请求

请求参数为form

	@Test
	public void webMagicTest1() {
		String str = "一人之下";
		Map<String,Object> map  = new HashMap<String,Object>();
		map.put("keyword", str);
		Request request = new Request("https://www.80s.tw/search");
		request.setMethod(HttpConstant.Method.POST);
		request.setRequestBody(HttpRequestBody.form(map, "utf-8"));
		Spider.create(new webMagic1())
				.addRequest(request)
				.addPipeline(new JsonFilePipeline("D:\\webmagic\\"))
				.addPipeline(new ConsolePipeline())
				.run();
	}

　　请求参数为json

	@Test
	public void webMagicTest1() {
		String name = "一人之下";
		JSONObject json = new JSONObject();
		json.put("keyword", name);
		Request request = new Request("https://www.80s.tw/search");
		request.setMethod(HttpConstant.Method.POST);
		request.setRequestBody(HttpRequestBody.json(json.toString(), "utf-8"));
		Spider.create(new webMagic1())
				.addRequest(request)
				.addPipeline(new JsonFilePipeline("D:\\webmagic\\"))
				.addPipeline(new ConsolePipeline())
				.run();
	}

转载于:https://www.cnblogs.com/zhumengke/p/8868257.html