初学java爬虫,用htmlunit + jsoup解析JavaScript

本文介绍了初学者在使用jsoup爬取晋江网站时遇到的问题,即在模拟登录后无法获取到JavaScript动态加载的v章内容。为解决这个问题,作者通过结合htmlunit和jsoup,成功实现了对JavaScript内容的解析和抓取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在用jsoup爬晋江的时候,模拟登陆后仍获取不到v章内容。经验证,是因为jsoup无法解析JavaScript,而v章内容是js动态获取的。经过查阅资料,最后使用htmlunit+jsoup来实现
登陆和获取cookies在上一篇已经写了,不再赘述。

	public static String getChapterContent(Chapter chapter, String novelUrl) {
   
   
		System.out.println("正在获取第"+chapter.getChapterNum()+"章 "+chapter.getChapterTitle());
		//如果是锁章,返回
		if (chapter.getUrl() == null) {
   
   
			return chapter.getContent();
		}
		//模拟浏览器
		WebClient webClient = new WebClient(BrowserVersion.CHROME);
		//设置请求头、cookies、代理
		WebRequest request = null;
		try {
   
   
			request = new WebRequest(new URL(chapter.getUrl()));
		} catch (MalformedURLException e2) {
   
   
			e2.printStackTrace();
		}
		request.setProxyHost(ip);//设置代理
		request.setProxyPort(port)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值