HtmlUnit 开发网络爬虫

本文介绍了一种利用广度优先搜索(BFS)算法实现网页爬虫的方法。通过使用HtmlUnit开源库,文章提供了一个简单的Java示例程序,用于抓取指定网站的所有链接。示例代码展示了如何遍历网页中的链接、避免重复访问以及限制抓取范围。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,几行代码就OK啦!

通常在一个页面中会包含别的Url,在别的Url当中又会包含更多的Url。如果我们要对与该站点相关的Url全部都抓取过来。就相当于我们要对跟这个站有关的Url进行搜索。

 

常用的搜索算法有bfs和dfs,考虑到网页上的Url的重要程度还是以广度来分布的,所以这里采用bfs来搜索url。

到这里又会产生一些问题:

1,搜索过的url,并不需要重新访问
2,如何拼凑新的url
3,不要访问站外url,处理无法访问的url等.....

总之我们尽可能的根据实际的情况得到自己想要的url~所以我们尽可能编写合法的剪枝算法。

下面添上自己胡乱写的算法的框架,写的不好哈哈。

import java.io.IOException;
import java.net.MalformedURLException;
import java.util.HashMap;
import java.util.HashSet;
import java.util.LinkedList;
import java.util.Map;
import java.util.Queue;
import java.util.Set;

import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlAnchor;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

//引用HtmlUnit
public class MyWalker {

    static int num = 0;//暂时用num进行限制
    
    final static WebClient webClient = new WebClient();
    static Queue<String> Q = new LinkedList<String>();//存放被抓取的Url
    static Set<String> linkUrl = new HashSet<String>();
    static Map<String,Boolean> flagMap = new HashMap<String,Boolean>();//标记Url是否访问过
    
    static{
        webClient.getOptions().setCssEnabled(false);
        webClient.getOptions().setJavaScriptEnabled(false);
    }
    
    private static String baseUrl = "http://xjasc.gov.cn";
    
    //拼凑出可再次访问的url, 这里的拼凑是不完整的
    private static String createUrl(String current, String u){
     return current + "/" + u; } //判断该链接是否合法 private static boolean isLegal(String url){ if(num > 100) return false; return true; } //页面是否坏掉 private static boolean isBadUrl(String url){ return false; } private static void bfs(){ Q.offer(baseUrl); linkUrl.add(baseUrl);
     while(!Q.isEmpty()){ //得到当前的Url try { String tmpUrl = Q.poll(); if(flagMap.get(tmpUrl)==null){//该结点没有访问过 flagMap.put(tmpUrl, true);//标记为已经访问 HtmlPage page = webClient.getPage(tmpUrl); java.util.List<HtmlAnchor> achList=page.getAnchors(); for(HtmlAnchor ach:achList){ String newUrl = createUrl(tmpUrl, ach.getHrefAttribute()); if(isLegal(newUrl)){ System.out.println(newUrl); num++; linkUrl.add(newUrl); Q.offer(newUrl); } } } } catch (FailingHttpStatusCodeException e) { System.out.println(e.getStatusCode()); } catch (MalformedURLException e) { } catch (IOException e) { } } } public static void main(String[] args) { bfs(); } }

 

转载于:https://www.cnblogs.com/chenjianxiang/p/4522655.html

基于开源大模型的教学实训智能体软件,帮助教师生成课前备课设计、课后检测问答,提升效率与效果,提供学生全时在线练习与指导,实现教学相长。 智能教学辅助系统 这是一个智能教学辅助系统的前端项目,基于 Vue3+TypeScript 开发,使用 Ant Design Vue 作为 UI 组件库。 功能模块 用户模块 登录/注册功能,支持学生和教师角色 毛玻璃效果的登录界面 教师模块 备课与设计:根据课程大纲自动设计教学内容 考核内容生成:自动生成多样化考核题目及参考答案 学情数据分析:自动化检测学生答案,提供数据分析 学生模块 在线学习助手:结合教学内容解答问题 实时练习评测助手:生成随练题目并纠错 管理模块 用户管理:管理员/教师/学生等用户基本管理 课件资源管理:按学科列表管理教师备课资源 大屏概览:使用统计、效率指数、学习效果等 技术栈 Vue3 TypeScript Pinia 状态管理 Ant Design Vue 组件库 Axios 请求库 ByteMD 编辑器 ECharts 图表库 Monaco 编辑器 双主题支持(专业科技风/暗黑风) 开发指南 # 安装依赖 npm install # 启动开发服务器 npm run dev # 构建生产版本 npm run build 简介 本项目旨在开发一个基于开源大模型的教学实训智能体软件,帮助教师生成课前备课设计、课后检测问答,提升效率与效果,提供学生全时在线练习与指导,实现教学相长。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值