**采集 第二步 正则和爬虫

本文介绍了一个简单的Web爬虫程序,该程序能够抓取含有特定字符串的网页链接。通过正则表达式匹配来筛选有效链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第二步 准备工作
手动采集 正则匹配
正则 和 爬虫
/**
 *  超简单的 Web 爬虫程序,用来采集一个网页中的所有链接地址(并且这些链接地址的网页源代码中包含字符串"searchString")!
 *
 */
public class SearchCrawler implements Runnable{
..
  SearchCrawler crawler = new SearchCrawler("http://www.blogjava.net/Jack2007/", 100,"jack");
}
SearchCrawler 的附件见csdn空间6/SearchCrawler.txt

 

public boolean accept(String url) {
                if (url.matches("http://news.sohu.com/[//d]+/n[//d]+.shtml")) {
                    return true;
                } else {
                    return false;
                }

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值