关于信息采集中用到的一些点滴

在这里记录一下

使用如下的正则表达式来抽取一个网页下的所有链接,并

<a[^>]+href=["']?(?'Url'[^"'>]+)['"]?[^>]*>

测试字符串

<a               href=www.sina.com.cn>ddfa</a>

<a               href=xx.aspx?id=11>ddfa</a>

<a               href="www.sina.com.cn">ddfa</a>

<a               href='www.sina.com.cn'>ddfa</a>

<a               href=http://www.sina.com.cn>ddfa</a>

 

采集网页中所有图片的正则表达式

((http(s)?://)?)+(((/?)+[\w-.]+(/))*)+[\w-./]+\.+(jpg|jpeg|png|ico|bmp|gif)

注意在正则中勾选case insensitive选项

测试字符串

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>

<BODY>
<!-- 对于<a href="http://www.sina.com.cn%22%3e2%3c/a>这样网址的识别的还有问题 -->
<a href=http://www.sina.com.cn>2</a>
<a href=/aa/.aspx>1<a>
<img src="ddd.gif" />
</BODY>
</HTML>

 

 

还可以有这样的链接http:// news.bjut.edu.cn/./newscontent.jsp?p=s&articleID=6769

效果和下面的是一样的

 http://news.bjut.edu.cn/newscontent.jsp?p=s&articleID=6769

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值