BCwO项目日志:2005-8-29

博主今日改进了Crawler的连接分析功能,包括对链接中Javascript的过滤,虽会导致部分链接丢失但暂不处理;还处理了相对链接,分为指向根目录、上级目录和当前目录三类,链接提取使用正则表达式。明天计划开展Crawler的文字提取模块。

今天的得效率很低,改进了一下Crawler的连接分析功能,主要有如下改进:

  1. 链接中Javascript的过滤,这个部分很容易,只要判断链接开头就可以了,但是这个筛选也会导致一些链接的丢失。关于这一点,目前暂不考虑,可以先记录,然后从中提取链接。
  2. 相对链接的处理,主要有3类:
    1. 指向跟目录的链接"/"
    2. 上级目录的链接"../"
    3. 当前目录"default.aspx
  3. 链接的提取主要使用正则表达式我的表达式如下:
    <a[^>]+href=\s*(?:'(?<href>[^'']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>

明天计划开始Crawler的文字提取模块。

转载于:https://www.cnblogs.com/mactea/archive/2005/08/29/225456.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值