BCwO项目日志：2005-8-29

最新推荐文章于 2025-09-12 16:56:45 发布

转载最新推荐文章于 2025-09-12 16:56:45 发布 · 68 阅读

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/mactea/archive/2005/08/29/225456.html

文章标签：

博主今日改进了Crawler的连接分析功能，包括对链接中Javascript的过滤，虽会导致部分链接丢失但暂不处理；还处理了相对链接，分为指向根目录、上级目录和当前目录三类，链接提取使用正则表达式。明天计划开展Crawler的文字提取模块。

今天的得效率很低，改进了一下Crawler的连接分析功能，主要有如下改进：

链接中Javascript的过滤，这个部分很容易，只要判断链接开头就可以了，但是这个筛选也会导致一些链接的丢失。关于这一点，目前暂不考虑，可以先记录，然后从中提取链接。
相对链接的处理，主要有3类:
1. 指向跟目录的链接"/"
2. 上级目录的链接"../"
3. 当前目录"default.aspx
链接的提取主要使用正则表达式我的表达式如下:
<a[^>]+href=\s*(?:'(?<href>[^'']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>

明天计划开始Crawler的文字提取模块。

转载于:https://www.cnblogs.com/mactea/archive/2005/08/29/225456.html