今天的得效率很低,改进了一下Crawler的连接分析功能,主要有如下改进:
- 链接中Javascript的过滤,这个部分很容易,只要判断链接开头就可以了,但是这个筛选也会导致一些链接的丢失。关于这一点,目前暂不考虑,可以先记录,然后从中提取链接。
- 相对链接的处理,主要有3类:
- 指向跟目录的链接"/"
- 上级目录的链接"../"
- 当前目录"default.aspx
- 链接的提取主要使用正则表达式我的表达式如下:
<a[^>]+href=\s*(?:'(?<href>[^'']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>
明天计划开始Crawler的文字提取模块。