
搜索引擎
文章平均质量分 72
老田低代码
这个作者很懒,什么都没留下…
展开
-
解析Html生成标签树(前言)
提示:根据这几天的访问量跟踪,我发现很多访者都没有很好地关注到真正进行算法描述的章节《解析Html生成标签树(一)》,特此进行提示。搜索引擎一个最重要的步骤就是,获得网页的正文内容,我相信每个人看见一篇网页的时候,从视觉上都很容易知道哪个部分是正文内容,哪个部分是版权信息,哪个部分是广告信息。但是要让计算机明白这些,估计要若干年(到时候还不知道人类是否已经变异成4只眼睛,5个耳朵。。。)之原创 2008-06-03 18:31:00 · 11055 阅读 · 13 评论 -
GZipStream实现压缩以及出现的问题
在抓取页面的过程中,在存储抓取到的页面内容的时候我需要先将页面压缩再存储,为了使用上的方便,采用了2.0下的GZipStream来进行压缩。引用如下:using System.IO;using System.IO.Compression;......public static byte[] Compress(byte[] data){ Memory原创 2008-08-29 09:29:00 · 9422 阅读 · 6 评论 -
解析Html生成标签树(一)
解析Html成标签树结构以后,我们不但可以很容易取得想要的元素,同时也很容易将Html转换成对应的XML文件。但是由于代码是在公司写的,所以没有粘贴出来的可能性,所以我只能给出大概的代码流程,具体细节描述,相信各位都很容易写出来,并且写的比我好,关键的是算法实现思想。算法的关键如下: 1. Html中每个tag都是都将作为树中的一个节点存在的,每个tag都属于树中的某一层。原创 2008-06-06 17:38:00 · 25072 阅读 · 51 评论