
采集技术
pkuzhangkai1976
本科毕业北京大学计算机系,硕士毕业于北京大学信息科学中心,数据库专业毕业。目前在中科院计算所工作,助研,长期从事采集器相关研发工作,对采集相关技术及浏览器内核尤其是Webkit感兴趣。希望跟大家多学习,多交流。
展开
-
海量数据处理算法—Bloom Filter
注:bloomfilter算法是个采集查重的经典算法,当我04年看到相关论文时佩服得很,即使在现在的大数据量上也游刃有余,在不同应用下可以有不同的变种,满足需求,个人对其有偏好。该文转载自:http://blog.youkuaiyun.com/hguisu/article/details/78661731. Bloom-Filter算法简介 Bloom-Filter,即布转载 2013-11-16 09:55:02 · 1313 阅读 · 0 评论 -
关于采集器和浏览器内核的思考(完整版)
采集技术的最重要的特点是被动的跟随的发展。1.初期在互联网发展的初期,网站是各自建立的,是以TCP、HTTP技术为核心的,相对应的采集器技术是以Socket技术,链接提取为核心的,在系统上结合url查重,分布式技术。相关研究以主题采集,刷新算法为主。以最小的代价获取所需的内容。2.web2.0时代 在新闻,论坛和博客兴起后,这些网站有同样的结构。主要挑战集中在如何及原创 2013-11-14 15:47:14 · 1427 阅读 · 1 评论