
网络爬虫
lzj0470
这个作者很懒,什么都没留下…
展开
-
爬虫设计要点
http://community.youkuaiyun.com/Expert/topic/5696/5696765.xml?temp=.7289392 1】 网络爬虫高度可配置性。 2】 网络爬虫可以解析抓到的网页里的链接 3】 网络爬虫有简单的存储配置 4】 网络爬虫拥有智能的根据网页更新分析功能 5】 网络爬虫的效率相当的高 那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢? ...原创 2009-02-07 13:36:54 · 314 阅读 · 0 评论 -
Java版PageRank及网站收录情况查询代码收藏
在Google这个由10的100次方得名的站点中,各种评估网站的算法层出不穷,而PageRank即是其中之一。 Google的PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。 Pag...原创 2009-02-09 13:55:20 · 356 阅读 · 0 评论 -
韩文网站 编码方式euc-kr
今天,搞一个韩文的网站,编码方式为euc-kr,在平常其他网站都正常的情况下,今天用到这个网站上却不正常了。搞了一天,我还以为是我的代码有问题。结果是一位网友帮我解决掉。并不是我的程序有问题,而是开发工具缺少字符集包。给我一个包就行拉。...2009-02-13 23:41:43 · 1524 阅读 · 0 评论 -
Robots.txt 协议标准
近期有很多站长咨询,怎样正确设置"robots.txt"文件。为了解决广大站长朋友们的疑问,我们对《Robots.txt 协议标准》进行了翻译,希望此篇译文能够帮助大家对"robots.txt"文件有更深的了解。 Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。...原创 2009-02-18 15:14:38 · 177 阅读 · 0 评论 -
loiyspider网络爬虫
loiyspider是一个开源的网络爬虫,意在解决: 1、用最短的时间,找到最新比较频繁的页面。 2、搜集需要的关键字。 3、基于模板方式采集特定的页面。原创 2010-07-29 11:07:08 · 108 阅读 · 0 评论 -
ttttttttt
结果显示Strhash和Tianlhash的性能较佳 HfIp 都是很可靠的原创 2011-12-16 23:38:08 · 188 阅读 · 0 评论 -
辨别百度蜘蛛 Google蜘蛛的真伪
点击Windows系统里的“开始” – “运行”,输入:tracert 123.125.71.96 点击确定。 结果里包含baiduspider-*.crawl.baidu.com即表示为真正的百度蜘蛛原创 2012-10-09 02:27:31 · 214 阅读 · 0 评论