
爬虫
文章平均质量分 80
胖猫的夏天
偶尔写写地图,偶尔写写前端
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Heritrix参数解释及配置
可以说 crawler-beans.cxml 可以主导整个Heritrix的抓取,采用spring来管理.里面的配置都是一个个bean,通过修改配置文件 crawler-beans.cxml 即可完成几乎所有的需求。 1. 修改任务元数据 <bean id="simpleOverrides" class="org.springframework.beans.factory.config.Prope原创 2017-03-08 11:15:52 · 1233 阅读 · 0 评论 -
Heritrix web界面功能介绍
一、安装heritrix访问GitHub地址:https://github.com/internetarchive/heritrix3 我这里采用Clone的方式,使用的IDE是IntelliJ IDEA 导入完成后的结果如下: 二、启动Heritrixhttps://webarchive.jira.com/wiki/display/Heritrix/Running+Heritrix+原创 2017-03-08 10:51:21 · 3994 阅读 · 0 评论 -
一致性hash算法原理及其在分布式中的应用
摘要 本文将会从实际应用场景出发,介绍一致性哈希算法(Consistent Hashing)及其在分布式系统中的应用。首先本文会描述一个在日常开发中经常会遇到的问题场景,借此介绍一致性哈希算法以及这个算法如何解决此问题;接下来会对这个算法进行相对详细的描述,并讨论一些如虚拟节点等与此算法应用相关的话题。分布式缓存问题假设我们有一个网站,最近发现随着流量增加,服务器压力越来越大,之前直接读写数据库的方原创 2017-03-20 16:40:25 · 651 阅读 · 0 评论