- 博客(82)
- 资源 (3)
- 收藏
- 关注
原创 最短编辑距离
最短编辑距离:编辑距离是一种字符串之间相似程度的计算方法。按照Damerau给出的定义,即两个字符串之间的编辑距离等于使一个字符串变成另外一个字符串而进行的(1)插入、(2)删除、(3)替换或(4)相邻字符交换位置而进行操作的最少次数。编辑距离越短,两个字符串的相似度越高。再看这些算法的过程当中,了解到一种思想,叫做动态规划,我对动态规划的理解也不是特别深刻,在编码的过去的几年少有
2016-08-03 13:25:24
937
原创 Simhash学习笔记
文档如果直接使用MD5做hash这种方式进行去重操作,对于一些相似文档的处理就无能为力了,简单的一个字符的变化,hash值就会发生变化,Simhash简单来说就是类似文档所产生的hash值也是类似的,这样一来就可以通过计算hash值的相似度来进行文档相似度的计算。
2016-08-01 16:47:17
2477
原创 爬虫 编写DownEngine
编写DownEnginedownEngine主要负责下载HTML页面,以供解析引擎(parseEngine)解析。 下载页面的目的就是为了解析其中的内容,如果不是目标页,需要解析其中的link,然后放到未解析的队列里,如果是目标页面,则需要解析其中的元数据,执行持久化操作。 /**DownEngine Interface***/public inte
2016-08-01 11:29:56
515
原创 Zookeeper节点类型
Zookeeper节点类型 每个节点都有生命周期,生命周期不同,则界点类型也不一样 持久节点 创建以后一致存在,除非显式执行删除操作,否则一直存在 临时节点 临时节点在一个会话之间会一直存在,知道会话失效 持久顺序节点 基本特性同持久节点一致,基于顺序的特性,如果设置此标记,则为子节点创建过程中,可为节点名添加数字后缀。 临时顺序节点 基本特性同临时节点一致,基于顺序的特性
2016-07-28 15:41:10
591
原创 zookeepeer选举master
zookeepeer选举master 在爬虫系统中,往往需要一个中心系统来控制爬虫任务的调度,分配,根据每个worker上的负载情况的,动态的进行负载均衡,在此之前,是通过固定配置的方式,配置出那一台机器属于是master,但这
2016-07-28 15:28:47
1309
原创 zookeeper笔记
目的:想把爬虫系统的配置转移到zookeeper管理zookeeper作为一个帮助搭建分布式系统的框架,在统一管理配置和选举master上的非常优秀。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步
2016-07-27 10:21:44
490
转载 Java 保存对象到文件中
http://blog.youkuaiyun.com/lntswangxin/article/details/5990473
2015-03-11 15:57:03
703
转载 bloomfitler 解决大数据查询问题
BloomFilter——大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综
2015-03-10 16:30:46
544
转载 后台模版的网络框架
http://www.cnblogs.com/xiaoyao2011/archive/2011/09/05/2167606.html
2014-08-17 00:36:19
504
转载 Linux判断进程是否存在并启动该进程
Linux判断进程是否存在并启动该进程1.Linux判断进程是否存在并启动该进程#!/bin/bash#判断进程是否存在,如果不存在就启动它PIDS=`ps -ef |grep myprocess |grep -v grep | awk '{print $2}'`if [ "$PIDS" != "" ]; thenecho "myprocess is runing!"el
2014-05-21 16:15:04
1121
转载 Linux下crontab命令的用法
任务调度的crond常驻命令crond 是linux用来定期执行程序的命令。当安装完成操作系统之后,默认便会启动此任务调度命令。crond命令每分锺会定期检查是否有要执行的工作,如果有要执行的工作便会自动执行该工作。而linux任务调度的工作主要分为以下两类:1、系统执行的工作:系统周期性所要执行的工作,如备份系统数据、清理缓存2、个人执行的工作:某个用户定期要做的工作,例如每隔10分
2014-05-21 14:10:43
509
转载 PHP 配置简洁
http://www.cnblogs.com/angelox/archive/2008/10/09/1306732.html (如何配置php)http://www.jb51.net/article/30128.htm (支持)
2014-01-26 11:14:44
549
转载 quartz 时间配置
http://gcy6164.iteye.com/blog/1287941 quartz定时任务时间设置描述(2011-03-03 16:23:50)转载▼标签: quartz时间it 分类: 凌乱小记 这些星号由左到右按顺序代表 : * * * * * * * 格
2014-01-21 14:26:30
1037
转载 MINA 简介
http://blog.163.com/haizai219@126/blog/static/44412555201071995251380/
2013-11-12 11:22:15
527
原创 java String byte 16
/** * 字符串转换成十六进制字符串 * @param String str 待转换的ASCII字符串 * @return String 每个Byte之间空格分隔,如: [61 6C 6B] */ public static String str2HexStr(String str) {
2013-10-24 11:33:41
648
原创 IM example
http://blog.youkuaiyun.com/way_ping_li/article/details/9056635
2013-10-20 23:24:40
562
转载 install jdk in linux
http://blog.youkuaiyun.com/hzqnju/article/details/6779556
2013-08-20 23:16:38
504
原创 java 虚拟机整理
函数重写的原理 http://blog.youkuaiyun.com/li4951/article/details/7197289
2013-08-16 14:41:36
556
转载 数据库连接池配置
一、 数据源的配置:* 与 Hibernate 集成最常见的一种: 配置sessionFactory --> bean id = "sessionFactory" class= "org.springframework.orm.hibernate3.LocalSessionFactoryBean">
2013-08-12 16:00:01
825
转载 struts 学习方略
如何学习Struts2 ———— Struts2的学习途径 (downpour) http://www.iteye.com/wiki/struts2/1306-struts2-way-of-learning———— Struts2的学习资料 (downpour) http://www.iteye.com/wiki/struts2/1314-struts2-of-
2013-08-09 16:12:24
570
转载 quartz config in spring
Quartz是一个强大的企业级任务调度框架,Spring中继承并简化了Quartz,下面就看看在Spring中怎样配置Quartz:首先我们来写一个被调度的类:\package com.kay.quartz;public class QuartzJob { public void work() { System.out.println("Qu
2013-08-09 10:32:00
766
转载 Failed to get local hostname java.net.UnknownHostException
ERROR in ch.qos.logback.core.util.ContextUtil@9c3b915 - Failed to get local hostname java.net.UnknownHostException: Tomcat-129: Tomcat-129: 未知的名称或服务at java.net.UnknownHostException: Tomcat-129: Tomc
2013-07-05 16:18:32
5839
原创 mysql 安装问题回顾
因为新的公司使用的是,mysql的数据库,所以需要在vmware上装一个新的linux系统,然后将mysql安装到linux系统上面,这期间出现了很多问题,从上午上班一直到现在,才刚刚把问题解决,现在讲问题进行一个梳理。 1:安装mysql , 1。1:卸载当前系统中存在的mysql版本,linux系统中存在不同版本的文件不兼容,所以必须写在干净之前的版本文件。
2013-05-30 16:24:37
762
转载 hibernate 懒加载
在Hibernate框架中,当我们要访问的数据量过大时,明显用缓存不太合适, 因为内存容量有限 ,为了减少并发量,减少系统资源的消耗,这时Hibernate用懒加载机制来弥补这种缺陷,但是这只是弥补而不是用了懒加载总体性能就提高了。我们所说的懒加载也被称为延迟加载,它在查询的时候不会立刻访问数据库,而是返回代理对象,当真正去使用对象的时候才会访问数据库。 实现懒加载的前提:
2013-05-09 22:11:53
521
原创 spring 概念描述
spring 作为一个开源框架有几下几个特点 1 :轻量级 2 :依赖注入,控制反转 3:面向切面 4:容器 5:框架,spring提供了使用简单的组件配置组合合成一个复杂的应用,应用中一般都是使用xml配置文件组合起来的,并且spring提供很多的基础功能,是开发人员可以更加专注于应用逻辑的开发。核心容器 Application Context 上下文模
2013-04-19 16:29:29
629
java编写的计算器
2011-04-16
java 聊天室
2011-04-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人