- 博客(69)
- 收藏
- 关注
Java RMI 绑定端口错误 java.rmi.server.ExportException-->Port already in use: 0
以前运行很好的java rmi 服务,重启的时候死活起不来,提示“Exception in thread "main" net.sf.cglib.core.CodeGenerationException: java.rmi.server.ExportException-- Port already in use: 0; nested exception is: java...
2014-01-07 13:27:27
938
原创 【转】simhash与Google的网页去重
Simhash 传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文 章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜 索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f...
2013-08-29 14:07:14
255
原创 ali 阿里技术嘉年华ppt下载地址
阿里技术嘉年华ppt下载地址 http://adc.alibabatech.org/carnival/history/schedule/2013
2013-07-31 16:08:37
402
学习Mahout的第一个例子
Mahout是一个机器学习,推荐引擎的开源软件。官网地址:http://mahout.apache.org/ 推荐原理可以参考:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html 1. 推荐原理基于用户的 CF(User CF)(Collaborative ...
2013-03-06 11:49:29
171
原创 Jaccard系数
Jaccard 系数,又叫做Jaccard相似性系数,用来比较样本集中的相似性。Jaccard系数等于样本集交集与样本集合集的比值。 公式: 用来比较两个集合A和B的相似度。它可以用来比较文档相似度,示例: 英文资料:http://en.wikipedia.org/wiki/Jaccard_index ...
2013-03-04 16:20:35
1239
词库的扩充-百度百科的抓取(二)
前面抓取了一次百度百科,见 http://rabbit9898.iteye.com/blog/1178199 是2011年9月份的,这次又对它重新做了一次抓取,发现百度百科做了防抓取设置,抓取起来可真麻烦,每次只能抓取2k个左右,然后得休息半个小时左右吧。 百度百科到2013-3月份号称有590w的数据,因此想抓取下来全部比较难,但是能把目前大家常用的抓取下来也...
2013-03-01 16:09:48
180
原创 zookeeper NIOServerCnxn: Too many connections from IP- max is 10 异常解
默认zookeeper给每个客户端IP使用的连接数为10个,经常会出现连接不够用的情况。修改连接数目前好像只支持zoo.cfg配置文件修改,所以需要zookeeper重启才能生效。 zoo.cfg:maxClientCnxns=300否则报错如下:2011-10-28 09:39:44,856 – WARN [NIOServerCxn.Factory:0.0.0.0/0.0.0....
2012-10-10 16:49:58
1172
原创 Java Float的范围和精度
java Float的范围: //相应的浮点数: 3.4028235E38 1.4E-45 System.out.println(Float.MAX_VALUE) ; System.out.println(Float.MIN_VALUE) ; java FLoat的精度:通常为7-8位的数字精度 String a="123456789"; float a...
2012-10-10 16:17:47
285
原创 MongoDB 2.2版本发布
8月29号,MongoDB发布了其2.2版本,2.2 版本可以看作是2.0 版本的功能增强版,本次改进最大的亮点在于其并发性能的提升,我们能够看到,广受诟病的全局锁已经在这一版中被拿掉,取而代之的是DB级别的锁,而且collection 级别的锁也不远了。下面就看看2.2 版本的几个新功能吧:1.并发性能增强如上面所说,MongoDB 2.2版本中不再有凌驾于整个daemon上的全...
2012-08-31 09:06:06
324
原创 怎样量化评价搜索引擎的结果质量
怎样量化评价搜索引擎的结果质量 来源:InfoQ 作者:陈运文 前言 搜索质量评估是搜索技术研究的基础性工作,也是核心工作之一。评价(Metrics)在搜索技术研发中扮演着重要角色,以至于任何一种新方法与他们的评价方式是融为一体的。 搜索引擎结果的好坏与否,体现在业界所称的在相关性(Relevance)上。...
2012-08-23 16:55:25
336
原创 scala 环境搭建和入门例子
1. scala 环境搭建 机器中需要有java的JDK的开发环境。 从 http://www.scala-lang.org/downloads 下载scala的开发包。 最新版本是scala-2.9.2。 我下载了 scala-2.8.2.final.zip。 下载的zip包解压,解压到D:\tools\scala-2.8.2.final\目录下,把...
2012-07-23 15:22:21
122
原创 [转载]Apache Thrift - 可伸缩的跨语言服务开发框架
前言:目前流行的服务调用方式有很多种,例如基于 SOAP 消息格式的 Web Service,基于 JSON 消息格式的 RESTful 服务等。其中所用到的数据传输方式包括 XML,JSON 等,然而 XML 相对体积太大,传输效率低,JSON 体积较小,新颖,但还不够完善。本文将介绍由 Facebook 开发的远程服务调用框架 Apache Thrift,它采用接口描述语言定义并创建服务,...
2012-07-10 16:12:56
159
原创 [转] Paxos在大型系统中常见的应用场景
在分布式算法领域,有个非常重要的算法叫Paxos, 它的重要性有多高呢,Google的Chubby [1]中提到all working protocols for asynchronous consensus we have so far encountered have Paxos at their core.关于Paxos算法的详述在维基百科中有更多介绍,中文版介绍的是choo...
2012-07-04 16:59:18
148
原创 [转] 模块入门–搜索
模块入门–搜索发表于 2012 年 6 月 5 日 由 小猛 <!-- .entry-meta --><!-- .entry-header -->搜索能够帮助用户在海量的数据库中实现大海捞针,是产品最核心的模块之一。本篇是从设计的角度介绍搜索模块,包含Web和ios两个平台,下面直接开始正文:1.快速搜索搜索是帮助用户简单快速的匹配相关...
2012-06-12 13:29:51
204
原创 norbert 高并发分布式服务例子 examples (二)
iteye编辑器在IE8下太不好用了,写了保存到草稿里结果再编辑格式就都没了,晕 接上面的 http://rabbit9898.iteye.com/blog/1508968,继续 5. 写服务器端代码servernode1.java package norbert.exam.server;import norbert.exam.util.ServerUtil;...
2012-05-04 11:05:21
161
原创 norbert 高并发分布式服务例子 examples (一)
Norbert简介 norbert是一个提供分布式集群服务的开发框架,具备集群管理功能,是一个开发简单的通信架构,易扩展能承受高吞吐量的框架。 norbert 应该是用scala来实现,对Netty, Protocol Buffers and Zookeeper的一个封装。 其中集群管理的功能利用了zookeeper来进行node状态的感知,通讯采用了nio的netty serv...
2012-05-04 10:32:18
174
原创 [转载]sensei分布式实时搜索系统源码解析(三) 分布式index
sensei分布式实时搜索系统源码解析(三) 分布式index 前两回写完之后,这篇关于sensei如何建立索引的部分,至今日才补上,有些惭愧。一方面,初期没有细看index这块,另外,其他事情导致精力有所分散。话转正题。 一、提供流数据的GateWay sensei 处理建立索引的过程,可以有多种方式,总体而言,提供了一个SenseiGateWay的抽象类,...
2012-04-26 15:22:17
179
原创 [转载] 用norbert来写高并发分布式服务框架
用norbert来写高并发分布式服务框架本来计划将sensei的相关源码系列搞完,但最近一段时间由于工作需求先调研了几种分布式的服务框架,做了简要的对比测试。根据我们自己的实际需要选取了norbert来做我们后台提供分布式服务的框架。因此,先整理一篇关于norbert框架的博文,也给自己留下个印记,以便以后来查阅。Norbert简介 “Norbert is a library th...
2012-04-26 14:59:42
154
原创 【转载】通过构造Hash冲突实现各种语言的拒绝服务攻击
上周的时候Dmitry突然在5.4发布在即的时候, 引入了一个新的配置项:Added max_input_vars directive to prevent attacks based on hash collision这个预防的攻击, 就是”通过调用Hash冲突实现各种语言的拒绝服务攻击漏洞”(multiple implementations denial-of-service v...
2011-12-31 10:25:24
206
linkedIn开源搜索引擎IndexTank 安装
LinkedIn 收购了IndexTank,在收购的时候承诺开源IndexTank的技术,现在兑现了这个承诺,IndexTank引擎以Apache 2.0协议发布!IndexTank包含两部分:indextank-engine: Indexing engineindextank-service: API, BackOffice, Storefront, and Nebulizer...
2011-12-28 15:48:32
390
原创 基于sensei+lucene的分布式搜索终于上线了-2012-12-08
基于sensei+lucene的分布式搜索终于上线了 架构采用:http://rabbit9898.iteye.com/blog/1130674 历时多时,终于今天上线了。
2011-12-08 13:26:43
124
词库的扩充-百度百科的抓取-你知道这些热词吗?
做中文分词需要一个好的词库,网上收集的这些都基本不更新,没有办法,只有自己抓取百科中的词条了。但是百科中有300多万词条,要全部抓取下来把其中的优质词条摘录出来并非易事。 抓取用 httpclient 应该就够了 <dependency> <groupId>org.apache.httpcomponents</groupId&g...
2011-09-22 17:07:30
229
原创 mongodb常用命令
mongodb由C++写就,其名字来自humongous这个单词的中间部分,从名字可见其野心所在就是海量数据的处理。关于它的一个最简洁描述为:scalable, high-performance, open source, schema-free, document-oriented database。MongoDB的主要目标是在键/值存储方式(提供了高性能和高度伸缩性)以及传统的RDBMS系统(...
2011-09-02 15:03:12
106
JMX远程管理启动参数
JMX入门请参看:http://rabbit9898.iteye.com/blog/1009198做一个服务程序,采用JMX管理,启动参数如下:[code="bash"]JAVA_ARGS=" -server -Xms512m -Xmx1024m -XX:NewSize=64m -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupan...
2011-08-18 10:54:02
483
JMAP命令详解
显示java进程内存使用的相关信息 [list][*]jmap pid #打印内存使用的摘要信息 [*]jmap –heap pid #java heap信息 [*]jmap -histo:live pid #统计对象count ,live表示在使用 [*]jmap -histo pid >mem.txt #打印比较简单的各个有多少个对象占了...
2011-08-15 11:32:12
740
原创 Zoie发布3.0.0了
zoie在8.1号 发布3.0.0了 见 https://github.com/javasoze/zoie/blob/master/zoie-core/pom.xml 把依赖的lucene升级了 <dependency> <groupId>org.apache.lucene</groupId> <artifactI...
2011-08-09 16:26:31
121
原创 [转载]ZooKeeper集群部署管理详细版
1. 约定:a. ZooKeeper Server,[server1]的ip为192.168.1.201,[server2]的ip为192.168.1.202,[server3]的ip为192.168.1.203。b. [zk_dir]表示ZooKeeper的根目录,假设为/home/user/zookeeperc. [zk_data]表示ZooKeeper数据文件存放...
2011-08-04 10:52:06
127
原创 [转载] sensei分布式实时搜索系统源码解析(二) 分布式Search的流程
看来自己很懒,发现前同事的sensei 研究了转载: http://johnnychenjun.blog.163.com/blog/static/1374934062011621111441102/ 接上节的SenseiServer相关的概念,想必对sensei里面从Server启动到各种server/client的概念有所了解了。本次间隔了一周多来记录一下sensei做分布式sear...
2011-07-22 14:57:41
162
原创 [转载] sensei分布式实时搜索系统源码解析(一) senseiServer的启动及若干概念
看来自己很懒,发现前同事的sensei 研究了转载:http://johnnychenjun.blog.163.com/blog/static/137493406201161163651879/ 一、源码结构 首先,先从github将 sensei源码 取下。从整体代码结构上来看主要分为如下几类:1. 提供多种index的提供数据的方式,主要在dataprovider下的几个包...
2011-07-22 14:55:53
173
lucene分布式搜索sensei的使用及完善
原创文章,转载请注明地址: http://rabbit9898.iteye.com/blog/1130674 Sensei是LinkedIn的一个分布式搜索系统。安装步骤参考:http://linkedin.jira.com/wiki/display/SENSEI/Getting+Started或者 http://rabbit9898.iteye.com/blog/997165 ...
2011-07-22 14:32:16
177
原创 [转载] Cassandra 负载不均衡 与 解决方法
源:http://hi.baidu.com/higkoo/blog/item/070ce226b751f0048b82a103.html 最近在看Cassandra,但自打配起一个集群后,负载就不均衡了。Address Status State Load Owns Token ...
2011-07-21 14:08:44
616
原创 [转载] Linux服务器性能评估与优化
来源:http://www.itlearner.com/article/4553一、影响Linux服务器性能的因素 1. 操作系统级 Ø CPU Ø 内存Ø 磁盘I/O带宽Ø 网络I/O带宽 2. 程序应用级 二、系统性能评估标准影响性能因素评判标...
2011-07-20 14:56:51
160
原创 Faceted search 分面搜索 维度搜索 维度导航 ?
From Wikipedia, the free encyclopedia<!-- /tagline --><!-- subtitle --><!-- /subtitle --><!-- jumpto -->Jump to: navigation, search <!-- /jumpto --><!-- bo...
2011-07-05 17:45:38
345
原创 YourKit Java Profiler 剖析远程服务器
YourKit Java Profiler 剖析远程服务器原文出处:http://blog.chenlb.com/2010/09/yourkit-java-profiler-monitor-remote-server.html YourKit Java Profiler 比 JProfiler 要好安装,特别是在剖析远程服务器上。JProfiler 安装 请看我之前的一个文章:jp...
2011-06-17 13:02:56
218
Zoie的升级-乱
Zoie的升级:2.7.0public class ZoieSystem<R extends IndexReader, D> extends AsyncDataConsumer<D> implements Zoie<R, D>2.5.2 public class ZoieSystem<R extends IndexReader, D, V exte...
2011-06-01 18:06:37
118
JMX 入门例子
JMX(Java Management Extensions,即Java管理扩展)是一个为应用程序、设备、系统等植入管理功能的框架。JMX可以跨越一系列异构操作系统平台、系统体系结构和网络传输协议,灵活的开发无缝集成的系统、网络和服务管理应用。 我们还是从JMX能给我们提供什么好处入手来理解吧。举一个应用实例:在一个系统中常常会有一些配置信息,比如服务的IP地址,端口号什么...
2011-04-20 13:48:20
122
bobo zoie的IndexReaderDecorator
zoie是linkedin的一个基于lucene的实时搜索系统,zoie的实时搜索原理参考 http://rabbit9898.iteye.com/blog/831676 或者 http://www.cnblogs.com/forfuture1978/archive/2010/11/29/1891476.html 。 1. BoboIndexReaderDecorator 注入到z...
2011-04-15 16:06:04
192
原创 LinkedIn 的分布式搜索sensei编译安装
Sensei是LinkedIn的一个分布式搜索系统。安装步骤参考:http://linkedin.jira.com/wiki/display/SENSEI/Getting+Started 需要:java 1.6 or higher maven 2.2.1 or higher zookeeper 3.2.0 http://hadoop.apache.org/zookeep...
2011-04-11 11:37:17
204
原创 去除JSP页面自动生成的空行
当你在客户端用view source看JSP生成的代码时,会发现有很多空行,他们是由<%...%>后的回车换行而生成的,也就是说每一行由<%...%>包含的JSP代码到客户端都变成一个空行,虽然不影响浏览,但还是希望能把他们删掉办法如下:(网上收集整理)1. 支持JSP 2.1+ ,在每个要去空行的页面里包含下面代码: <%@ page trimDi...
2011-04-08 17:47:23
99
原创 转载:几种常见的基于Lucene的开源搜索解决方案对比
一 直接使用 Lucene ( http://lucene.apache.org )说明:Lucene 是一个 JAVA 搜索类库,它本身并不是一个完整的解决方案,需要额外的开发工作 优点:成熟的解决方案,有很多的成功案例。apache 顶级项目,正在持续快速的进步。庞大而活跃的开发社区,大量的开发人员。它只是一个类库,有足够的定制和优化空间:经过简单定制,就可以满足绝大部分常见的需...
2011-04-06 14:38:21
173
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人