- 博客(69)
- 收藏
- 关注
原创 搜索结果排序
利用开源做的搜索结果排序目前主要两种计算方式:索引时做好了score计算和查询时动态计算。各有优缺点,适合不同业务。搜索结果排序需要考虑的点比较多,比如设定不同字段不同比率来计算score,这些字段的来源是否一致,其包含的信息多大,其如何存储。如果需要动态调整,那么其改动成本多大(人员,硬件,时间,金钱等)?如果多台机器,那么是否需要mapreduce,结果是否cache,cache更新,...
2012-08-28 13:51:01
286
原创 一个static的问题
static可以放在class,也可以放在function。两者有什么差异。一般当函数do1,do2都用到 $_arr时,把它作为类变量。[code="php"]class A{ static $_arr; function do1(){ } function do2(){ }}[/code]Codeignite...
2012-08-07 22:53:08
182
原创 我是这么理解 php 框架中的route部分
一般php的mvc框架都会有route部分,我理解的是将url解析成controller, action, params.比如 http://localhost/framework/index.php/a/b/?id=1controller = aaction = bparams 就是id=1seo效果后,可能是 test.com/a_b_1.html, 也可能是t...
2012-08-07 22:29:39
663
原创 说说我眼中的php
php优缺点,随便搜搜很多。说说我眼中的php,凭此来记录。写了不少php代码,但是复用的很少。目前只有一个mysql类。用过些网上php的类,终究不是自己设计,用过就扔。也用过些框架,目前只喜欢ci和zend,理由前者简单,后者模块化设计,但是zend还是比较复杂。所以在写个简单点的模块化特征,能少写代码快速使用的,易于理解(我指设计),适合我这样懒人需求的,模块化目...
2012-08-03 21:20:07
170
原创 如何选择中文分词
目前全文搜索用到的中文分词,大都是开源和自己开发相应的算法很多,到底选哪个来写,各有各的看法。我分享下我做过的供大家参考没用过词性的中文分词,因为我的业务用不到。用过的大部分开源的中文分词,主要是基于字典对纯数字,纯英文,纯中文,混合进行比对,效率看字典好坏,其字典设计,内存使用,比对次数,扫描文章次数等。适合没有明确搜索关键词的全文搜索,其目标是搜索到。缺...
2012-07-11 11:25:41
161
原创 找工作
感兴趣: 全文搜索, 网站架构, 分布式存储缺点: 自学的东西不系统,比较杂,不够深入全文检索: 使用solr搭建过7600万全文搜索web: 使用php+mysql写web,600万级pv的架构优化以上数字是我做过的,不是我只能做这么多。 :oops: 工作使用开源的理由: 一:相对于公司当前平台而言,开源足够强大...
2012-07-11 10:49:53
115
原创 啥时候盈利
想创业的人总会一厢情愿的想到很多美好钱景而事实往往不如人意所以实在点对那些想创业,想忽悠别人一起做得人说啥时候盈利只有盈利了才能发工资,才能安心持久的做,空着肚子的坚持是不长久的。时间太长估计不能吸引人。目标简单,快速盈利的项目比较适合起步,即便这只是原始资金的积累也可以。 ...
2010-08-03 23:16:25
143
原创 2010-8-3扯淡
用日期+扯淡来作题目,比较方便,而且不会重复。 :oops: 头衔:资深PHPER,混得时间久的缘故。之所以说头衔,因为最近又给找搜索的猎头抓到,很早很早以前我还有兴趣听到底要做什么,自从去年经历了几次搜索面试,我已经没兴趣了,所以我直接回:我不会JAVA,不会数据结构,不懂算法。那么多面试搜索的,也没见自己能独立写个,但给人感觉是说起数据结构一套又一套,说起算法一摞又一摞...
2010-08-03 23:06:00
85
原创 网站架构需要注意的几个点(不全)
高并发请求分离静态请求,动态请求静态请求:文字,图片动态请求:读取数据,更新数据,写数据,删除数据处理单个任务很慢,很容易造成后面的链接大量滞留,比如没有用好索引HTPPD的链接数要和自身任务和所处环境相关,别开过多,要不可能挂分布式表面看将任务分离到多机,但是复杂度加大,如非必要,慎用不同环境使用同一开源软件会有不同效果,所以要根据自身来选择,不要...
2010-05-12 21:12:20
142
为什么要搭论坛
搭了个论坛 www.laibaojia.cn每个地方都有自己的规矩,比如这里不能发布招聘,因为这和je业务有冲突,我能理解。但我经常碰到朋友,猎头要招人,在这个不景气的时候,我希望能给那些找工作的人更多信息,当然这也让一些在职者有机会找到更适合自己的工作。技术讨论我更希望是那些有一定工作经验的人来分享,以此达到互补学习的作用。所以不适合那些一遇到问题就要发帖寻找帮助的...
2010-04-24 08:34:49
108
目前我感兴趣的,希望有同好,一起学习
继续跟踪lucene,大致看新功能,而不是具体code继续跟踪solr,大致看新功能和应用,希望结交更多solr使用者。非专业的搜索系统上亿不大现实,至少目前没机会。千万已经做过了,所以目前搜索我比较感兴趣的是新的好玩的有用的应用。继续跟踪推荐相关算法,目前还在观望,真正结合业务的才是我感兴趣的,目前感觉过于理论。跟踪[url=http://code.google....
2010-04-08 12:58:16
141
一个php算法题目我的解答
Yahoo中国面试题PHP算法(2010-03-02 22:51:13)转载标签:it 分类:Interview3.7 写一个function实现数组内每个元素之间加法的递代运算?注:数组元素全部为自然数.例:$data=array(1,2,3);程序要求打印出数组每个数组元素相互之间各种可能性加法(包括元素自已本身加法)1+1=2,1+2=3,1+3=5,2+...
2010-03-24 23:36:53
181
无聊猜想:高并发,更新要求高的解决思路
一般网站(假设用 Lucene )要做更新频率比较高的,常见的是大小索引包,大的索引包是旧数据索引,小索引包是新数据索引。更新主要集中在小索引包这里,因为索引小,所以完成索引到能提供搜索的时间是比较短。但是有时候也不能满足一些高并发的网站高更新需求,高更新要求指的是:用户可能提交了信息后,希望提交后,就能搜索到。这个用lucene的可能就有点吃力。这类一般修改的也很多。这样可能就需...
2010-03-08 11:20:31
116
原创 不懂正则,却写过爬虫
正则一大堆东西,我不知道。但是写爬虫要用到正则,尤其我以前写过[url=http://imjl.iteye.com/blog/185169]智能型爬虫[/url]。举例爬取:testphp我通常会写成 $p = "/(.+?)/is";.*? 理解成过滤信息(.+?) 你要拿得信息这样的写法 C# 也可以。。如果java可以,请回下。...
2010-02-08 10:18:10
124
原创 我为什么没有用lucene的score来排序
为什么要用lucene的score来排序?我是google,baidu么?不是。我做的是通用的网页搜索么?不是。如果做商品,一般是价格,时间,诚信,推荐,,,,,数据量多了还可以其他排序。深入了就是数据挖掘一部分了。当然也有适合用lucene的score来排序的场景,欢迎这些人来补充。...
2010-02-08 09:59:09
182
原创 2010.2.3 记下流水账
1:我不会java2:在看Sphinx3:我也不会c++,在看4:欢迎撇开语言撇开框架聊搜索引擎的朋友,可以PM我。5:喜欢算法的朋友,也可以PM我。 ...
2010-02-03 16:52:25
104
原创 也说倒排
大概就是关键词在哪些文档出现了,建立以关键词和docid的对应关系网上铺天盖地就是这个。如果关键词A比较常用,有1千万个docid,不同字段,,,那么这个索引该如何存储?我们常规的分词字典都是上万的关键词。 :D 你用lucene,,那么lucene如何使用内存,内存里放了什么呢?...
2010-02-03 16:43:38
104
原创 说说sphinx和搜索一些思考
如果说得不对还请指正:Sphinx是一个类似Lucene东东,同样没有爬虫部分。源代码是c++写得,国内很多人一说到高效高速就想到c++,我也不会C++(为什么说也呢,因为我用lucene写过搜索,但不会java),但不耽误我看代码,代码写得很漂亮,有兴趣的可以读读,一齐交流交流。索引部分是将内容分词按照指定格式存储。锁有两个,一个是文件锁,另一个是mlock。排序算法...
2010-01-07 11:18:44
143
原创 某著名公司面试有感
一个职位,多个猎头call,受不了猎头,今天去某著名网络公司面试。刚开始让我笔试,题目不难,java的,很多不会,因为我很少用java。(用lucene时写过点,自从有了solr我就懒了)技术面试,问了些我以往做得项目,其中一个哥们说“lucene么就是排序问题”,我差点笑出来,昨天看了该公司网站的搜索结果按照时间排序是错的。最后另一哥们很坦白的说,java不行。我...
2010-01-05 19:12:30
126
原创 solr 的 配置(tomcat)
没有任何优化什么的,就是让丫能支持中文搜索了下,发现solr的配置文章很多,但写的云里雾里,可能我理解力欠缺,所以写个和我一样笨,但是还不会配置又想玩的人。solr1.4,分词采用IKAnalyzer最新,servlet采用tomcat61:修改tomcat目录下conf下的server.xml,查找8080,然后uriencoding=utf-8完整的[code]...
2009-12-23 20:56:13
129
原创 对于没有使用过全文检索的,我更愿意推荐solr
圈子里有一位热心朋友发了个“Lucene学习者应该了解的全文检索的基本原理”,暂且不论是否宣传自己博客或者其他目的。没有使用过全文检索的,基于solr能很快搭建自己的搜索,大致学习过程是如何安装搭建,然后就是学习如何解析xml(solr wiki上支持很多语言),一般也就花费1-2个小时最多了,快的么半小时搞定。这些内容网上一搜一大堆。Lucene学习者无非几种情况:兴趣尝试学习,...
2009-12-17 12:23:02
94
原创 Apache Tika 文件内容提取工具
[url=http://lucene.apache.org/tika/]Apache Tika[/url] 是个文件内容提取工具支持的格式很多 ,,[url=http://lucene.apache.org/tika/formats.html]详细[/url]它+lucene,可以做个人的桌面搜索引擎,局域网文件管理搜索,mp3搜索等。...
2009-12-16 21:57:02
405
原创 Zookeeper 是个好东东
[url=http://hadoop.apache.org/zookeeper/]Zookeeper[/url] 以前看hadoop时看到过,没怎么留意。最近看一博客又提到它,所以看了下,还是个不错的东西。集中式服务,基于它做分布式,可分组,solr1.5的另一个分布式就是基于它。 当然它现在为yahoo广泛使用。使用它来让自己的程序分布式,,[img]http://wik...
2009-12-16 21:28:01
107
原创 废话连篇,,,纪念这一伟大日子
btchina给封了,,今天verycd访问不了了,,很多网站服务器因手机黄色门给无辜关闭,我只能说伟大看了看lucene,原来可以做很多应用,比如图书推荐,附近位置查询,sns的应用等。数据越来越集中化,挖掘数据结合全文检索应该会产生很多应用。当然国内还在折腾种菜呢关于性能,框架,我觉得有些人还是先了解,别动不动就来套性能,框架。不是搜索就非得长得google,baidu...
2009-12-09 15:15:23
107
原创 lucene 3.0.0 发布了
25 November 2009 - Lucene Java 3.0.0 availableThe new version is mostly a cleanup release without any new features. All deprecations targeted to be removed in version 3.0 were removed. If you are up...
2009-11-27 09:20:54
81
原创 Examples of Searching Social Media
All these run on Lucene or Solr Pioneer in blog searching: Technorati Analyzing the Interaction: Scout Labs Bottom-up relevance: digg.com People are the content: LinkedIn People and places...
2009-11-11 10:13:00
205
原创 6 November 2009 - Lucene Java 2.9.1 available
This release fixes bugs from 2.9.0, including one serious bug whereby BooleanQuery could silently fail to retrieve certain matching documents.There are also some minor API changes, including a V...
2009-11-11 10:01:45
147
原创 噢也,,期待已久的solr 1.4 发布了
下载连接 http://www.apache.org/dyn/closer.cgi/lucene/solr/New Solr 1.4 features include- Major performance enhancements in indexing, searching, and faceting- Revamped all-Java index replication th...
2009-11-11 09:55:44
86
原创 有偿提供全文检索服务(只针对lucene,solr)
简单的全文搜索,那么可以看下 [url=http://lucene.apache.org/solr/]solr[/url],能自己解决最好想要做下一个百度,谷歌的兄台,请饶了我。做口碑的想做分词的可以参考 [url=http://imjl.iteye.com/blog/437843]已知关键词的快速索引[/url]想要找人写牛b分词的就此打住,我不会。确实需要服...
2009-11-04 21:21:06
156
原创 新开一博客
因为这里不太稳定,,所以在baidu http://hi.baidu.com/imjl_cn/blog/ 新开一个,做备用。两边同时发,博文主要作为个人备份。
2009-11-04 09:26:24
79
原创 safari 我的常用快捷键
cmd为苹果键关闭tab cmd+w退出safari cmd+qtab切换 ctrl+tab书签快捷从左到右 cmd+1,+2显示TOP SITES cmd+shift+1当前tab刷新 cmd+r最小化 ...
2009-10-28 16:01:23
101
原创 换个交互方式:twitter
我twitter号: imjl_live_cn即时聊天太过于正式,经常怕骚扰到他人而不敢说。有时候分享东西给对此感兴趣的朋友,却又不知如何做?想找个志同道合的朋友聊某个话题,看着密密麻麻的msn,却不知道找谁聊觉得twitter满适合solve it。...
2009-10-28 10:59:46
111
原创 这两天都干嘛了
听朋友们说51job要多刷新简历,于是我在待业第二天就写了简历,开始还能每天刷,后来隔几天刷,现在懒得刷。-------------至今点击率为0. :cry: 猎头们忽悠我去杭州试试,还有忽悠去北京的,我不能去外地。 :cry: 不上班找点事做,于是写网站,PHP+MYSQL,看了几个framework,最后用codeigniter,满爽的,推荐大家使用。code时间很少,大...
2009-10-13 21:22:51
91
原创 iphone 从3.0升级到3.1(带越狱)
[b]只适合无锁版[/b]我iphone是3.0+越狱。。。想要升级到3.1+越狱之前准备了,itunes最新版,3.1固件下载到本地,但是没有安装今天看到 http://news.weiphone.com/news/iphone/news/2009-10-03/PwnageTool_3.1.3zhengshifabu_206792.shtml,,,然后到3g iphone...
2009-10-04 11:23:37
348
原创 Contrived FieldCache Load Test: Lucene 2.4 VS Lucene 2.9
转载:http://www.lucidimagination.com/blog/2009/09/22/contrived-fieldcache-load-test-lucene-2-4-vs-lucene-2-9/[code="java"]public class ContrivedFCTest extends TestCase { public void testLoadTim...
2009-09-29 10:26:56
139
原创 已知关键词的快速索引
关键词已知的情况下,快速索引。给定:1300个关键词,在1000条信息中比较,将对应的关键词和记录id记录下来。分析:简单测试,将1300个关键词放入hashtable,循环1000次,一条条记录做IndexOf(c# 中判断字符串是否存在的方法),花费时间很长。解决:重复太多,改进方法就是减小重复,将1300个关键词取第一,第二个char作为下标各自放入bit数组,建立第...
2009-08-02 09:44:08
225
原创 新闻之主题相似计算
新闻转载非常多,搜索新闻时常常碰到,结果里有很多相似新闻出现在一个页面,影响用户查看。我这里说个主题(也就是新闻题目)相似计算。分析:新闻主题大多是经过少量修改,大致状况是,加转载,截取主题,换个类似主题。解决:过滤一些无意义字符,以主题的单个字符为hashtable主键,比较后计算相同key的出现次数,以它为分子,较小的hashtable长度为分母,获得一个比值,将它和一...
2009-08-02 09:28:03
192
原创 关于全文检索系统设计我的思考
全文搜索大体分为:数据采集,索引,搜索。我认为最重要的是搜索效果,大体表现在准确性,搜索结果排序,稳定,速度。准确和分词相关,排序是如何让最适合的结果出现在最前面,稳定这里指索引和搜索时的稳定,速度指索引,搜索使用以及维护。当然这一切加上硬件,人力综合成一个性价比,这个值决定了最终使用哪个搜索架构(像我这样的懒人通常会基于一些现有的东西,在上面堆砌来完成)基本确定后,就会写更加...
2009-07-08 22:35:21
251
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人