- 博客(56)
- 收藏
- 关注
原创 关于 Eclipse中运行Nutch No URLs to fetch的问题解决
今天着实郁闷了一把; 下午调试Nutch, 发现老报No URLs to fetch 的问题, 上网搜索发现 遇到这问题的人还真不少,结论也是千奇百怪;结果挨个试验一一下大家 的做法; 特别是百度博客的那位仁兄简直就是把我带沟里去了; http://hi.baidu.com/cjjic02/blog/item/494b12256445c46735a80f56
2010-03-10 17:27:00
1602
原创 人际关系搜索引擎及实现原理
这几天看到了 http://renlifang.msra.cn/ 这个搜索, 感觉这是一个自己一直想实验做做的东东,没想到已经有人将它实现了~ 看地址似乎是微软的一个官方实验平台; 不知它的发展规划如何? 简单说2句,倒推它的实现原理,还是新瓶装旧酒~ 还是分词-->分析人名关键词-->聚类,然后为人名词和人名词之间建立索引~; 并没有语义的分析在里面, 谁知道有
2010-03-08 17:08:00
1363
转载 10个方法提高你的编程生产力
我在google工作过,现在有了自己的公司,多年的程序员工作经验告诉我,如果有一个良好的工作习惯,能够极大提高你的工作效率。以下是我的建议,如果你长时间坚持这样做,一年到两年时间,你发现你能够完成的工作速度超过你的想象。 1。一天最多阅读两次新闻 信息爆炸的年代新闻数量多不胜数,不要阅读过多的新闻,我一般一天阅读两次新闻,早晨和下午各打开一次google reader,更多的新闻阅读将会严重降低工
2009-02-11 15:23:00
680
转载 WPF调用Win32程序的方法
在MSDN中有专门的章节提到了在WPF中嵌入Win32控件的办法,那就是使用 HwndHost ,只要把 Win32控件的句柄传递给 HwndHost 就可以了。MSDN中的例子演示的都是在同一个进程内创建的 Win32控件,我一开始认为只要通过FindWindow等Win32API得到外部Win32程序的窗口句柄,然后将窗口句柄交给 HwndHost 就可以了。实现核心代码如下:
2009-02-09 13:38:00
4336
转载 十个技巧减少开发成本
不景气的经济,不断高涨的油价,严重影响了商业活动,每一个人都在寻找新的途径,用来抵消新增加的成本:能源。Martin Adcock,伦敦的软件质量管理主管顾问,提供了10种减少软件开发成本的方法。 1 良好的功能需求文档 没有文档化的需求,系统就存在不能满足客户期望的隐患。“比如,也许它不能按照客户认为应该的方式工作,即便是开发团队认为他们的工作一直符合归
2009-02-03 13:13:00
1178
转载 微软将发布"群体搜索"
2月中旬,西班牙巴塞罗那的“网络搜索与数据挖掘大会”(Web Search and Data Mining Conference)上,微软将公布他们的最新研究成果——“群体搜索”(groupization). “毫无疑问,这是微软向搜索界霸主谷歌发出的一张战书.”美国《技术评论》(Technologyreview)杂志撰稿人罗伯特·雷姆斯(Robert Lemos)对此评论道.微软该项目的
2009-02-02 20:59:00
578
原创 俞敏洪在北大2008开学典礼的报告
各位同学、各位领导: 大家上午好!(掌声) 非常高兴许校长给我这么崇高的荣誉,谈一谈我在北大的体会。(掌声) 可以说,北大是改变了我一生的地方,是提升了我自己的地方,使我从一个农村孩子最后走向了世界的地方。毫不夸张地说,没有北大,肯定就没有我的今天。北大给我留下了一连串美好的回忆,大概也留下了一连串的痛苦。正是在美好和痛苦中间,在挫折、挣扎和进步中间,最后找
2008-10-08 15:28:00
598
转载 360度解读李彦宏:后搜索时代的百度新拼图
近来百度受关注点颇多,酝酿推出C2C,聘用日本站总裁,以及调整财经频道。搜索已经进入一个相对成熟的阶段,李彦宏正在涉及新的兴奋点。 这种布局不是孤立的,是之前竞争格局的延伸。2000年之后,百度在搜索中寻觅到机会,随后在纷乱中脱颖而出……很难说是百度希望拥有更多的,还是竞争把它往这些方向推。 留学 李彦宏(Robin Li),1968年11月生于山西阳泉市,父母是工
2008-09-02 13:01:00
1687
转载 微软开发新搜索技术 提高搜索广告收入
北京时间7月12日消息,据国外媒体报道,微软研究人员正在开发相关技术,帮助小企业发现不太“显而易见”的互联网关键字。微软希望这项技术有助于提高其互联网搜索广告营收。 微软正在通过追踪不同的搜索查询对一款工具进行测试。微软认为这项技术将受到广告预算有限的小企业青睐。微软硅谷实验室两名从事该项目的研究人员之一艾利尔·福克斯曼(Ariel Fuxman)说,这项技术使广告客户能够竞购廉价但高效
2008-07-14 10:01:00
983
2
转载 Yahoo大幅开放搜索架构供开发人员使用
作为Yahoo开放策略(Open Strategy)的一环,Yahoo于周四(7/10)大幅开放其搜索技术架构,推出新的Yahoo!Search BOSS(Build Your Own Search Service)平台,开发人员得以透过Yahoo! Search BOSS API使用Yahoo的搜索技术,包括能够重新排序及控制网页搜索的结果。 Yahoo在今年5月已发表SearchMonk
2008-07-14 09:59:00
581
转载 网络另类闷声挣钱 一人经营几十万个网站
网络另类闷声挣钱 一人经营几十万个网站对于自己的“另类生意”,许扬有充分的自信,“我就是把整个业务模式都公开,别人也很难复制,太难了”。创业篇 视频网站、交友网站、行业网站,正当数以万计的网络掘金者们在这些热门业务中争得头破血流,却始终收获寥寥的时候,一个叫许扬的年轻人“孤零零”地找到了一条网络新财源。年初以来,早已在域名投资方面颇有战绩的许扬,带着他的技术团队开始了一种
2008-07-11 18:24:00
1423
转载 揭秘一亿元的两种营销结局 口碑营销应顺势而为
奇酷揭秘一亿元的两种营销结局 口碑营销应顺势而为 近日,奇酷社区研究机构总经理代琳在艾瑞新营销年会上发表了一场精彩的关于社区口碑营销的演讲,其中提到了两个非常具有代表意义的案例——快销品的王老吉和地产巨头万科在汶川地震赈灾期间,同样捐款一亿,却带来截然不同的两种结果。 同样是一个亿,为什么会获得如此截然不同的反差?奇酷从对社区传播路径的研究给出了答案。 首先看一下万科的表现:地震
2008-07-11 16:57:00
1256
转载 解读开源的Flex代码:就象打开的糖果箱
Flex SDK现在已经开源了!就象垂涎已久的糖果箱打开了,你能够想到Flex SDK开源出来的代码你能看到什么,参与什么吗?下面给出几个提示。 1。flex 4,代码名称秋葵Gumbo,是目前正在更新的源代码主干,如果你想贡献代码,那么跟踪秋葵Gumbo。 2。flex 3.0.x版本是稳定的最终版本,如果想修改和运行自己的flex程序,使用这个版本。
2008-07-09 16:26:00
1295
1
转载 搜索引擎统一Robots文件标准
搜索引擎三巨头打的不亦乐乎,但偶尔也合作一下。去年Google,雅虎,微软就合作,共同遵守统一的Sitemaps标准。前两天三巨头又同时宣布,共同遵守的robots.txt文件标准。Google,雅虎,微软各自在自己的官方博客上发了一篇帖子,公布三家都支持的robots.txt文件及Meta标签的标准,以及一些各自特有的标准。下面做一个总结。三家都支持的robots文件记录包
2008-07-08 17:00:00
589
原创 谷歌将继续整合更多元化的搜索服务
我们将2008年定位为普及年。”谷歌(Google)大中华区总裁李开复上周对《第一财经日报》表示。这意味着谷歌正在以12个月为单位,持续推进其战略。 李开复进一步解释说,2005年是谷歌在中国落地,2006年是招聘工作,2007年是本土化产品年,今年的路线图则是产品普及。 对于谷歌过去在中国的发展以及与百度的竞争,李开复坦言,谷歌去年关注更多的是搜索质量,经过科学的评估,谷歌的中文
2008-07-08 10:42:00
511
转载 谷歌过去7年51次收购:多为全资收购(名单)
北京时间7月7日消息,据国外媒体报道,从2001年到2008年3月期间,Google(谷歌)共进行了51次收购活动,其中绝大部分为完全收购,仅三起为收购其他企业股权。被Google所收购企业总部绝大部分位于美国,且多数具体交易额并未对外透露。在收购这些创业公司后,Google将为此组建新型业务部门(或并入已有业务当中)。 截至2008年3月,Google规模最大的收购活动为兼并网络广告公司双击
2008-07-08 10:38:00
860
转载 李开复:搜索引擎的三大趋势
李开复:搜索引擎的三大趋势 日前,在第二届广东大学生科技学术节上,谷歌全球副总裁兼大中华区联合总裁李开复称,搜索引擎不仅将变得越来越聪明,还存在三大发展趋势。他认为,基于海量搜索之后,搜索引擎将越来越贴近为用户解决实际问题,提供精准搜索和专业化搜索。而分类搜索也将实现对用户信息的整合,整合搜索、社区搜索和移动搜索将成为今后搜索引擎的发展趋势。 对此,业内专家分析认为,
2008-07-07 13:45:00
654
转载 Adobe与Google及Yahoo结盟 强化Flash内容搜索
Adobe周二(7/1)宣布与Google及Yahoo结盟,提供优化的Adobe Flash Player技术,以强化这两大搜索引擎索引Flash文件格式(SWF)的能力。 未来使用者将可更容易搜索Adobe Flash Player上执行的动态内容及丰富网络应用程序(RIA)。 这意谓着未来利用Flash技术所打造的.SWF档案将可透过搜索引擎找到,不论是游戏或仅是广告。
2008-07-07 11:11:00
663
转载 俞士汶教授谈中文语言处理(二)
俞士汶教授谈中文语言处理(二) 3、中文分词技术当前面临的主要挑战是什么?互联网的发展和计算能力的提升对其发展有何帮助? 与理论探讨、算法设计、演示系统开发不同,互联网搜索引擎技术要求词语切分技术具有实战能力。在互联网上应用时,歧义切分(交叉歧义和组合歧义)的消解技术仍会碰到解决不了的难题。现在最棘手的可能是“新词”问题。“新词”可定义为词典或训练语料中没有的词。新词种类很多,人名、地
2008-07-04 12:31:00
1150
转载 俞士汶教授谈中文语言处理(一)
者按:我们多次前往北大计算语言学研究所和俞士汶教授进行了分词方面的技术交流,俞教授的谈话让我们受益匪浅。我们特意对俞教授进行了访谈,希望读到此文的搜索爱好者,也能和我们一起分享分词知识、探讨搜索未来。 访谈正文如下: 1、与英语等欧洲语言相比,中文在信息化处理上有很多不同的障碍,如:输入、分词等。请简要介绍一下中文语言处理的研究领域和存在的挑战? 中文信息处理应该大致划分
2008-07-04 11:47:00
1149
转载 中文搜索引擎技术揭密:网络蜘蛛
随着搜索经济的崛起,人 们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引 擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象……而作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更高的流量和知名度。这其中,搜索引擎已经成
2008-07-03 11:16:00
546
转载 放弃搜索引擎无效的收录,专注热门关键字
放弃搜索引擎无效的收录,专注热门关键字首先说一下大站的SEO,通常人们对大站的SEO中,有二点是要作的:第一点就是关键字(常用关键字)的数量,希望网站中有更多的关键字,把网页的内容和META尽可能弄的不一样;第二点就是在搜索引擎中的收录量,希望更多的收录网页;认为网页多了,总有个别的能被搜到吧!而大站的SEO中,很多人都避开针对单个热门关键字去PK优化!优化完内部就完
2008-07-01 21:19:00
521
转载 如何测试搜索引擎的索引量大小
背景知识:搜索引擎的质量指标一般包括相关性(Relevance)、时效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四个方面,今天我们要谈的索引量就属于完整性指标的范畴。首先需要注意的是,对于搜索引擎,网页的索引量和抓取量是不同的概念。搜索引擎的网页抓取数量一般都要远大于索引量,因为抓取的网页中包括很多内容重复或者作弊等质量不高的网页
2008-07-01 16:16:00
1550
转载 站内搜索引擎之比较〔转〕
有很多网站都在网页上加个“站内搜索引擎”、“搜索引擎”、“全文检索”等等相关字样。 用户一用,结果发现,既不能多关键组合查询,也不能支持国际语法,甚至不能支持全文检索,就更别谈不支持相关性排序等真正的搜索引擎具备的功能了。这些搜索和真正的站内搜索引擎有和区别呢? 真正的全文检索应具备 相关性排序技术 和 分词索引功能。 如果需要进行互联网的信息抓取和采集那么还需要网络蜘
2008-07-01 16:07:00
1230
1
转载 Lucene 的索引排序是使用了倒排序原理
Lucene 的索引排序是使用了倒排序原理 其实LUCENE写的真的挺烂的,不论算法还是代码都很一般,不知道国内为什么这么多人都用它,哎,中国程序员的技术水平真的差太远了,不过为了一些初级的程序员做研究之用,还是把这篇文章贴出来吧 Luce
2008-07-01 13:16:00
4604
3
转载 用lucene为数据库搜索建立增量索引
用lucene为数据库搜索建立增量索引用 lucene 建立索引不可能每次都重新开始建立,而是按照新增加的记录,一次次的递增建立索引的IndexWriter类,有三个参数 IndexWriter writer = new IndexWriter(path, new StandardAnalyzer(),isEmpty);其中第三个参数是bool型的,指定它可以确定是增量
2008-06-30 14:41:00
1103
转载 微软:将以超过1亿美元收购语义搜索引擎Powerset
日前有消息称,微软已经同意收购语义搜索引擎Powerset,收购价格将略高于1亿美元.微软将于下月发布正式声明.Powerset公司位于旧金山,其搜索引擎技术能够理解用户输入的短语的真实含义,并在这种理解的基础上返回搜索结果.通过收购Powerset,微软希望拉近在搜索引擎市场与Google的差距.微软首席执行官鲍尔默仍在努力改善微软的互联网业务.近几个月以来,微软在搜索市场的占有率持续下
2008-06-27 18:09:00
624
转载 谷歌将发布免费网络计量工具AdPlanner
谷歌发言人在周一宣布,公司将向广告客户提供一款免费媒体规划工具,以帮助它们定为网络广告目标受众。业内人士认为,谷歌此举将对现有网络计量公司造成一定影响。谷歌认为,广告客户掌握的受众数据越多,它们投入的广告开支就会越多。因此,谷歌将为广告客户及其代理商提供一款名为AdPlanner的网络计量工具。 谷歌发言人称,受众数据计量功能是谷歌即将发布的这款媒体规划工具的特色之一。发言人没有提供关于这
2008-06-26 15:01:00
587
转载 spidesample 机器人例子(Java)
一个简单的机器人例子(Java) import java.awt.*;import java.net.*;import java.io.*;import java.lang.*;import java.
2008-06-26 09:53:00
1017
转载 投资与合作:网页游戏酝酿沸腾前奏
记者 刘扬 盛大网络、百度、金山软件、新浪等网络大腕纷纷宣布进军网页游戏,更有业内人士表示2008年网页游戏的用户规模将同比增长400%,一场“淘宝”大战即将拉开帷幕。 事实证明,网络游戏(online game)拥有目前中国互联网业界最成熟的商业模式。但是,在制造出盛大网络、巨人网络、完美时空等一系列公司奇迹后,网络游戏行业逐渐趋于平静,同时又一种游戏类型引起了整个业界的强烈
2008-06-26 00:03:00
1451
转载 百度开启“营销之道” 搜索引擎营销最先进
百度开启“营销之道” 搜索引擎营销最先进近日,以“从你开始,营销世界”为主题的第三届百度世界大会在上海召开。“营销”为大会最核心关键词,大会上围绕“营销引擎”的关键战略,百度发布了重量级产品——“我的营销中心”。此外,百度“营销之道”全国巡讲也在正在各地如火如荼的进行。从这些动作,我们不难察觉搜索引擎营销已经成为百度的重要发展战略之一。 正如李彦宏所说,“搜索引擎营销是先进的营销。互
2008-06-25 11:29:00
657
转载 lucene的索引源码分析
lucene的索引源码分析 lucene对一系列的文件进行索引时,首先会将物理文件映射为Document类型的文件。Document中包含有和检索相关的field,这个过程将一些感兴趣的内容提取出来,而之后所有的检索都是基于Document的。 lucene的索引分为两种,一种是将不同索引信息写到不同的文件中,一种是使用复合文件索引格式,该索引格式减少
2008-06-25 10:18:00
778
转载 六度理论校内网API平台赢利模式分析
六度理论告诉我们,只要通过六个人就可以认识任何一个陌生人,开放API后的校内网让分享的广度和维度更大。根据六度理论产生了SNS,以校内网为例,你愿意花多少钱买许朝军的分享按钮,他一按下去就是口碑营销,你信吗?他一按下去很有可能形成病毒式分享,你信吗?当然,这里我们强调的不是个人,而是强调他的好友。詹鹏认为,我们只要寻找到特定的人去点分享按钮,就可以将信息迅速的传播到一个人群,这也是为什么
2008-06-23 20:31:00
575
转载 Nutch中metadata的分析
作为Nutch中的一个非常重要的数据结构,metadata是一个内容丰富的容器,这里面存储了很多值,同时metadata也是一个信息集合的约束,如果要使用metadata,那它里面的所有声明的静态字符串字段,都是约定的一些固定字段,特别是在操作相关信息的时候,metadata的命名是有特殊含义的.其实从MetaData的类结构中,我们会找到相关的原因.首先,MetaData实现了六
2008-06-23 17:59:00
591
转载 Google纯文字广告将"网页下载速度"列入计算因素
Google日前针对纯文字广告递送新增了一个考虑因素:网页下载速度。这对广告品质较好的广告主将是一大利多。Google宣布,Google会将网友点选广告链接后所需的下载时间列入计算因素。“从即日起,下载时间因素将会纳入关键字品质分数中。”Google在它的官方博客里宣布。“若关键字点过去的网页下载速度太慢,品质分数就会较低,如此起标价格也会跟着提高。相反地,若网页速度快,品质分数会较高,起
2008-06-20 17:36:00
534
原创 nutch官网下载,compass官网下载,lucene官网下载
nutch官网下载 http://www.apache.org/dyn/closer.cgi/lucene/nutch/lucene在jakarta项目中的发布主页 URL::http://jakarta.apache.org/lucene/docs/index.html 以下主要针对windows用户,其它用户请在上面的地址中查找相关下载。 URL::http://apache.
2008-06-20 17:30:00
2263
转载 Nutch搜索引擎之分布式文件系统
1.介绍 NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。 文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地处理用于存储的机器序列,能方便地添加和删除一台机器。当某台机器不可用时,NDFS自动的保证文件
2008-06-20 16:30:00
804
转载 云计算(cloud computing)10问
云计算这个新名词最近甚嚣尘上,最近周围不少朋友都在谈,有必要写一个关于云计算的科普了。 一般的业界比较喜欢用一些新名词来体现自己的战略眼光和与对手的区隔。当几个月前google提出云计算的概念的时候,amazon说自己做的事情就是云计算,IBM、intel、sun都声称自己在云计算领域有深刻的计划。只可惜大家听了半天仍然不知道什么是云计算,依旧云里雾里知道这个与计算有关,干
2008-06-19 18:44:00
754
转载 做“全民公敌”是发展趋势 正在尝试搜索业务
这是一只危险的小企鹅,它是对手眼中的强敌,因此它也时刻处在危险之中。无论在投资者眼中,还是竞争对手的视野里,腾讯都是比较强悍的对手,因为它最有可能实现沟通、门户、商务、搜索和支付这五类互联网业务组合。如今,做了“全民公敌”网站领路人的马化腾,从十年前的言语平淡、不爱表达的技术员也变成了低调、务实的企业家,腾讯发展十年来,他始终保持着对产品的执著和随时都可被超越的惶恐心态,在公司的未
2008-06-18 20:54:00
2227
1
转载 Google所面临的技术创新挑战
北京时间6月17日消息,美国知名财经杂志《商业周刊》网站今天刊登了分析文章指出,如今新型互联网搜索技术层出不穷,如果Google(谷歌)在核心搜索业务上"吃老本",而不注重开发和吸收新技术,就很可能被包括微软在内的新老竞争对手所赶超。人们对语义搜索技术的开发已有30多年历史,但最近才被应用于互联网搜索之 北京时间6月17日消息,美国知名财经杂志《商业周刊》网站今天刊登了分析文章指出
2008-06-18 10:38:00
687
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人