Hadoop_clouderyu的博客-优快云博客

Hadoop

关注

文章平均质量分 73

关注数：文章数：50 文章阅读量：37694 文章收藏量：0

作者: clouderyu

这个作者很懒，什么都没留下…

展开

专栏收录文章

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用27

投资投资做出考博决定之后，吴言就需要开始着手准备博士生入学考试了，清华的博士生入学考试主要考两门，外语和一门专业课，对于吴言选择的专业，专业课是数据结构，教材用的是吴言在上学就翻烂的严蔚敏、吴传民的数据结构用C语言描述。现在离3月份入学考试还有六个月的时间，准备时间相对还算充

转载 2011-10-09 13:59:34 · 835 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用22

主动出击因为现在系统已经上线，并且无论在搜索引擎排名还是Alexa排名上都有所进展，吴言准备再次启动寻找投资的道路。但是怎样才能找到VC，吴言仍然毫无头绪，没办法只好还从Google搜索开始。通过搜索创业、天使投资、VC这些关键词，搜出的结果五花八门，很难从中发现有价值的

转载 2011-09-08 22:49:53 · 2059 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用19

英语复习课终于完成了商品相似度计算程序，吴言伸了个懒腰，走到窗前准备放松一下。吴言站在窗前向窗外望着，今天天阴得特别沉，才三点多钟，屋里就必须要开灯了。空气中迷漫着浓浓的水汽，仿佛可以拧出水来似的，应该是快要下雪了。转眼已经进入十二月份了，离自己离职创业已经有将近四个月的

转载 2011-09-08 22:45:55 · 1806 阅读 · 0 评论
全文检索、数据挖掘、推荐引擎系列7---条目相似度算法

在实际的项目中，有许多场合需要进行条目相似度计算，比如在电商系统中，经常有喜欢这个商品的用户还喜欢，通常计算商品的相似度是实现这种功能的方法之一，这可以视为一种基于内容的推荐系统的应用。同时，计算相似度不仅可以用于推荐商品，利用同样的算法，我们还可以计算出用户的相似度，可以向用户

转载 2011-09-08 22:43:41 · 692 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用8

创业餐厅正在吴言为能有机会和VC面谈这一问题一愁莫展的时候，事情突然有了转机，吴言听人说，中关村这边有家创业餐厅，创业者不仅可以在里面办公，还可以在那里很方便的见到著名投资人，而且那里的投资人都对早期项目感兴趣，并且这个地方刚办几个月，就有好几个在那里长期办公的团队获得了天使

转载 2011-08-12 14:18:46 · 341 阅读 · 0 评论
全文检索、数据挖掘、推荐引擎系列2---异步服务实现

正向前一篇分析的，在全文检索、数据挖掘、推荐引擎的后台系统中，通常可以提供三种类型的服务：同步服务、异步服务、后台服务。对于同步服务可以采用Web Service、XML Over HTTP或Restful服务，我在项目中就采用了Jason over HTTP，主要考虑Javas

转载 2011-08-12 10:24:15 · 264 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用7

山寨工场奇遇记吴言这几天感觉自己像一台多线程运行的机器，一边是公司没完没了的系统升级需求，一边是自己社会化电子商务实现，还有就是恶补各种创业知识，吴言渐渐感到力不从心了，但是他依然坚持着。这不，今天刚打开网络，在浏览创业新闻时，就被一条新闻稿给吸引了，新闻稿讲的是北京山寨

转载 2011-08-11 10:35:26 · 398 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用5

创业交流会吴言的公司在上这边，可是这场创业交流会却在Soho现代城，如果想去参加，需要从北京城的西北到东南去，如果下班肯定赶不及，所以吴言找个机会，早出来了两个小时，冒着盛夏的配热，从地钱13号线然后10号线再一号线，几经辗转终于到传说中的Soho现代城。好在地钱里有空调，没

转载 2011-08-11 10:33:58 · 496 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用1

序言别笑，我可以以我的名义起誓，这是一本全文检索、数据挖掘、推荐引擎在社会化电子商务中应用的专著。当前这三方面的专著很多，但是大多是讲理论基础和实现细节的，还没有发现把这些技术真正用到实际项目中例子，因此我们还是不很清楚应该在什么地方用，应该怎么用。在这本书里，主人公吴言

转载 2011-08-10 17:39:23 · 473 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用26

清华帮吴言在每天的第一件事都是先上到天使街转一圉，因为天使街是吴言的一个朋友Thomas创建的，吴言想给Thomas的网站增加点人气。最近这个网站各方面逐渐完善了起来，无论从内容方面，还是从版面设计方面，都有不小的进步，吴言很替Thomas感到高兴。吴言把自己当前的情况给Th

转载 2011-09-08 22:55:05 · 973 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用24

15年同学会同学聚会安排在了周六的下午，地点就在北航东南门口的体育场附近，然后是去旁边的沸腾渔乡，最后是去K歌。本来组织者还希望利用周未两天时间去京效一处景点，大家在山水之间，好好叙叙旧，但是大家的日程安排都很紧，只好改为半天时间了。吴言来的还没较早，刚进东南门，就看到班

转载 2011-09-08 22:52:32 · 588 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用21

员工离职之痛吴言今年是订的初四的回程火车票，因此初四早晨就得动身，走到十几里外的汽车站做车。从初三下午开始，父母就在给吴言收拾行李，虽然吴言一再说路上带着不方便，但是父母还是顽固地给他收拾了整整一袋子东西，吴言每次回京，拎着父母都舍不得吃的东西，都深深地体会到了亲情的沉重。

转载 2011-09-08 22:48:41 · 657 阅读 · 0 评论
全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词

基于内容的推荐引擎有两种实现途径，一种是根据条目的元数据（可以将元数据理解为属性），另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全文检索实现方式，然后描述基于元数据的内容推荐引擎实现方式。对于基于条目文本描述信息的内容推荐引擎，目前有很多资料可以参考，基

转载 2011-08-15 11:05:09 · 408 阅读 · 0 评论
基于lucene实现自己的推荐引擎

原文地址：转：基于lucene实现自己的推荐引擎作者：zdhg原文来自http://blog.fulin.org/2010/10/recommendation_system_based_lucene.html采用基于数据挖掘的算法来实现推荐引擎是各大电子商

转载 2011-08-15 11:24:03 · 673 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用13

蝴蝶结效应吴言昨天晚上熬得很晚，早上是被自己的手机来电惊醒的。谁这么早就来电话，真讨厌！吴言心里嘟囔着，不情愿的从床上爬起来，下意识的看了一下表，原来已经十点多了，已经不算早了。吴言拿起手机，无精打彩的说道：“喂？”“老吴，我是杨子健！现在说话方便吗？”原来是杨子健，

转载 2011-08-23 11:50:42 · 1051 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用12

股权激励之惑终于通过程序可以把京成商城所有产品的页面全都通过网络爬虫程序全部下载到本地来了，吴言心满意足坐在了电脑椅的靠背上，这才发现自己已经足足一动不动的在这编了将近五个小时的程序了，好累呀，吴言很有成就感地伸了一个懒腰。“哎呦！”吴言不小心把堆在电脑桌上最上面的一本书

转载 2011-08-23 11:50:04 · 384 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用11

创业合作伙伴吴言最近常在创业啪网站上活动，开始这个网站吸引吴言的地方是这里有无数创投业大佬，吴言想通过这里接触到他们，但是后来发现想在这里接触投资人，显然是水中捞月镜中摘花，成功的概率与直接买彩票独中5亿差不多。但是创业啪网站上还活跃着很多草根创业者，创业者之间互相交流，给吴

转载 2011-08-23 11:49:18 · 538 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用10

商业计划书虽然吴言一直觉得系统开发才是硬道理，其他神马都是浮云。但是在创业网站上，各位牛人们一遍遍重复着的商业计划书的重要性，对吴言还是产生了影响。虽然商业计划书融资价值无限接近于零，但是一个商业计划书可以为自己理清创业思路，这点吴言还是认可的。况且，万一真的通过商业计划书融

转载 2011-08-23 11:48:36 · 471 阅读 · 0 评论
全文检索、数据挖掘、推荐引擎系列4---去除停止词添加同义词

Lucene对文本解析是作为全文索引及全文检索的预处理形式出现的，因此在一般的Lucene文档中，这一部分都不是重点，往往一带而过，但是对于要建立基于文本的内容推荐引擎来说，却是相当关键的一步，因此有必要认真研究一下Lucene对文解析的过程。Lucene对文本的解析对用户的

转载 2011-08-23 11:47:52 · 603 阅读 · 0 评论
十七道海量数据处理面试题与Bit-map详解

七道海量数据处理面试题与Bit-map详解作者：小桥流水，redfox66，July。文章性质：整理。前言本博客内曾经整理过有关海量数据处理的10道面试题（十道海量数据处理面试题与十个方法大总结），此次除了重复了之前的10道面试题之后，

转载 2011-08-16 11:55:42 · 405 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用9

辞职创业吴言在经过了几天的反复思考，终于下定决心辞职创业了。做出这个决定真的需要很大的勇气，因为自己的年纪做为程序员来说，已经属于很高龄了，如果创业失败几乎没有退路，再找工作将很难，合适的工作几乎是不可能的。但是如果一辈子就这么重复着当下的生活，他又不甘心，非常的不甘心，放弃

转载 2011-08-16 11:28:17 · 431 阅读 · 0 评论
海量数据处理：十道面试题与十个海量数据处理方法总结

第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件

转载 2011-08-16 11:54:37 · 412 阅读 · 0 评论
几种常见的基于Lucene的开源搜索解决方案对比

一直接使用 Lucene ( http://lucene.apache.org )说明：Lucene 是一个 JAVA 搜索类库，它本身并不是一个完整的解决方案，需要额外的开发工作优点：成熟的解决方案，有很多的成功案例。apache 顶级项目，正在持续快速的进步。庞

转载 2011-08-15 11:39:37 · 463 阅读 · 0 评论
当前几个主要的Lucene中文分词器的比较

1. 基本介绍：paoding ：Lucene中文分词“庖丁解牛” Paoding Analysisimdict ：imdict智能词典所采用的智能中文分词程序mmseg4j ：用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器ik ：采用了

转载 2011-08-15 11:31:39 · 505 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用17

工作中的细节吴言的新公司好像一切都进展得很顺利，经过一周左右的磨合时间，大家彼此都变得熟悉起来，每个人也基本进入了工作状态。吴言对此非常满意，第一次转型做管理的自己，在最关键的第一周并没有出现大的失误，这个小团队已经开始工作了。但是吴言还是注意到了一些问题，虽然这些问题很

转载 2011-09-08 22:39:31 · 444 阅读 · 0 评论
全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法

对一系列文章进行自动聚类可以做为基于内容的推荐引擎的基础，如果要实现文本的自动聚类，首先按照本系列5中所介绍的，对文章进行分词，然后计算得出文章的术语向量表示，即求文章中每个不同的单词以其所对应的TF*IDF，具体计算方法如5中所示。目前文本自动聚类算法中，用得最多是KMean算

转载 2011-09-08 22:33:20 · 708 阅读 · 0 评论
Cassandra、MongoDB、CouchDB、Redis、Riak、HBase比较

本文有标题党之嫌。在NoSQL如日中天的今天，各种NoSQL产品可谓百花齐放，但每一个产品都有自己的特点，有长处也有不适合的场景。本文对Cassandra, Mongodb, CouchDB, Redis, Riak 以及 HBase 进行了多方面的特点分析，希望看完此文的您能够

转载 2011-08-02 14:33:51 · 717 阅读 · 0 评论
Cassandra V.S. HBase

背景“这是最好的时代，也是最坏的时代。” 每个时代的人都在这么形容自己所处的时代。在一次次IT浪潮下面，有人觉得当下乏味无聊，有人却能锐意进取，找到突破。数据存储这个话题自从有了计算机之后，就一直是一个有趣或者无聊的主题。上世纪七十年代，关系数据库理论的出现，造就

转载 2011-08-02 11:40:08 · 902 阅读 · 0 评论
HOD服务集群

前言本文的目的在于从无到有的搭建一套HOD服务集群。在参考本文之前假设读者已经对hadoop系统及其下面 DFSShell，HDFS，MapReduce等已经有了相当的了解。由于Hadoop docs中关于HOD如何搭建和使用的介绍比较少，并且涉及到底层Torque集群组件的

转载 2011-07-30 14:11:36 · 2605 阅读 · 0 评论
分布式文件系统

所谓分布式，在这里，很狭义的指代以Google的三驾马车，GFS、Map/Reduce、BigTable为框架核心的分布式存储和计算系统。通常如我一样初学的人，会以Google这几份经典的论文作为开端的。它们勾勒出了分布式存储和计算的一个基本蓝图，已可窥见其几分风韵，但终究还是由

转载 2011-07-27 18:27:23 · 913 阅读 · 0 评论
Torque 的安装

PBS是功能最为齐全，历史最悠久，支持最广泛的本地资源管理器之一。 PBS的目前包括openPBS，PBS Pro和Torque三个主要分支。其中OpenPBS是最早的PBS系统，目前已经没有太多后续开发，PBS pro是PBS的商业版本，功能最为丰富。Torque是Clust

转载 2011-07-27 11:27:02 · 951 阅读 · 0 评论
Scribe+HDFS日志收集系统安装方法

1、概述Scribe是facebook开源的日志收集系统，可用于搜索引擎中进行大规模日志分析处理。其通常与Hadoop结合使用，scribe用于向HDFS中push日志，而Hadoop通过MapReduce作业进行定期处理，具体可参见日文日志：http://d.hatena.ne

转载 2011-07-27 17:23:51 · 975 阅读 · 0 评论
HADOOP基本操作命令

在这篇文章中，我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动HADOOP1. 进入HADOOP_HOME目录。2. 执行sh bi

转载 2011-07-27 16:11:04 · 571 阅读 · 0 评论
Hadoop集群中添加机器和删除机器

无论是在Hadoop集群中添加机器和删除机器，都无需停机，整个服务不中断。本次操作之前，Hadoop的集群情况如下：HDFS的机器情况如下：MR的机器情况如下：添加机器在集群的Master机器中，修改$HADOOP_HOME/conf/slaves文件，在其中添加需要加入集群的新

转载 2011-07-27 14:49:42 · 418 阅读 · 0 评论
Hadoop平台优化综述

1. 概述随着企业要处理的数据量越来越大，MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现，由于其良好的扩展性和容错性，已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台，虽然其应用价值已得到大家认可，但仍存在很多问题，以下

转载 2011-07-26 15:51:03 · 525 阅读 · 0 评论
集群文件系统词典

GFS：全局文件系统 GFS是应用最广泛的集群文件系统。它是由红帽公司开发出来的，允许所有集群节点并行访问。元数据通常会保存在共享存储设备或复制存储设备的一个分区里。 OCFS：甲骨文集群文件系统从概念上来说，OCFS与GFS非常相似，现在OCFS 2已经被应用于Linux系统

转载 2011-07-22 16:25:01 · 605 阅读 · 0 评论
Cluster（群集）介绍

什么是Cluster? Cluster（群集）是紧密连接的一组计算机，用来持续性地提供高性能的计算服务。把一组计算机连在一起并非难事，但要让它们获得很高的性能就不那么容易了。Cluster的初衷在于以没有单点故障的体系结构来达到系统的高可用性和可伸缩性，而且要求采用通用

转载 2011-07-22 16:13:36 · 2287 阅读 · 0 评论
分布式编程模式MapReduce应用

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节

转载 2011-08-09 15:30:31 · 1774 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用2

吴言的直接上司张宏宇比他小10岁，是一个北大毕业的硕士，头脑相当灵活，办事效率非常高，常常别人还不明白是怎么回事的时侯他就恍然大悟了。他的头衔是研发总监，实际上就是研发部门经理，手下有20几个人，他还有一个漂亮的女朋友，靓照就放在笔记本的桌面上，每次开会时，都让这些程序员们眼馋得

转载 2011-08-11 10:31:46 · 451 阅读 · 0 评论
最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用20

春节虽然离春节还有一个半月，但是过年的气氛已经开始变得越来越浓了，人们已经开始谈论着买回家的火车票，行程安排等等信息，周围都迷漫着越来越浓的年的味道。每年到这个时候，吴言都会感到未名烦燥。又一年过去，又是一事无成，今年尤其如此，连往年还算说得过去的工作都没有了，而且自己的

转载 2011-09-08 22:47:13 · 364 阅读 · 0 评论

Hadoop

作者: clouderyu

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用27

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用22

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用19

全文检索、数据挖掘、推荐引擎系列7---条目相似度算法

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用8

全文检索、数据挖掘、推荐引擎系列2---异步服务实现

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用7

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用5

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用1

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用26

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用24

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用21

全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词

基于lucene实现自己的推荐引擎

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用13

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用12

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用11

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用10

全文检索、数据挖掘、推荐引擎系列4---去除停止词添加同义词

十七道海量数据处理面试题与Bit-map详解

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用9

海量数据处理：十道面试题与十个海量数据处理方法总结

几种常见的基于Lucene的开源搜索解决方案对比

当前几个主要的Lucene中文分词器的比较

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用17

全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法

Cassandra、MongoDB、CouchDB、Redis、Riak、HBase比较

Cassandra V.S. HBase

HOD服务集群

分布式文件系统

Torque 的安装

Scribe+HDFS日志收集系统安装方法

HADOOP基本操作命令

Hadoop集群中添加机器和删除机器

Hadoop平台优化综述

集群文件系统词典

Cluster（群集）介绍

分布式编程模式MapReduce应用

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用2

最老程序员创业札记：全文检索、数据挖掘、推荐引擎应用20