
大数据
twlkyao
AlienTech for better life
展开
-
Eclipse下搭建Hadoop开发环境,并运行第一个实例
有同学无法正常运行程序,这里将Eclipse下Hadoop环境配置进行一下说明: 1.新建Map/Reduce工程 2.设置Hadoop Locaiton,第一次使用的话,点击大象,新建配置。 3.设置内容(配置需要和Hadoop的配置文件相同): Location name和Host填写localhost,Map/Reduc原创 2013-12-26 11:33:31 · 11809 阅读 · 9 评论 -
王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的第一讲Hadoop图文训练课程:10分钟理解云计算分布式大数据处理框架Hadoop
第1分钟: Hadoop要解决的问题是什么? 答:Hadoop核心要解决长期IT界乃至人类社会的两大主题: 1, 海量数据的存储:传统的存储方式昂贵而且日益难以满足核裂变级别数据的增长,例如纽约证券交易所每天要产生T级别的数据量,Facebook要每天要服务过亿的用户(其中图片等数据`量是惊人的),如何使用廉价的设备支持无线增长的数据的安全高效的存储转载 2013-12-21 14:50:52 · 1432 阅读 · 0 评论 -
大数据能做什么
Hadoop和大数据是这两年最火的词儿们之一,越来越多的公司对这个东西感兴趣,但是我接触到的大多数公司里的人,无论是技术人员还是老板。都不知道怎么能把这些东西用于改善自己公司的业务。在解答的过程中,提炼出几个要点,记录一下。 大数据和云是不是一回事?这是最容易混淆的概念之一,我个人认为这是两回事,云服务,无论是云主机还是云存储还是云的其他应用,都是向用户提供一个接口,但这个转载 2013-12-21 14:25:28 · 1364 阅读 · 0 评论 -
Nutch1.7学习笔记:基本环境搭建及使用
Nutch1.7学习笔记:基本环境搭建及使用作者:雨水,时间:2013-10-31博客地址:http://blog.youkuaiyun.com/gobitan说明:Nutch有两个主版本1.x和2.x,它们的主要区别是2.x引入了Gora作为存储抽象层,从而支持各种NoSQL数据库,如HBase,Cassandra等。本文是以1.x的最新版Nutch1.7 (发布于2013年6月25日)为例。转载 2013-11-18 11:12:19 · 1490 阅读 · 2 评论 -
Hadoop之MapReduce WordCount分析
MapReduce的设计思想主要的思想是分而治之(divide and conquer),分治算法。将一个大的问题切分成很多小的问题,然后在集群中的各个节点上执行,这既是Map过程。在Map过程结束之后,会有一个Ruduce的过程,这个过程即将所有的Map阶段产出的结果进行汇集。写MapReduce程序的步骤:1.把问题转化为MapR转载 2013-12-21 19:19:45 · 2445 阅读 · 1 评论 -
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程:MapReduce的原理机制和流程图剖析
这一讲我们主要剖析MapReduce的原理机制和流程。 “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入! 关于MapReduce,你至少需要知道以下几点:1, MapReduce是运行于分布式文件系转载 2013-12-21 19:03:39 · 1490 阅读 · 0 评论 -
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十讲Hadoop图文训练课程:剖析Hadoop的重要配置文件
本讲主要剖析Hadoop重要的配置文件。 王家林的“云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入! 在前面我们安装单机版Hadoop以及Hadoop集群的时候,我们使用的只是可以工作的最小化配置项,有很多重要的配置项都还没转载 2013-12-21 19:02:33 · 1346 阅读 · 0 评论 -
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第九讲Hadoop图文训练课程:剖析NameNode和Secondary NameNode的工作机制和流程
本讲主要剖析SecondaryNameNode。 “云计算分布式大数据Hadoop实战高手之路”之完整发布目录云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入! Hadoop在启动的时候,会启动SecondaryNameNode,我们使用JPS命令查看一下查看一下Hadoop启动时启动了那些进转载 2013-12-21 19:01:40 · 1541 阅读 · 0 评论 -
云计算分布式大数据Hadoop实战高手之路第八讲Hadoop图文训练课程:Hadoop文件系统的操作实战
本讲通过实验的方式讲解Hadoop文件系统的操作。“云计算分布式大数据Hadoop实战高手之路”之完整发布目录云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入! 首先我们看一些比较常用的Hadoop文件系统的操作命令:第一个常用命令:hadoop fs –ls例如使用以下命令是列出文件转载 2013-12-21 19:00:40 · 1307 阅读 · 0 评论 -
云计算分布式大数据Hadoop实战高手之路第七讲Hadoop图文训练课程:通过HDFS的心跳来测试replication具体的工作机制和流程
这一讲主要深入使用HDFS命令行工具操作Hadoop分布式集群,主要是通过实验的配置hdfs-site.xml文件的心跳来测试replication具体的工作和流程。通过HDFS的心跳来测试replication具体的工作机制和流程的PDF版本请猛击这里。 王家林的“云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Had转载 2013-12-21 18:59:24 · 1269 阅读 · 0 评论 -
Hadoop 2.2.0 (YARN)搭建笔记
最近工作需要,摸索着搭建了Hadoop 2.2.0(YARN)集群,中间遇到了一些问题,在此记录,希望对需要的同学有所帮助。 本篇文章不涉及hadoop2.2的编译,编译相关的问题在另外一篇文章《hadoop 2.2.0 源码编译笔记》中说明,本篇文章我们假定已经获得了hadoop 2.2.0的64bit发行包。 由于spark的兼容问题,我们后面使用了转载 2013-12-21 15:11:04 · 1513 阅读 · 1 评论 -
Hadoop jps出现process information unavailable提示解决办法
AlienTech for better life!~原创 2013-12-20 21:48:35 · 9657 阅读 · 4 评论 -
初识小米Minos
1. Minos框架的基本介绍 小米公司不仅仅在搞手机以及MIUI rom的研发工作,云计算、虚拟化以及Hadoop也是小米现在在搞的东西,小米与2012年下半年成立了自己的Hadoop团队。介绍小米Minos,Hadoop部署、监控系统,目前小米将此系统开源在github上面可以下载来获取。Minos的logo: 图1:Minos logo 依然是小米经典的橙转载 2013-11-15 22:57:44 · 2446 阅读 · 0 评论 -
Hadoop实战-初级部分 之 HDFS API
第一部分:搭建HDFS开发环境•导入Hadoop的Jar•建立resources文件夹,放入配置文件 第二部分:Configuration•添加配置文件•获取配置文件属性 第三部分:FileSystem API 详解FileSystem:该类为 HDFS文件系统的抽象类,通过它可以在 Java端操作 HDFS。基本操转载 2013-12-31 16:38:39 · 1242 阅读 · 0 评论 -
Hadoop实战-初级部分 之 Hadoop MapReduce JAVA API
第一部分:Word Count 程序讲解 •编写一个MapReduce 程序的步骤–编写一个Mapper类–编写一个Reducer类–编写一个Driver类(即Job),来将Mapper与Reducer类来进行组合。 java代码:查看复制到剪贴板打印Mapper转载 2013-12-31 16:25:50 · 2109 阅读 · 0 评论 -
Hadoop实战-初级部分 之 Shell
第一部分:Hadoop Bin后面根据项目的实际需要Hadoop Bin 包括:Hadoop hadoop的Shellhadoop-config.sh 它的作用是对一些变量进行赋值 HADOOP_HOME(hadoop的安装目录)。 HADOOP_CONF_DIR(hadoop的配置文件目录)。HADOOP_SLAVES(--hosts指定的文件的地转载 2013-12-31 16:33:42 · 1168 阅读 · 0 评论 -
Hadoop1.0与Hadop2.0架构比较
刚刚看到一篇文章对 hadoop1 和 hadoop 2 做了一个解释 图片不错 拿来看看 Hadoop 1.0 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路:首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是 Map-reduce 框转载 2013-12-21 15:20:46 · 1344 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma转载 2013-12-21 15:22:20 · 1277 阅读 · 0 评论 -
关于学习Hadoop中未总结的资料
1)Cygwin相关资料 (1)Cygwin上安装、启动ssh服务失败、ssh localhost失败的解决方案 地址:http://blog.163.com/pwcrab/blog/static/16990382220107267443810/ (2)windows2003+cygwin+ssh 地址:http://wenku.baidu.com/view转载 2013-12-21 16:57:09 · 1131 阅读 · 0 评论 -
认识Mahout下的云计算机器学习
Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中。在Mahout实现的机器学习算法见下表:转载 2014-03-16 22:56:01 · 1697 阅读 · 0 评论 -
基于Mahout的电影推荐系统
源代码下载地址:http://download.youkuaiyun.com/detail/huhui_bj/5248056参考资料:http://www.ibm.com/developerworks/cn/java/j-lo-mahout/http://blog.sina.com.cn/s/blog_541086000100qh2j.htmlQQ:667818771 Ma转载 2013-11-17 00:19:04 · 2958 阅读 · 0 评论 -
移动云计算的一些思考
AlienTech for better life!~原创 2014-02-17 10:51:34 · 1961 阅读 · 0 评论 -
Hadoop入门实践之从WordCount程序说起
这段时间需要学习Hadoop了,以前一直听说Hadoop,但是从来没有研究过,这几天粗略看完了《Hadoop实战》这本书,对Hadoop编程有了大致的了解。接下来就是多看多写了。以Hadoop自带的例子WordCount程序开始,来记录我的Hadoop学习过程。Hadoop自带例子WordCount.java[java] view plaincopy转载 2013-12-27 20:01:06 · 1197 阅读 · 0 评论 -
Hadoop2.2.0的Eclipse插件
AlienTech for better life!~原创 2013-12-15 15:57:36 · 5510 阅读 · 5 评论 -
Hadoop第一个程序,利用API向HDFS中写入数据
参考:http://f.dataguru.cn/thread-85493-1-1.html这时学习Hadoop以来写的第一个成功的程序,程序仿照《Hadoop实战》中的PutMerge程序,这里有几个要注意的地方:1.hdfs的地址是一个网络地址,如下面的:hdfs://localhost:9000/test32.确保不会出现“权限不足”的异常转载 2013-12-27 19:59:13 · 2811 阅读 · 0 评论 -
hadoop杂记-为什么会有Map-reduce v2 (Yarn)
前言:有一段时间没有写博客了(发现这是我博客最常见的开头,不过这次间隔真的好长),前段时间事情比较多,所以耽搁得也很多。现在准备计划写一个新的专题,叫做《hadoop杂记》,里面的文章有深有浅,文章不是按入门-中级-高级的顺序组织的,如果想看看从入门到深入的书,比较推荐《the definitive guide of hadoop》。今天主要想写写关于map-reduce v2(或者叫转载 2013-12-08 11:42:49 · 1558 阅读 · 0 评论 -
Hadoop源码分析之Configuration
org.apache.hadoop.conf.Configuration类是Hadoop所有功能的基础类,每一种功能执行之前都需要有先得到一个Configuration对象。Hadoop使用了XML文件作为配置文件,来保存运行时的配置信息,然后将配置加载到Configuration对象中,要使用配置信息时直接从Configuration对象中取。Hadoop配置文件将下载的Ha转载 2013-12-24 21:15:18 · 1583 阅读 · 0 评论 -
Ubuntu 编译安装Hadoop-2.2.0
Map Reduce什么的我是不懂啊。 今天是帮马同学搭建hadoop。 用的2.2.0版本,结果运行时发现提示 “libhadoop.so.1.0.0 which might have disabled stack guard” 的警告。 Google了一下发现是因为 hadoop 2.2.0提供的是libhadoop.so库是32位的,而我们的机器是64位。 解决的办法就是重新在64位的机器上转载 2013-12-24 10:14:16 · 2386 阅读 · 0 评论 -
Hadoop常用端口(以Hadoop2.2.0为例,不保证其他版本)
AlienTech for better life!~原创 2013-12-14 11:57:11 · 3798 阅读 · 0 评论 -
王家林 第六讲Hadoop图文训练课程:使用HDFS命令行工具操作Hadoop分布式集群初体验
这一讲主要使用HDFS命令行工具操作Hadoop分布式集群初体验: Step 1:使用HSFS命令向Hadoop分布式集群存放一个大文件; Step 2:删除文件并用两份副本在HDFS上存放数据; 使用HDFS命令行工具操作Hadoop分布式集群初体验PDF版本教程请猛击这里 王家林的“云计算分布式大数据Hadoop实战高手之路”之完转载 2013-12-21 18:21:36 · 1780 阅读 · 1 评论 -
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第五讲Hadoop图文训练课程:解决典型Hadoop分布式集群环境搭建问题
王家林 第四讲Hadoop图文训练课程:实战构建真正的Hadoop分布式集群环境Hadoop集群搭建的过程中出现的问题,具体的解决步骤是:Step 1:查询Hadoop的日志看出错原因在哪里;Step 2:停止集群工作;Step 3:根据日志指出的原因进行解决,针对我们这里的问题,需要清空hadoop.main机器的hadoop根目录下的hdfs下的data文件;S转载 2013-12-21 18:16:56 · 1915 阅读 · 0 评论 -
王家林 第四讲Hadoop图文训练课程:实战构建真正的Hadoop分布式集群环境
“真相会使你获得自由。” — 耶稣《圣经》约翰8:32KJV“所有人类的不幸都来源于不能直面事实。” — 释迦摩尼“道法自然” — 老子《道德经》第25章 这一讲我们构建真正的Hadoop分布式集群环境:1, 在VMWare 中准备第二转载 2013-12-21 18:14:22 · 1202 阅读 · 0 评论 -
王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程
此教程是王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”第三讲:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程。具体的PDF版本教程请猛击这里。王家林的“云计算分布式大数据Hadoop实战高手之路”之完整目录 王家林亲授的上海7月6-7日云计算分布式大数据Hadoop深入浅出案例驱动实战 王家林把自己几年转载 2013-12-21 18:11:38 · 1324 阅读 · 0 评论 -
王家林 云计算分布式大数据Hadoop实战高手之路---从零开始 第二讲:全球最详细的从零起步搭建Hadoop单机和伪分布式开发环境图文教程
工欲善其事,必先利其器。本文从零起步构建Hadoop单机版本和伪分布式的开发环境,图文并茂,不放过任何一个细节,涉及:1,开发Hadoop需要的基本软件;2, 安装每个软件;3, 配置Hadoop单机模式并运行Wordcount示例;4, 配置Hadoop伪分布式模式并运行Wordcount示例; 王家林的“云计算分布式大数据Hadoop实战转载 2013-12-21 18:04:15 · 2396 阅读 · 0 评论 -
Hadoop实战-初级部分 之 HDFS
第一部分:什么是HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。 HDFS是高容错性的,可以部署在低成本的硬件之上,HDFS提供高吞吐量地对应用程序数据访问,它适合大数据集的应用程序。 第二部分:HDFS架构设计HDFS 设计目标HDFS不适合做什么转载 2013-12-31 16:36:51 · 1131 阅读 · 0 评论 -
为什么Hadoop将一定会是分布式计算的未来?
版权声明:写本文由leftnoteasy发布于http://leftnoteasy.cnblogs.com 本文可以被全部或者部分的使用,但请注明出处,如果有问题,可以联系wheeleast (at) gmail.com, 也可以加我的新浪微博:http://weibo.com/leftnoteasy前言: 很久没有写博客了,之前主要是换工作,耽误了很多的时间,让人也变得懒散,不转载 2013-12-31 15:59:30 · 1257 阅读 · 0 评论 -
Redis入门
1.前言Redis是一个key/value存储系统,它的数据都是缓存在内存中的,所以效率很高。这几天用到了redis,所以学习了一些关于redis的基本知识,现在记录出来,为以后查阅方便。2.安装参考文章:http://my.oschina.net/u/273598/blog/100809Redis的下载地址:http://redis.io/downlo转载 2013-11-29 21:27:14 · 2203 阅读 · 0 评论 -
MongoDB数据修改总结
1.前言最近在学习MongoDB,数据修改这一部分的内容较多,命令比较繁琐,所以将一些常用的修改命令总结在这篇博客中,方便今后学习的查阅。2.命令总结1). insert()db.collection.insert(x) x就是要更新的对象,只能是单条记录,如:[plain] view plaincopydb转载 2013-11-29 21:25:29 · 1763 阅读 · 0 评论 -
MongoDB数据修改总结
1.前言MongoDB是NoSQL数据库中的一种,属于文档数据库,它与关系型数据库的对比见下表:MongoDB和关系型数据库对比图对比项MongoDB关系型数据库表集合list二维表table表的一行数据文档document一条记录record表字段键key字段field字段转载 2013-11-29 21:24:16 · 3301 阅读 · 0 评论 -
关于大数据技术的再思考
关于大数据技术的再思考(130314)闵应骅 我猜想,今年大数据方面的基金申请少不了。本人上一篇博文“大数据到底要研究什么?(130308)”谈的都是比较宏观的东西。说明大数据技术归根到底是分布存储、并行处理的问题。对于比较小的基金课题申请,其实只需要就一个小问题深入下去就可以了。本篇企图写得稍微具体一点,但是,限于本人的能力,仍然很粗略。不过,每一句话实现起来都不那么容易,转载 2013-11-08 21:23:28 · 1211 阅读 · 0 评论