
hadoop
文章平均质量分 77
贤云(xianyun)
爱学,不经历地狱般的磨练,怎么享受天堂的幸福,没有流过血的手指,怎么弹出世间绝唱
展开
-
科普文—常见的45个问题解答(数据挖掘之Hadoop)
Hadoop科普文—常见的45个问题解答•Hadoophadoop工作linux 1.Hadoop集群可以运行的3个模式• 单机(本地)模式• 伪分布式模式• 全分布式模式2. 单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发...原创 2014-06-19 15:29:56 · 129 阅读 · 0 评论 -
Hadoop伪分布模式搭建
Hadoop伪分布模式搭建 首先要了解一下Hadoop的运行模式:单机模式(standalone) 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HD...原创 2013-10-31 00:11:05 · 248 阅读 · 0 评论 -
hadoop培训笔记
# hadoop前言# Hadoop试验集群的部署结构# 系统和组建的依赖关系 # 生产环境的部署结构# Day1 搭建伪分布实验环境# 准备软件# vmare 9.0.2# 操作系统 CentOS 6.4# jdk-6u45-linux-i586.bin# hadoop-1.1.2.tar.gz# 开始搭建环境一 (基础环境)# 在虚拟机上装好 CentOS 6.4# VM的网络连接方式选择...原创 2014-04-10 00:28:15 · 1094 阅读 · 0 评论 -
hadoop+hbase+hive
讲解提纲Hadoop框架 Hadoop周边框架 Hadoop框架Master 同时是NameNode,在runtime时会生成JobTrackerSlave 同时是DataNode,在runtime时会生成TaskerTracker Master与Slave之间通过RPC互相通讯,没隔一定时间进行一次心跳,如果...原创 2014-04-09 21:55:31 · 204 阅读 · 0 评论 -
深入Hadoop HDFS
深入Hadoop HDFS 1. hdfs架构简介1.1 hdfs架构挑战1.2 架构简介1.3 文件系统命名空间File System Namespace1.4 数据复制1.5 元数据持久化1.6 信息交换协议 2. hdfs数据可访问性2.1 web interface2.2 shell command<1>...原创 2014-04-08 07:46:33 · 104 阅读 · 0 评论 -
eclipse安装hadoop插件
在eclipse中配置hadoop插件1.安装插件准备程序:eclipse-3.3.2(这个版本的插件只能用这个版本的eclipse)hadoop-0.20.2-eclipse-plugin.jar (在hadoop-0.20.2/contrib/eclipse-plugin目录下)将hadoop-0.20.2-eclipse-plugin.jar 复制到eclipse/...原创 2014-04-05 00:05:38 · 109 阅读 · 0 评论 -
如何使用Hadoop读写数据库
在我们的一些应用程序中,常常避免不了要与数据库进行交互,而在我们的hadoop中,有时候也需要和数据库进行交互,比如说,数据分析的结果存入数据库,或者是,读取数据库的信息写入HDFS上,不过直接使用MapReduce操作数据库,这种情况在现实开发还是比较少,一般我们会采用Sqoop来进行数据的迁入,迁出,使用Hive分析数据集,大多数情况下,直接使用Hadoop访问关系型数据库,可能产生比较大的...原创 2014-04-04 15:58:27 · 448 阅读 · 0 评论 -
hadoop实战面试题
1 使用Hive或者自定义MR实现如下逻辑product_no lac_id moment start_time user_id county_id staytime city_id13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571 ...原创 2014-04-03 20:18:42 · 202 阅读 · 0 评论 -
hadoo面试题
本帖最后由 pig2 于 2014-2-11 14:20 编辑Hadoop 面试题,看看书找答案,看看你能答对多少(2)以下答案经过查阅资料与about云群(39327136)友,hadoop爱好者朋友,讨论后,二次修改答案。1. 下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)task...原创 2014-04-03 20:17:43 · 616 阅读 · 0 评论 -
hadoop安装
mac中如何设置java 环境变量?/Library/Java/JavaVirtualMachines/jdk1.7.0_10.jdk/Contents/Home/首先 cd /Library/java/JavaVirtualMachinesmac下java默认安装到Library/java/JavaVirtualMachines,进去后查看安装的java的版本,修改下版本即可参考文献:http:...原创 2014-04-02 22:59:38 · 112 阅读 · 0 评论 -
hadoop环境配置
vi 编辑 /etc/profile export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.7.0_10.jdk/Contents/Home(mac默认安装到/Library/Java/JavaVirtualMachines下面,找到对应版本即可) export HADOOP_HOME=/Volumes/HDD2/hadoop/hadoop...原创 2014-04-02 22:58:55 · 116 阅读 · 0 评论 -
用Maven构建Hadoop项目
Sep 30, 2013 用Maven构建Hadoop项目Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama,...原创 2014-04-02 22:57:23 · 130 阅读 · 0 评论 -
用Hadoop构建电影推荐系统
Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等...原创 2014-04-02 22:51:33 · 402 阅读 · 0 评论 -
海量Web日志分析 用Hadoop提取KPI统计指标
Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从201...原创 2014-04-02 22:39:43 · 260 阅读 · 0 评论 -
大数据日志数据分析
大数据日志分析:1.背景1.1 黑马论坛日志,数据分为两部分,原来是一个大文件56G,以后每天生成一个文件1.2日志格式是apache common日志格式1.3分析一些核心指标,供运营决策者使用1.4开发该系统的目的是为了获取一些业务相关的指标,这些指标在第三方工具(谷歌统计,百度统计,cnzz统计)中无法获得。2.开发步骤2.1把日志数据上传到HDFS中进行处理...原创 2014-07-26 11:11:31 · 1718 阅读 · 1 评论 -
MapReduce 中的两表 join 几种方案简介
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2...原创 2014-07-24 15:54:48 · 190 阅读 · 0 评论 -
学习Hadoop不错的系列文章
学习Hadoop不错的系列文章 1)Hadoop学习总结 (1)HDFS简介 (2)HDFS读写过程解析 (3)Map-Reduce入门 (4)Map-Reduce的过程解析 (5)Hadoop的运行痕迹 (6)Apache Hadoop 版本 2)Hadoop-0.20.0源代码分析 (1)Hadoop-0.2...原创 2014-06-19 15:32:23 · 119 阅读 · 0 评论 -
namenode故障恢复
一、dits和fsimage 首先要提到两个文件edits和fsimage,下面来说说他们是做什么的。集群中的名称节点(NameNode)会把文件系统的变化以追加保存到日志文件edits中。当名称节点(NameNode)启动时,会从镜像文件 fsimage 中读取HDFS的状态,并且把edits文件中记录的操作应用到fsimage,也就是合并到fsimage中去。合并...原创 2014-04-10 22:54:44 · 379 阅读 · 0 评论