
Hadoop大数据
文章平均质量分 73
客 人
这个作者很懒,什么都没留下…
展开
-
Hadoop集群配置(最全面总结)
adoop集群配置(最全面总结) huangguisu 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/cn转载 2017-07-10 18:42:02 · 502 阅读 · 0 评论 -
Hadoop、storm和Spark的区别、比较
一、hadoop、Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题:1.hadoop、Storm各是什么运算2.Storm为什么被称之为流式计算系统3.hadoop适合什么场景,什么情况下使用hadoop4.什么是吞吐量首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度...转载 2018-07-03 20:53:29 · 12137 阅读 · 0 评论 -
Cloudera Manager 5和CDH5(最新版5.1.3) 安装
关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的...转载 2018-06-27 20:19:37 · 310 阅读 · 0 评论 -
HBase
HBase部署过程:1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了)注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下3.1修改hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_55//告诉h原创 2017-08-30 10:57:47 · 414 阅读 · 0 评论 -
Hive
set hive.cli.print.header=true;CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This i原创 2017-08-30 10:17:07 · 338 阅读 · 0 评论 -
HDFS
Hadoopp部署过程:1.准备Linux环境 1.0 点击VMware快捷方式,右键打开文件所在位置-> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip设置网段:192.168.1.0子网掩码:255.255.255.0 -> apply -> ok回到windows --> 打开网络和共享中心 -> 更原创 2017-08-21 09:51:34 · 388 阅读 · 0 评论 -
MapReduce
案例:package cn.itheima.bigdata.hadoop.mr.wordcount; import java.io.IOException; import org.apache.commons.lang.StringUtils;import org.apache.hadoop.io.LongWritable;import org.apache.hadoo原创 2017-08-21 10:17:54 · 217 阅读 · 0 评论 -
HDFS-HA-federation的机制和功能组件
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA 注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统原创 2017-08-21 10:39:46 · 437 阅读 · 0 评论 -
SSH-远程登录协议
原创 2017-08-21 09:53:27 · 562 阅读 · 0 评论 -
Hadoop集群完全分布式模式环境部署
Hadoop简介 hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。对于Hadoop的集群来讲,可以分成两大类角色:M转载 2017-07-10 18:45:27 · 324 阅读 · 0 评论 -
hadoop完全分布式集群安装
要想深入的学习Hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个hadoop分布式集群了。说来简单,但是应该怎么做呢?不急,本文的主要目的就是让新手看了之后也能够亲自动手实施这些过程。由于本人资金不充裕,只能通过虚拟机来实施模拟集群环境,虽然说是虚机模拟,但是在转载 2017-07-10 18:44:26 · 490 阅读 · 0 评论 -
云计算
一、云计算总纲二、下面是章节部分目录: 2.1 JAVA基础: 2.2 Linux基础 2.3SQL优化 2.4Hadoop 2.0大数据 2.5SPARK+STORM+FLUME 2.6PYTHON 2.7统计学基础 2.8矩阵基础...原创 2019-05-29 21:10:33 · 1020 阅读 · 0 评论