
Hadoop学习
Farmer-Lei
这个作者很懒,什么都没留下…
展开
-
Hadoop 学习_ 伪分布式安装
简单介绍 hadoop是什么?下面开始:先介绍VM中虚拟机和物理机连接的原理: VM(Vmware) 会创建一个虚拟网关,然后VM上的虚拟机和实际的物理机都会得到一个虚拟网卡,这两个网卡都属于同一网段,则 物理机就可以和 虚拟机相互ping通了。电脑真实的网卡与这个没有关系。 虚拟机上网也是借助的实际网卡上网的(具体不太懂)。2. 下面是物理机和虚拟机连接设...原创 2018-06-13 19:44:44 · 289 阅读 · 0 评论 -
kafka和flume学习
1. kafka简介Kafka是一个分布式的消息队列系统(Message Queue)。官网:https://kafka.apache.org/ kafka集群有多个Broker服务器组成,每个类型的消息被定义为topic。同一topic内部的消息按照一定的key和算法被分区(partition)存储在不同的Broker上。消息生产者producer和消费者consumer可以在多个Bro...原创 2019-04-24 14:21:32 · 226 阅读 · 0 评论 -
Storm实时计算-基本概念学习
目录Strom基本概念1.1 Storm 计算模型1.2 WC经典例子1.3 window上调试storm代码环境配置1.4 Storm 架构1.4.1 hadoop与Strom的对比1.4.2Storm任务提交流程1.4.3 提交任务后nimbus和zookeeper的目录树1.5 Storm的部署1.6 Storm并发机制和容错机制1.6....原创 2019-04-22 16:53:14 · 1538 阅读 · 0 评论 -
VM上spark安装+jupyter交换环境配置(windows操作虚拟机下的jupyter)
注:个人学习笔记。一:spark安装1.去Apache官网下载对应Hadoop版本的spark(我是Hadoop2.6,Hadoop安装跳过)。补充一句:因为spark是上层应用,里面还是基于Hadoop的hdfs文件系统和yarn的资源调度,所以要先安装Hadoop。 http://spark.apache.org/downloads.html 2.上传至对应的目录,解压,里面...原创 2018-07-22 20:14:12 · 997 阅读 · 0 评论 -
Hadoop学习_HIVE(内部表,外部表建立与区别以及分区表学习)+ HBASE了解
一.HIVE1.基本概念: 在线业务产生的海量数据放到数据仓库中,使用HIVE对其进行离线分析挖掘(按理说可以用mapreduce程序,但是很麻烦,需要不断的得到中间结果,然后保存下来,再去执行下一个语句。且MapReduce相比于生气了语句复杂,还需要Java基础,没有基于sql知识的HIVE来的快)。 hive的粗略工作流程: a) 在hive框架下创建需要分析...原创 2018-07-01 19:43:55 · 1871 阅读 · 0 评论 -
Hadoop学习_虚拟机克隆+zookeeper伪分布式集群搭建+元数据的高并发(HA)机制
虚拟机克隆:原创 2018-06-21 21:10:44 · 634 阅读 · 0 评论 -
Hadoop学习_mapreduce提交方式+实现简单流量统计程序(有注释)+shuffle
11原创 2018-06-21 20:27:10 · 888 阅读 · 0 评论 -
Hadoop学习_HDFS,MapReduce (wordcount例子)和 YARN资源调度
注:以下内容来源于互联网,由自己整理,作为读书笔记使用。1.HDFS HDFS文件指令和centos的很像 在创建目录时,若提示节点处于安全状况,只需要关闭安全模式即可。hadoop dfsadmin -safemode leave 显示当前目录文件: hadoop fs –ls 目录 目录一定不要忘了,即使是当前目录。 元数据的管理(数据在d...原创 2018-06-13 21:42:20 · 563 阅读 · 0 评论 -
Kafka+storm学习笔记
以下内容均整理自网络1.1 Kafka与storm整合参考这个:https://blog.youkuaiyun.com/yongge1981/article/details/792600111.2 案列任务: 实时统计移动用户在每个小区的掉话率。项目整体架构如下:1.2.1 启动集群启动Zookeeper集群 zkServer.sh start启动Hbase(完全分布式需要先启动Hadoo...原创 2019-04-24 17:46:10 · 3233 阅读 · 0 评论