
大数据学习笔记
文章平均质量分 77
不才一首歌
不积跬步无以至千里
展开
-
hadoop安装
Hadoop安装1、 解压JDKtar -xzvf jdk-7u79-linux-x64.tar.gz -C /2、 把环境变量放入vi/etc/profile,并且生效source /etc/profile.检查 java -version JAVA_HOME=/jdk1.8...原创 2018-02-27 11:47:40 · 315 阅读 · 0 评论 -
Hadoop下的调度工具
Hadoop下的调度工具制作Azkaban作业调度,包含job、Flow之间的依赖关系,并成功执行:第一步:到相应的host4上su – Azkaban第二步:建各个job.第三步:根据需求先画出需求图:Flow需求图:整体需求图:然后根据图片写job:-----vi a.job#a.jobtype = commandcommand = echo “此时此刻的我想吟诗一首:念奴娇·赤壁怀古”---...原创 2018-02-27 13:00:19 · 852 阅读 · 0 评论 -
爬虫采集
爬虫采集.采集智联招聘信息进行分析 采集地址:http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&sm=0&p=1 采集结果导入Hive,以下分析使用Hive SQL操作 分...原创 2018-02-27 12:55:49 · 635 阅读 · 0 评论 -
Zeppelin
Zeppelin自造学生成绩表数据,制作一个漂亮的可视化分析图:1.在自己数据库中:用hive创建表格:2.各种导入数据: Insert插入: Root导入:查看导入的数据:3.设置端口转发,使得网页可以打开远程Zeppelin:4.打开浏览器输入:127.0.0.1:99955. 点击顺序-->===》===》之后进入:编写...原创 2018-02-27 12:46:21 · 567 阅读 · 0 评论 -
Spark
Spark1、Spark起源在MapReduce出现:写复杂的程序来实现并且不能实时处理且交互式处理慢的现状和伴着内存日渐实惠的情况下Spark就是成为产生对象。Spark的三种处理场景:批处理、交互式、实时处理。所以,在加利福尼亚大学伯克利分学校在2009年AMPLab开创了Spark。2010年开源发布,2013年项目被捐赠给Apache软件基金会。2014年Spark成为Apache的顶级项...原创 2018-02-27 12:42:18 · 683 阅读 · 1 评论 -
Hbase
HbaseHbase概述:Hbase是一个构建在HDFS上的分布式存储系统,主要用于海量结构化数据存储,从逻辑上讲,Hbase将数据库按照表、行和列进行存储。Hbse与HDFS对比:都具有良好的容错性和扩展性,均可扩展成百上千个节点;HDFS:写模式:适合批处理场景,只支持增加,不支持数据随机查找,不适合增量...原创 2018-02-27 12:36:34 · 820 阅读 · 0 评论 -
Flume
Flume1.Flume架构解释 架构设计要点 老师总结:Source是数据源的总称,我们往往设定好源后,数据将源源不断的被抓取或者被推送。常见的数据源有:ExecSource,KafkaSource,HttpSource,NetcatSource,JmsSource,AvroSource等等。Channel用于连...原创 2018-02-27 12:26:34 · 310 阅读 · 0 评论 -
Sqoop操作
Sqoop指南Sqoop介绍Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。...原创 2018-02-27 12:22:45 · 548 阅读 · 0 评论 -
Hive操作
为什么会出现Hive?关系型数据库已产生多年,SQL成熟简化开发,降低人员成本、Java人员可编写UDF函数一、 Hive导入、导出导入(在hive中敲)《root》load data local inpath '/home/hdfs/a.txt' overwrite into tableouter_talbe1;<hdfs>load data inpath '/tmp/b.txt'...原创 2018-02-27 12:17:58 · 847 阅读 · 0 评论 -
MapReduce和Hive
1,MapReduce的原理,Wordcount的过程1.1,Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们所需要的结果。1.2,对待大数据处理:分而治之,大数据的并行化计算1.3,不可分拆的计算任务或相互间有依赖关系的数据无法进行并...原创 2018-02-27 12:09:09 · 8191 阅读 · 0 评论 -
YARN的描述
一·描述YARN的架构概述YARN是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。其中,ResourceManager是Master上一个独立运行的进程,负责集群统一的资源管理、调度、分配等等;NodeManager是Slave上一个独立运行的进程,负责上报节点的状态;App Ma...原创 2018-02-27 12:04:33 · 636 阅读 · 0 评论 -
描述HDFS
一·描述HDFS架构1, HDFS即HadoopDistributed FileSystem分布式文件系统.,2, 架构设计:HDFS主要由3个组件构成,分别是NameNode、SecondaryNameNode和DataNode,HDFS是以master/slave模式运行的,其中NameNode、SecondaryNameNode 运行在master节点,DataNode运行slave节点。3...原创 2018-02-27 12:01:21 · 926 阅读 · 0 评论 -
Ambari操作
一.启停服务 图一:首先启动所有ambari组件 图二:启动所有ambari组件过程 图三:停止ambari所有组件 图四:启动ambari中某...原创 2018-02-27 11:58:40 · 757 阅读 · 0 评论 -
HDP安装
1. namenode和datanode yum –y install createrepo 2. 3. 4. ----(top) 5. 6. 7. 8. 9. [ambari]name=ambaribaseurl=http://192.168.5.128/ambarienable=1gpgchec...原创 2018-02-27 11:54:08 · 1742 阅读 · 0 评论 -
大数据讲解
唐太宗说过:以铜为鉴,可以正衣冠,以人为鉴,可以明事理,以史为鉴,可以知兴替。说白了,大数据就是借鉴曾经的甚至正在进行的价值信息,来对需求进行优化和处理。而这里的优化和处理分析就用到了我们所说的大数据。知己知彼,百战不殆。什么是大数据呢?特点:灵活性,时效性,易用性。流程:1,数据的收集和准备(Flume,Sqoop),2,数据的存储(HDFS,Hbase),...原创 2018-02-27 13:01:47 · 492 阅读 · 2 评论