
Spark新闻项目
努力的凹凸曼
这个作者很懒,什么都没留下…
展开
-
Spark新闻项目介绍及Linux集群准备
(一)项目介绍本课程基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。 不管是零基础的大数据技术爱好者,还是有基础的IT小白,都可以通过此课程快速的上升到一个新的高度。1.适用人群有hadoop理论基础的大学生,职场小白,大白2.涉及技术Hadoop2.x、Zookeepe...原创 2019-06-24 10:44:27 · 450 阅读 · 0 评论 -
Spark SQL快速离线数据分析
1.Spark SQL概述1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的。2)Spark SQL可以直接运行SQL或者HiveQL语句3)BI工具通过JDBC连接SparkSQL查询数据4)Spark SQL支持Python、Scala、Java和R语言5)Spark SQL不仅仅是SQL6)S...原创 2019-04-28 17:01:12 · 2508 阅读 · 0 评论 -
Spark2.X集群运行模式
1.几种运行模式介绍Spark几种运行模式:1)Local2)Standalone(Spark自己的集群管理)3)Yarn4)Mesos(Spark初期支持)下载IDEA并安装,可以百度一下免费文档。2.spark Standalone模式配置并测试1)jdk1.8已经安装2)scala2.11.8已经安装3)Hadoop2.6.0已经安装4)Sp...原创 2019-04-18 17:30:26 · 313 阅读 · 0 评论 -
基于IDEA环境下的Spark2.X程序开发
1.Windows开发环境配置与安装下载IDEA并安装,可以百度一下免费文档。2.IDEA Maven工程创建与配置1)配置maven2)新建Project项目3)选择maven骨架4)创建项目名称5)选择maven地址6)生成maven项目7)选择scala版本选中项目按“F4”键...原创 2019-04-17 18:51:01 · 331 阅读 · 2 评论 -
Spark2.X环境准备、编译部署及运行
1.Spark概述Spark 是一个用于大规模数据处理的快速和通用的计算引擎。在速度方面, Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作, 否则我们每次操作就需要等待数分钟甚至数小时。Spark 的一个主要特点是基于内存进行计算...原创 2019-04-17 10:40:09 · 612 阅读 · 0 评论 -
Hive与HBase集成进行数据分析
(一)Hive 概述(二)Hive在Hadoop生态圈中的位置(三)Hive 架构设计(四)Hive 的优点及应用场景(五)Hive 的下载和安装部署1.Hive 下载Apache版本的Hive。Cloudera版本的Hive。这里选择下载Apache稳定版本apache-hive-0.13.1-bin.tar.gz,并上传至bigdata-pr...原创 2019-04-13 16:15:39 · 4191 阅读 · 0 评论 -
Cloudera HUE大数据可视化分析
1.Hue 概述及版本下载1)概述Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。2)...原创 2019-04-15 17:25:51 · 1434 阅读 · 0 评论 -
Spark新闻项目数据采集/存储/分发完整流程测试
(一)idea工具开发数据生成模拟程序 1.在idea开发工具中构建weblogs项目(Java项目),然后设置sources目录。 在java目录下新建ReadWrite类package main.java;import java.io.*;public class ReadWrite { static String readFileNam...原创 2019-06-24 10:44:03 · 558 阅读 · 0 评论 -
Flume+HBase+Kafka集成与开发
今天的内容是完成Flume+HBase+Kafka的集成开发。如下图红框中所示,节点1的Flume的source有两个:节点2和节点3的sink输出。节点1接收后进行预处理然后分别以AsyncHBaseSink(HBaseSink)和Kafka Sink的方式推送给HBase和Kafka进行离线数据处理和实时数据处理。1.下载Flume源码并导入Idea开发工具 1...原创 2019-06-24 10:43:53 · 505 阅读 · 3 评论 -
Kafka分布式集群部署
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。1.下载Kafka并安装kafka是一个消息系统。 kafka对流数据可以高效的实时处理。 分布式集群的环境下能够保证数据的安全。 ...原创 2018-10-24 15:17:43 · 418 阅读 · 0 评论 -
HBase分布式集群部署与设计
HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统;Google 运行MapReduce 来处理Bigtable中...原创 2018-10-23 16:02:56 · 540 阅读 · 0 评论 -
Flume数据采集准备
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。1.flume节点服务设计2.下载Flume并安装 1)下载Apache版本的Flume。 2)下载Cloud...原创 2019-06-24 10:43:38 · 420 阅读 · 1 评论 -
Hadoop2.X HA架构与部署
HDFS-HA原理及配置 1.HDFS-HA架构原理介绍 hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下: 基本原理就是用2N+1台 JN 存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该...原创 2018-10-22 17:25:13 · 377 阅读 · 0 评论 -
Zookeeper分布式集群部署
ZooKeeper 是一个针对大型分布式系统的可靠协调系统;它提供的功能包括:配置维护、名字服务、分布式同步、组服务等; 它的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户; ZooKeeper 已经成为 Hadoop 生态系统中的基础组件。Zookeeper可以选择Apache版本,也可以选择Cloudera版本。下载Apache版本的Zookee...原创 2018-10-17 10:37:26 · 2961 阅读 · 0 评论 -
Hadoop2.X分布式集群部署
本博文集群搭建没有实现Hadoop HA,详细文档在后续给出,本次只是先给出大概逻辑思路。(一)hadoop2.x版本下载及安装Hadoop 版本选择目前主要基于三个厂商(国外)如下所示:基于Apache厂商的最原始的hadoop版本, 所有发行版均基于这个版本进行改进。基于HortonWorks厂商的开源免费的hdp版本。基于Cloudera厂商的cdh版本,Cloudera有免费版和...原创 2018-10-16 21:12:52 · 802 阅读 · 0 评论 -
Spark-Streaming实时数据分析
1.Spark Streaming功能介绍1)定义Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams2.NC服务安装并运行Spark ...原创 2019-04-30 15:26:27 · 2605 阅读 · 1 评论