
Hadoop + Spark
文章平均质量分 93
Spark
Freedom3568
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop 集群部署
Hadoop各个功能模块的理解零. 概述 HDFS模块 HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,HDFS是个相对独立的模块,可以为YARN提供服务,也可以为HBase等其他模块提供服务。 YARN模块 YARN是一个通用的资源协同和任务调度框架,是为了解决Hadoop1.x中M...原创 2019-12-24 00:17:45 · 233 阅读 · 0 评论 -
Sqoop 整体介绍
Sqoop 数据迁移 Sqoop 底层还是运行在MapReduce上,通过Yarn进行调度的,只是Sqoop在做数据迁移过程中,只用到了MapTask,没有用到ReduceTask。 Sqoop 是一个数据迁移工具,可以理解为客户端程序,提供HDFS/Hive/HBase 到 RDS(Oracle,Postgrel,MySql等) 数据的导入导出 S...原创 2019-12-01 16:58:14 · 255 阅读 · 0 评论 -
集群管理Kubernetes 的应用
集群管理Kubernetes 的应用原创 2019-01-21 19:21:57 · 234 阅读 · 0 评论 -
ZooKeeper 整体介绍
1. 保存客户端临时数据 2. 数据变更时通知客户端进行操作 服务的动态配置及服务变更时进行回调 配置: 1. 配置集群列表 2. 配置myid中的id 配置KV时,K为目录,V可为任何数据(V数据大小不超过2M) 比...原创 2019-11-28 12:18:47 · 196 阅读 · 0 评论 -
MapReduce整体介绍
MapReduce框架(Map/Reduce) MapTask/ReduceTask 数据分发机制 MapTask接口实现类 : 对一行数据进行处理,map方法 ReduceTask接口实现类:对一组数据进行处理,reduce方法 MapReduce工作机制 划分输入切片: 数据切片 job.s...原创 2019-11-28 12:19:43 · 223 阅读 · 0 评论 -
Hadoop 集群搭建(转载)
分布式环境搭建之环境介绍之前我们已经介绍了如何在单机上搭建伪分布式的Hadoop环境,而在实际情况中,肯定都是多机器多节点的分布式集群环境,所以本文将简单介绍一下如何在多台机器上搭建Hadoop的分布式环境。我这里准备了三台机器,IP地址如下:192.168.77.128 192.168.77.130 192.168.77.134首先在这三台机器上编辑/etc/hosts配置文件...转载 2019-12-24 00:18:53 · 151 阅读 · 0 评论 -
HBase 整体介绍
HBase: NoSQL数据库,基于HDFS的分布式数据库,理论上支持无限横向扩展, HBase由HMaster与RegionServer组成,HMaster负责协调调度RegionServer进行数据处理,RegionServer负责数据的增删改查操作,RegionServer由多台分布在DataNode的组成,可以有多个。由HMaster负责RegionServer的调度情况,...原创 2019-11-28 12:17:00 · 311 阅读 · 0 评论 -
Flume 整体介绍
Flume 数据采集 概述: Flume 是一个数据采集工具,主要可以理解为对日志数据或者其他数据的采集。可以对例如日志数据进行采集传输到我们想要传输的地方,比如从本地文件系统采集数据到HDFS的HIVE目录下获取HDFS的其他目录,提供HIVE进行数据分析。 Flume运行方式为Agent Flume,如果...原创 2019-11-29 10:09:25 · 203 阅读 · 0 评论 -
大型网站应用之海量数据和高并发解决方案总结
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/u010870518/article/details/53230138 </div> <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/templat...转载 2019-04-24 10:57:54 · 596 阅读 · 0 评论 -
PostGIs在大数据场景下上传及下载的优化
PostGIs在大数据场景下上传及下载的优化原创 2019-01-29 08:36:34 · 812 阅读 · 0 评论 -
Hive 整体介绍
Hive可以管理HDFS中的数据,可以通过SQL语句可以实现与MapReduce类似的同能,因为Hive底层的实现就是通过调度MapReduce来实现的,只是进行了包装,对用户不可见。 Hive对HDFS的支持只是在HDFS中创建了几层目录,正真的数据存在在MySql中,MYSQL中保存了Hive的表定义,用户不必关系MySQL中的定义,该层对用户不可见。Hive中的库在HDFS中...原创 2019-11-28 12:17:53 · 203 阅读 · 0 评论 -
Hadoop 集群搭建(转载)
一、介绍Hadoop2.0中,2个NameNode的数据其实是实时共享的。新HDFS采用了一种共享机制,Quorum Journal Node(JournalNode)集群或者Nnetwork File System(NFS)进行共享。NFS是操作系统层面的,JournalNode是hadoop层面的,我们这里使用JournalNode集群进行数据共享(这也是主流的做法)。如下图所示,...转载 2019-12-24 00:21:08 · 199 阅读 · 0 评论 -
通过Docker 安装 cloudera manager 平台
下载镜像docker pull cloudera/quickstart// 或者在 cloudera 官网下载文件后使用 `docker import` 命令导入// https://downloads.cloudera.com/demo_vm/docker/cloudera-quickstart-vm-5.13.0-0-beta-docker.tar.gz添加 hostsq...转载 2020-02-05 09:45:28 · 2560 阅读 · 0 评论 -
集群管理Mesos 的应用
集群管理Mesos 的应用原创 2019-01-21 19:21:06 · 348 阅读 · 0 评论 -
Hadoop整体介绍
##文件目录: bin/sbin:集群工具 etc:配置文件 include/lib/libexec: windows c++依赖库及工具 share:hadoop所有jar包及文档 ## HDFS HDFS 框架:NameNode,DataNode,SecondNameNode,...原创 2019-11-28 12:20:50 · 185 阅读 · 0 评论 -
大数据:DataBand数据帮框架简介及说明
DataBand(数据帮),快速采集清洗,数据分析,预测分析,人工智能赋能服务,是一站式的大数据平台。我们致力于通过提供智能应用程序、数据分析和咨询服务来提供最优解决方案● App.java:简单的mock控制台程序,用于实现实时动态mock,而不是传统使用静态mock,每次都要手动配置json,还要重新启动服务。● 工程源码● 一个服务器端mock的详细介绍,可以入门mock知识,https://www.cnblogs.com/starcrm/p/13745581.html。原创 2023-02-09 18:18:35 · 1268 阅读 · 0 评论 -
实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作
本文转载自公众号: eBay技术荟作者 | 金澜涛原文链接:https://mp.weixin.qq.com/s/L64xhtKztwWhlBQrreiDfQ摘要大数据处理技术朝传统数据库领域靠拢已经成为行业趋势,目前开源的大数据处理引擎,如Apache Spark、Apache Hadoop、Apache Flink等等都已经支持SQL接口,且SQL的使用往往占据主导地位。各个公司使用以上开源软件构建自己的ETL框架和OLAP技术,但在OLTP技术上,仍然是传统数据库的强项。其中的一个主要原因是传.原创 2022-02-22 10:47:04 · 276 阅读 · 0 评论 -
Spark Core 整体介绍
一. 简介二. 核心概念1. num-executor优化–num-executors: 执行器个数,执行器数可以为节点个数,也可以为总核数(单节点核数*节点数),也可以是介于俩者之间(用于调优)–executor-cores: 执行器核数, 核数可以1,也可以为单节点的内核书,也可以是介于俩者之间(用于调优)–executor-memory: 执行器内存, 可以为最小内存数(单节点内存总数/单节点核数),也可以为最大内存数(单节点内存总数),也可以是介于俩者之间(用于调优)使用较小的exe原创 2021-04-13 16:06:41 · 1389 阅读 · 0 评论 -
Spark SQL 整体介绍
一. 简介二. 架构1. 核心sparksessionrdd sparkcontextsparksql sqlcontentdstream streammingcontexthivesql hivecontextsparksql->Catalysthive->Calcite2. 关系数据库中sql执行流程那么在关系数据库中,当我们写完一个查询语句进行执行时,发生的过程如下:整个执行流程是:query -> Parse -> Bind -> O原创 2021-04-09 17:31:11 · 468 阅读 · 0 评论 -
MRS
MapReduce服务(MapReduce Service)提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以...原创 2019-12-30 17:55:28 · 3879 阅读 · 0 评论 -
CS
实时流计算服务(Cloud Stream Service,简称CS),是运行在公有云上的实时流式大数据分析服务,全托管的方式用户无需感知计算集群,只需聚焦于Stream SQL业务,即时执行作业,完全兼容Apache Flink(1.5.3版本)API和Apache Spark(2.2.1版本)API。实时流计算框架产品优势:1. 简单易用 在线SQL编辑平台编写Stream...原创 2019-12-30 17:55:44 · 527 阅读 · 1 评论 -
Spark 单机版伪分布式 CentOS
如果机器资源有限,可以使用单机伪分布式本次部署是在centos 7.1上部署的,ip地址是192.168.1.91,主机名称是hadoop03,已经做好了ssh免登录。Spark各依赖组件的版本分别如下:JDK 1.8.0_71 Scala 2.11.8 Hadoop 2.6.0一、scala下载安装1、下载https://www.scala-lang.org/download...转载 2019-12-24 12:03:13 · 371 阅读 · 0 评论 -
Spark 单机部署
0. spark 下载解压wget http://mirrors.cnnic.cn/apache/spark/spark-2.0.1/spark-2.0.1-bin-hadoop2.6.tgztar -zxvf spark-2.0.1-bin-hadoop2.6.tgz1. scala配置 https://www.scala-lang.org/download/2.11.8.h...原创 2019-12-24 12:01:19 · 419 阅读 · 0 评论 -
spark 集群搭建
一. 集群规划 node01为master节点,node02,node03为worker节点 192.168.24.102 node01 192.168.24.103 node02 192.168.24.104 node03二. 基础配置三. 集群配置以下操作以node01为操作节点1. 下载解压(或者提前下载好,上传到node01节点)...原创 2019-12-24 10:45:05 · 304 阅读 · 0 评论 -
spark 集群搭建(转载)
Spark集群一、Spark集群的四种运行模式二、基于Standalone的Spark集群搭建三、Standalone基于zookeeper的高可用Spark集群搭建1、Spark HA主备切换的过程2、搭建Spark HA3、测试Spark HA:一、Spark集群的四种运行模式1、Local单机运行,一般用于开发测试。2、YarnSpark客户端直接连接Yarn,不需要额...转载 2019-12-24 10:44:15 · 319 阅读 · 0 评论 -
Kafka 集群部署
Kafka 集群部署之前需要部署Zookeeper集群,关于Zookeeper集群的部署前面已经介绍过并且写了博客,需要了解的出门左拐就能看到 上篇文件介绍了Kafka的单机部署,讲了Kafka 集成Zookeeper部署及Zookeeper + Kafka 部署,还讲了Kafka的基本命令,本章节我们将一下 Kafka的集群部署。1. 集群规划 主机规划: ...原创 2019-12-23 12:14:42 · 230 阅读 · 0 评论 -
Kafka 单机部署
Kafka 单机部署区分集成Zookeeper 部署和Zookeeper + Kafka 部署俩总方式,如果是单机部署Kafka,集成Zookeeper 最简单,也可以选择Zookeeper + Kafka 这种模式,但是如果为Kafka集群的话,则必须需要部署 Zookeeper 集群。一. 获取解压 1. 下载 wget http://mirror.bit.ed...原创 2019-12-23 12:09:13 · 420 阅读 · 0 评论 -
zookeeper 单机部署
1、下载zookeeper下载地址:http://archive.apache.org/dist/zookeeper/或wget http://archive.apache.org/dist/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz2、解压安装包tar -zxvf zookeeper-3.4.6.tar.gz3、在 z...转载 2019-12-23 00:07:39 · 258 阅读 · 0 评论 -
Zookeeper 集群部署
ZooKeeper是一个开源的分布式应用程序协调服务,是Google的Chubby一个开源的实现。ZooKeeper为分布式应用提供一致性服务,提供的功能包括:分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)、分布式锁(Distributed Lock)等,简化分布式应用协调及其管理的难度...原创 2019-12-23 00:02:45 · 200 阅读 · 0 评论 -
SparkStreaming教程
概要Spark流是对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理。数据可以由多个源取得,例如:Kafka,Flume,Twitter,ZeroMQ,Kinesis或者TCP接口,同时可以使用由如map,reduce,join和window这样的高层接口描述的复杂算法进行处理。最终,处理过的数据可以被推送到文件系统,数据库和HDFS。imag...转载 2019-12-22 23:02:38 · 287 阅读 · 0 评论 -
Spark Streaming入门
概述Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐,实时网站性能分析等,流式计算可以解决这些问题,spark Streaming就是现在常用的流式计算框架。作为spark的五大核心组件之一,spark Streaming原生地支持多种数据源的接入,而且可以与Spark MLLib、Graphx结合起来使用,具有高吞吐量,容...转载 2019-12-22 23:01:29 · 240 阅读 · 0 评论 -
Spark Streaming 整体介绍
1. 概要 Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐,实时网站性能分析等,流式计算可以解决这些问题,spark Streaming就是现在常用的流式计算框架。作为spark的五大核心组件之一,spark Streaming原生地支持多种数据源的接入,而且可以与Spark MLLib、Graphx结合起来使用,具有...原创 2019-12-22 21:10:16 · 731 阅读 · 0 评论 -
Hive,Hive on Spark和SparkSQL区别
ive on MapreduceHive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结Hive on Mapreduce执行流程执行流程详细解析Step 1:UI(user interface) 调用 executeQuery ...转载 2019-12-22 19:23:43 · 403 阅读 · 0 评论 -
从Hive到Spark
Hive概述Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行。Hive产生背景 MapReduce编程带来的不便性 MapReduce编程十分繁琐,在大多情况下,每个MapReduce程序需要包含Mapper、Reduceer和一个Drive...转载 2019-12-22 19:15:14 · 717 阅读 · 0 评论 -
spark sql之RDD转换DataSet
简介 Spark SQL提供了两种方式用于将RDD转换为Dataset。使用反射机制推断RDD的数据结构 当spark应用可以推断RDD数据结构时,可使用这种方式。这种基于反射的方法可以使代码更简洁有效。通过编程接口构造一个数据结构,然后映射到RDD上 当spark应用无法推断RDD数据结构时,可使用这种方式。反射方式scala// For implicit co...转载 2019-12-22 19:04:38 · 549 阅读 · 0 评论 -
SparkSql的架构和DataSet
先来说下SparkSql中的DataSet。可能写的不大好,希望对你有帮助。一、SparkSQLSparkSQL完全脱离了Hive的限制。 SparkSQL支持查询原生的RDD。能够在scala中写SQL语句。支持简单的SQL语法检查,能够在Scala中写Hive语句访问Hive数据,并将结果取回作为RDD使用。满足Spark的一栈式解决大数据处理的需求。二、SparkSql底层架...转载 2019-12-22 19:02:28 · 324 阅读 · 0 评论 -
Spark Sql 详细介绍
0. SparkSQL SparkSQL完全脱离了Hive的限制。 SparkSQL支持查询原生的RDD。1. DataSet DataSet是分布式的数据集合。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建,可以用函数式的转换(map...原创 2019-12-22 18:48:07 · 359 阅读 · 0 评论 -
Kafka 整体介绍
简述: Kafka是一个消息中间件,一个分布式的流平台, 是Spark生态中重要的组件,支持分布式,高可用,高吞吐,多副本 是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统 Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。能力: 1. 发布和订阅流数据,类似消息队...原创 2019-12-22 10:58:53 · 371 阅读 · 0 评论 -
CM+CDH Hadoop 集群部署
1. 集群规划 1.1 机器准备:hostname 内网IP 功能 内存 核数 磁盘cm.cdh.com 192.168.32.180 CM和CDH安装 16G 4 200Gmaster.cdh.com 192.168.32.181 Master节点 ...原创 2019-12-22 00:58:43 · 718 阅读 · 0 评论 -
CM+CDH5.16.1 平台搭建(二)
接着上一篇继续安装CDH环境三、安装CM和CDH3.1 CDH下载以CentOS7.5和CDH5.16.1举例3.1.1 cm的tar包下载下载地址:http://archive.cloudera.com/cm5/repo-as-tarball/5.16.1/cdh1.png请选择需要的版本。3.1.2 parcels包下载下载地址:http://archi...转载 2019-12-21 12:01:28 · 649 阅读 · 0 评论