
BigData学习与实战
文章平均质量分 64
分享大数据学习过程中的经验与教训
镰刀韭菜
视野,意志,品格;目标,坚持,实践
展开
-
【大数据】大数据之技术体系概览
大数据技术支撑体系概览参考资料概览一个完整的大数据系统总是由基础技术、数据采集、数据传输、数据组织集成、数据应用以及数据治理六个部分构成的。总体上,大数据系统的底层首先是大数据采集,其来源具有多样性;接着通过数据接口(如数据导入器、数据过滤、数据清洗、数据转换等)将数据存储于大数据分布式存储系统中,在数据存储的基础上,进一步实现数据分析(处理与服务),最终是大数据应用。大数据知识体系如下:参考资料https://developer.aliyun.com/article/764737.原创 2021-10-30 20:00:55 · 912 阅读 · 0 评论 -
【大数据】大数据学习填坑之路
大数据学习填坑之路1. 20/09/11 22:18:26 ERROR boot.SpringApplication: Application startup failed问题log分析:2. 20/09/11 22:30:47 ERROR pool.DruidDataSource: testWhileIdle is true, validationQuery not set问题log分析:1. 20/09/11 22:18:26 ERROR boot.SpringApplication: Applica原创 2020-09-11 23:38:28 · 273 阅读 · 0 评论 -
小象学院源码共读之Executor解析
Executor解析Executor解析Executor类的初始化线程池threadPool及taskReaperPool详解子类TaskRunner详解子类TaskReaper详解参考内容:Executor解析Executor是Spark分布式运行的承载,其会分布在不同的Worker节点上的线程池中运行。本文尝试通过剖析Executor的源码Executor.scala,以分析实现的细节,帮...原创 2019-12-23 22:39:14 · 538 阅读 · 0 评论 -
【Spark】Spark2.X—Deploy模块解析
Spark2.X—Deploy模块解析模块整体架构Deploy模块是Spark standalone的分布式框架,其采用了master/slave架构,主要包括以下几个进程。Master:1)接受worker注册并管理所有的worker,并命令Worker启动Driver和Executor2)接受client提交的Application,并将Application提交给worker.W...原创 2019-11-27 23:13:12 · 327 阅读 · 0 评论 -
【Hadoop】Hadoop认证代码分析
Hadoop认证代码分析Hadoop作为分布式系统,服务分布于多台服务器之间,提供多用户的访问机制,却有着极其简单的认证实现逻辑。JAAS(Java Authentication Authorization Service)完整的提供了一个认证鉴权的框架,在Hadoop这个看似庞大的架构当中,借助这一体系,在一个单独的Java类中,实现了认证的绝大部分逻辑。本文主要讲述Hadoop中的认证实...原创 2019-11-26 00:15:10 · 1202 阅读 · 0 评论 -
【Hadoop】NameNode结构与功能
NameNode结构与功能NameNode结构与功能NameNode总体架构FSDirectory数据结构如何添加文件FSNamesystemFSNamesystem如何处理dn发送的心跳汇报?NameNode结构与功能NameNode部分,主要分为以下几个方面:NameNode总体架构NameNode作为hdfs的master节点,负责管理这个整个集群元数据和集群管理功能,NameNod...原创 2019-11-25 23:37:04 · 1715 阅读 · 0 评论 -
【Apache Kylin】Cube优化
Cube优化Apache Kylin的核心思想是根据用户的数据模型和查询样式对数据进行预计算,并在查询时直接利用预计算结果返回查询结果。Kylin具有响应时间快、查询时资源需求小,吞吐量大等的特点。在构建Cube之前,Cube的优化手段提供了更多与数据模型或查询样式相关的信息,用于指导构建出体积更小、查询速度更快的Cube。1.Cuboid剪枝优化在没有采取任何措施的情况下,Kyl...原创 2019-06-19 23:22:39 · 439 阅读 · 0 评论 -
【大数据】大数据开发工程师微专业直播课学习笔记(1)
什么是数据仓库数据仓库是为企业的决策提供数据支持的战略集合。一个面向主题的(Subject Oriented) 集成的(Integrated) 相对稳定的(Non-Volatile) 反应历史变化(Time Variant)传统数据仓库发展历史Inmon数据仓库 Inmon数据仓库是采用自上而下的方法,它将数据仓库定义为整个企业级的集中存储库。数据仓库存放着最低的详细级别的原...原创 2018-10-11 22:47:23 · 600 阅读 · 0 评论 -
【Hadoop】WordCount案例详解
WordCount案例详解需求:文件中存储的各种各样的单词,统计在这些文件中每个单词的出现次数WordCount Map阶段原理:针对每行数据应用map方法,按照分隔符拆分;Map阶段输出单词作为key,1作为value。WordCount Reduce阶段原理:从Map阶段拷贝对应的输出结果,统计每个单词出现的总词数代码import org.apache...原创 2018-08-06 14:55:13 · 907 阅读 · 1 评论 -
【Spark】Spark安装和使用
Spark安装和使用原文地址:厦门大学数据库实验室,作者:林子雨Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用,这样,就可以让Spark使用HDFS存取数据。需要说明的是,当安装好Spark以后,里面就自带了scala环境,不需要额外安装scala,因此,“Spark安装”这个部分的教程,假设读者的计算机上,没有安装Scala,也...转载 2018-08-06 11:07:52 · 2478 阅读 · 0 评论 -
【Hadoop】使用Eclipse编译运行MapReduce程序_Hadoop2.6.0_Ubuntu/CentOS
使用Eclipse编译运行MapReduce程序_Hadoop2.6.0_Ubuntu/CentOS参考:厦门大学数据库实验室环境本教程在 Hadoop 2.6.0 下验证通过,适用于 Ubuntu/CentOS 系统,理论上可用于任何原生 Hadoop 2 版本,如 Hadoop 2.4.1,Hadoop 2.7.1。本教程主要测试环境:Ubuntu 14.04 Hadoo...转载 2018-08-06 10:56:41 · 611 阅读 · 2 评论 -
【Hadoop】Hadoop安装教程(单机/伪分布式)与配置_Hadoop2.6.0/Ubuntu14.04
Hadoop安装教程(单机/伪分布式)与配置_Hadoop2.6.0/Ubuntu14.04参考:厦门大学数据库实验室环境本教程使用 Ubuntu 14.04 64位 作为系统环境(Ubuntu 12.04,Ubuntu16.04 也行,32位、64位均可),请自行安装系统(可参考使用VirtualBox安装Ubuntu)。如果用的是 CentOS/RedHat 系统,请查看相应的...转载 2018-08-06 10:33:27 · 734 阅读 · 0 评论 -
【Apache Kylin】查询和可视化
查询和可视化1.通过Web GUI查询、显示结果2.通过Rest APIKylin查询请求对应的URL为http://<hostname>:<port>/kylin/api/query,HTTP的请求方式为POST。Kylin所有的API都是基于Basic Authentication认证机制的。Basic Authentication认证机制是一种非常简单的访...原创 2019-06-19 23:39:12 · 766 阅读 · 0 评论 -
【Apache Kylin】流式构建
流式构建1.为什么要流式构建实时数据更新是一种普遍的需求,快速分析变化趋势才能做出正确的决策。2.准备流式数据2.1数据格式Kylin假设在流式构建中,数据是以数据流的形式传递给流式构建引擎的。消息流中的每条消息需要包含的信息有:所有的维度信息,所有的度量信息,业务时间戳。2.2消息队列Kafka因具有高可用性和可扩展性,被广泛地选择为实时消息队列。Kafka提供了两套...原创 2019-06-20 00:12:01 · 544 阅读 · 0 评论 -
【Apache Kylin】增量构建
增量构建将Cube划分为多个Segment,每个Segment用起始时间和结束时间来标志。Segment代表了一段时间内源数据的预计算结果。1.为什么要增量构建对于大数据量的Cube,减少重复计算。2.设计增量Cube2.1设计增量Cube的前提Cube的定义必须包含一个时间维度,用来分割不同的Segment,称这样的维度为分割时间列(Partition Date Colu...原创 2019-06-20 00:28:54 · 796 阅读 · 0 评论 -
【大数据】Flink SQL功能——流式 TopN 挑战与实现
Flink SQL 功能——流式 TopN 挑战与实现原文链接:https://mp.weixin.qq.com/s/qRPquDgb2M8xptZWapajDgTopN 是统计报表和大屏非常常见的功能,主要用来实时计算排行榜。流式的 TopN 不同于批处理的 TopN,它的特点是持续的在内存中按照某个统计指标(如出现次数)计算 TopN 排行榜,然后当排行榜发生变化时,发出更新后的排行榜...转载 2019-07-30 23:57:53 · 4213 阅读 · 0 评论 -
【大数据】Hadoop问题精华:Hadoop框架最核心的设计
Hadoop框架最核心的设计(常见问题)Q:Hadoop是什么?A:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Q:Hadoop框架最核心的设计是?A:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Q:H...原创 2019-08-01 12:53:35 · 971 阅读 · 0 评论 -
【大数据】Spark面试100问
Spark问题精华Q:什么是Spark?A:简单理解,Spark是在Hadoop基础上的改进,是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HD...原创 2019-08-05 00:53:51 · 966 阅读 · 0 评论 -
【大数据】Hadoop问题精华:如何设置单个任务占用的内存量和CPU数目?
如何设置单个任务占用的内存量和CPU数目?Q:默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑,有的没有任务,怎样让各个节点任务数目尽可能均衡呢?A:默认情况下,资源调度器处于批调度模式下,即一个心跳会尽可能多的分配任务,这样,优先发送心跳过来的节点将会把任务领光(前提:任务数目远小于集群可以同时运行的任务数量),为了避免该情况发生,可以按照以下说明配置参数:如...原创 2019-08-01 13:27:06 · 898 阅读 · 0 评论 -
【大数据】Storm问答精华
Storm问答精华Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统等, 大数据实时处理解决方案的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是流计算技术中的佼佼者和主流。Q:Storm原理及核心概念A:分布式的实时计算系...原创 2019-08-01 14:01:08 · 312 阅读 · 0 评论 -
10天Hadoop快速突击(2)——Hadoop的安装与配置
Hadoop的安装与配置在Linux上安装与配置Hadoop Hadoop的下载地址为http://hadoop.apache.org/releases.html 在安装之前,需要先安装两个程序: 1)JDK。Hadoop是用Java编写的程序,Hadoop的编译及MapReduce的运行都需要使用JDK。 2)SSH,推荐安装openssh。Hadoop需要通过SSH来启...原创 2018-05-24 14:54:53 · 473 阅读 · 0 评论 -
【Hadoop】YARN概述
YARN概述YARN的产生背景与简介YARN基本架构原创 2018-08-06 10:08:55 · 337 阅读 · 0 评论 -
【Hadoop】HDFS文件读取流程与副本放置策略
HDFS文件读取流程与副本放置策略文件读取流程图副本放置策略(物理拓扑图)BLOCK副本放置策略题目:Hadoop默认的副本放置策略有哪些?A. 第一个副本放在与客户端同一个节点上,如果客户端不在集群中,那么就会随机选一个节点存储 B. 第二个副本放在与第一个副本不同的机架上 C. 第三个副本放在与第二个副本相同的机架上的不同节点 D. 三...原创 2018-08-06 10:00:15 · 1483 阅读 · 0 评论 -
【Hadoop】HDFS文件写入流程详解
HDFS文件写入流程详解HDFS文件写入流程 题目:Client 端上传文件的时候下列哪项正确?A. 数据经过 NameNode 传递给 DataNode B. Client 端将文件切分为 Block,依次上传 C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作 D. 客户端直接与DataNo...原创 2018-08-06 09:48:45 · 2834 阅读 · 0 评论 -
10天Hadoop快速突击(4)——MapReduce应用案例
开发MapReduce应用程序一、单词计数1.实例描述 计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行,单词和频数之间有间隔。 比如,输出一个文本文件,内容如下: hello world hello hadoop hello mapreduce 对应上面给出的输入样例,其输出样例为: hadoop ...原创 2018-06-16 18:35:50 · 772 阅读 · 0 评论 -
基于Ubuntu Server16.04的Hadoop伪分布式及Spark的安装与配置
基于Ubuntu Server16.04的Hadoop伪分布式及Spark的安装与配置一、配置JDK环境下载jdk安装包jdk-8u172-linux-x64.tar.gz解压安装包,并将其放在指定位置ubuntu@VM-54-14-ubuntu:~/downloads$ tar -zxvf jdk-8u172-linux-x64.tar.gzubuntu@VM-54-14-ubuntu:~/do...原创 2018-06-07 01:04:02 · 1452 阅读 · 0 评论 -
Spark学习(2)——设计机器学习系统
补充内容:Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。默认情况下,一个block最大为128M。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个...原创 2018-05-24 20:22:26 · 384 阅读 · 0 评论 -
10天Hadoop快速突击(2)——MapReduce计算模型详解
MapReduce计算模型详解为什么要用MapReduce? 非常简单、易于实现且扩展性强。MapReduce适合处理海量数据,它会被多台主机同时处理,通常会有较快的速度。MapReduce计算模型 要了解MapReduce,首先需要了解MapReduce的载体是什么。在Hadoop中,用于执行MapReduce任务的机器有两个角色:一个是JobTracker,另一个是...原创 2018-05-24 16:34:51 · 550 阅读 · 0 评论 -
10天Hadoop快速突击(1)——Hadoop基础知识
Hadoop简介1.什么是Hadoop Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构,形成分布式系统;MapReduce分布式编程模型允...原创 2018-05-15 22:50:31 · 746 阅读 · 0 评论 -
Spark安装部署及相关文件说明
Spark安装包: 类别: 与Hadoop打包在一起的安装包,如spark-2.3.0-bin-hadoop2.7.tgz,spark版本为2.3.0,与hadoop2.7集成在 独立安装包:spark-2.3.0-bin-without-hadoop.tgz 下载地址:http://spark.apache.org/downloads.html Sp...原创 2018-05-20 21:48:46 · 1315 阅读 · 0 评论 -
Spark学习(1)——概述
Spark特点: 高效(比MapReduce快10~100倍) 内存计算引擎,提供Cache机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的IO开销 DAG引擎,减少多次计算之间中间结果写到HDFS的开销 使用多线程池模型来减少task启动开销,shuffle过程中避免不必要的sort操作以及减少磁盘IO操作 易用 提供...原创 2018-05-20 20:07:27 · 493 阅读 · 0 评论 -
使用Docker在本地搭建Hadoop分布式集群
使用Docker在本地搭建Hadoop分布式集群原文地址:http://www.cnblogs.com/felixzh/p/4992178.html学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法:要么找多台机器来部署(常常找不到机器)或者在本地开多个虚拟机(开销很大,对宿主机器性能要求高,光是安装多个虚拟机系统就得搞半天……)。那么,问题来了!有没有更有可行性...转载 2018-05-20 12:40:28 · 288 阅读 · 0 评论 -
10天Hadoop快速突击(3)——开发MapReduce应用程序
开发MapReduce应用程序一、系统参数的配置1.通过API对相关组件的参数进行配置这些API被分成了一下几个部分:org.apache.hadoop.conf:定义了系统参数的配置文件处理APIorg.apache.hadoop.fs:定义了抽象的文件系统APIorg.apache.hadoop.dfs:Hadoop分布式文件系统(HDFS)模块的实现org.apache.hadoop.map...原创 2018-06-10 12:07:49 · 2137 阅读 · 0 评论 -
10天Hadoop快速突击(4)——MapReduce工作机制
MapReduce工作机制一、MapReduce作业的执行流程1.MapReduce任务执行总流程一个MapReduce作业的执行流程是:代码编写->作业配置->作业提交->Map任务的分配和执行->处理中间结果->Reduce任务的分配和执行->作业完成,而在每个任务的执行过程中,又包含输入准备->任务执行->输出结果。具体MapReduce作业详...原创 2018-06-18 19:44:23 · 681 阅读 · 0 评论 -
详细探究Spark的shuffle实现
详细探究Spark的shuffle实现Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什...转载 2018-06-26 14:25:44 · 247 阅读 · 0 评论 -
大数据分析与处理方法介绍
大数据分析的五个基本方面1、可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。2、数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特...转载 2018-07-30 22:30:05 · 1419 阅读 · 0 评论 -
10天Hadoop快速突击(5)——HDFS详解
HDFS详解摘要HDFS体系结构中有两类节点,一类是NameNode,又叫"元数据节点";另一类是DataNode,又叫"数据节点"。这两类节点分别承担Master和Worker具体任务的执行节点。HDFS体系结构中有两类节点,一类是NameNode,又叫"元数据节点";另一类是DataNode,又叫"数据节点"。这两类节点分别承担Master和Worker具体任务的执行节点。 1)元数据节点用...转载 2018-07-16 12:48:08 · 584 阅读 · 0 评论 -
下一代MapReduce:YARN
下一代MapReduce:YARNApache Hadoop 是最流行的大数据处理工具之一。它多年来被许多公司成功部署在生产中。尽管 Hadoop 被视为可靠的、可扩展的、富有成本效益的解决方案,但大型开发人员社区仍在不断改进它。最终,2.0 版提供了多项革命性功能,其中包括 Yet Another Resource Negotiator (YARN)、HDFS Federation 和一个高度可...转载 2018-07-16 11:27:30 · 362 阅读 · 0 评论 -
Hadoop I/O操作原理整理
Hadoop I/O操作原理整理I/O操作中的数据检查 校验和方式是检查数据完整性的重要方式。一般会通过对比新旧校验和来确定数据情况,如果两者不同则说明数据已经损坏。比如,在传输数据前生成了一个校验和,将数据传输到目的主机时再次计算校验和,如果两次的校验结果不同,则说明数据已经损坏。因为Hadoop采用HDFS作为默认的文件系统,因此具有两方面的数据完整性。1、本地文件I/O的检查 本地文件...转载 2018-07-16 11:11:58 · 499 阅读 · 0 评论 -
10天Hadoop快速突击(5)——Hadoop I/O操作
Hadoop IO操作意义Hadoop自带一套用于I/O的原子性的操作(不会被线程调度机制打断,一直到结束,中间不会有任何context switch)特点基于保障海量数据集的完整性和压缩性 Hadoop提供了一些用于开发分布式系统的API(一些序列化操作+基于磁盘的底层数据结构)一、数据完整性hdfs写入的时候计算出校验和,然后每次读的时候再计算校验和。要注意的一点是,hdfs每固定长度就会计算...转载 2018-07-16 11:07:57 · 780 阅读 · 0 评论