
大数据
文章平均质量分 76
樱花树下的猫老师
好好工作,天天向上…
展开
-
Spark任务调度机制论述(转载)
Spark任务调度机制论述在生产环境下,Spark集群的部署方式一般为YARN-Cluster模式。 Driver线程主要是初始化SparkContext对象,准备运行所需的上下文,然后一方面保持与ApplicationMaster的RPC连接,通过ApplicationMaster申请资源,另一方面根据用户业务逻辑开始调度任务,将任务下发到已有的空闲Executor上。当ResourceManager向ApplicationMaster返回Container资源时,ApplicationMaster就转载 2022-04-18 19:17:41 · 205 阅读 · 0 评论 -
多维数据查询OLAP及MDX语言学习整理(转载)
一、OLAP概述为了满足业务管理和决策的报表系统(包括传统报表、数据仓库、OLAP等)也被创建出来,企业主管通过报表了解企业的总体运行状态。但是,随着企业间竞争的加剧和市场节奏的进一步加快,企业的日常管理需要对关键业务指标的更加实时的监控和反馈。比如:制造业需要更及时的仓库调度、金融业需要更实时的风险防范、电信业需要更及时的服务指标监控。于是,越来越多的企业提出实时企业的要求,传统的ERP等信息系统和报表系统无法满足这些需求。实时业务监控解决方案旨在更好支撑客户此类需求。http://www.tuic转载 2022-02-11 15:19:47 · 2517 阅读 · 0 评论 -
Scala基础随笔
用到的基础数据:object Test1 { implicit val v3 = 100}//普通类class Person(name:String) { def getInfo():Unit = println(s"${name} can fly")}//案例类case class Chinese(name:String)//普通类class Japanese(jName:String) { val name = jName}一、方法与简单函数:def main原创 2022-02-09 20:00:18 · 1207 阅读 · 0 评论 -
Spark的基本使用入门
package com.fh.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}import org.apache.spark.{SparkConf, SparkContext}object TestDemo1 { def main(args: Array[String]): Unit = { method4 } //测试案例类原创 2022-01-29 15:33:37 · 3405 阅读 · 0 评论 -
NebulaGraph快速入门
NebulaGraph是图数据库的一种,不同于mysql类数据库的表关系,整个space内分为顶点(tag)和边(edge),构成一种图的网状关系,每个顶点都有一个全局唯一的顶点id(vid)。具体帮助文档:https://docs.nebula-graph.com.cn/现进行具体说明:一、库级操作语句1、查看所有库:show spaces;2、查看库信息:describe space sqlLineage;二、tag语句-》确定顶点的类型和承载信息1、查看所有tag:show t原创 2021-12-31 19:47:23 · 3040 阅读 · 0 评论 -
Hadoop&Hive&Spark的本地安装全流程与踩坑实录
一、Hadoop1、下载下载地址:https://mirrors.tuna.tsinghua.edu.cn(清华大学开源软件镜像站);具体地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.2/ (版本3.2.2)2、解压后修改配置一共需要修改七个文件(如果要配置集群则还需要再加上一个文件,共八个)(1)hadoop-3.2.2/etc/hadoop目录下,修改“core-site.xml”:增加&l原创 2021-12-28 21:07:27 · 2643 阅读 · 2 评论 -
数据分析基本概念(转载)
数据仓库Data Warehouse,简称DW,中文名数据仓库,是商业智能(BI)中的核心部分。主要是将不同数据源的数据整合到一起,通过多维分析等方式为企业提供决策支持和报表生成。那么它与我们熟悉的传统关系型数据库有什么不同呢?简而言之,用途不同。数据库面向事务,而数据仓库面向分析。数据库一般存储在线的业务数据,需要对上层业务的改变做出实时反应,涉及到增删查改等操作,所以需要遵循三大范式,需要ACID。而数据仓库中存储的则主要是历史数据,主要目的是为企业决策提供支持,所以可能存在大量数据冗余,但利于多个转载 2021-05-25 16:10:20 · 628 阅读 · 0 评论