自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 大数据秋招学习笔记17

离线数仓项目:1)项目需求:1、用户行为数据采集平台搭建2、业务数据采集平台搭建3、数据仓库维度建模4、分析,设 备、会员、商品、地 区、活动等电商核心主题,统计的报表指标近100个。5、采用即席查询工具,随时进行指标分析6、对集群性能进行监控,发生异常需要报警7、元数据管理8、质量监控...

2021-08-28 20:10:44 188

原创 大数据秋招学习笔记16

JVM基础知识:1)Java 内存结构(运行时数据区):(1)程序计数器:线程私有。一块较小的内存空间,可以看作当前线程所执行的字节码的行号指示器。如果线程正在执行的是一个Java方法,这个计数器记录的是正在执行的虚拟机字节码指令的地址;如果正在执行的是Native方法,这个计数器值则为空。(2)Java虚拟机栈:线程私有。它的生命周期与线程相同。虚拟机栈描述的是Java方法执行的内存模型:每个方法在执行的同时都会创建一个栈帧用于存储局部变量表、操作数栈、动态链接、方法出口等信息。每一个方法从调用直至

2021-08-21 09:26:59 167

原创 大数据秋招学习笔记15

java集合基础知识:1)java容器:常见容器主要包括 Collection 和 Map 两种,Collection 存储着对象的集合,而 Map存储着键值对(两个对象)的映射表。Collection:Set:(1) TreeSet: 基于红黑树实现,支持有序性操作。底层是TreeMap。添加的数据存入了map的key的位置,而value则固定是PRESENT。TreeSet中的元素是有序且不重复的,因为TreeMap中的key是有序且不重复的。(2)HashSet: 基于哈希表实现,支持快

2021-08-17 20:49:21 252

原创 大数据秋招学习笔记14

java并发:1)守护线程(即daemon thread),是个服务线程,准确地来说就是服务其他的线程,这是它的作用——而其他的线程只有一种,那就是用户线程。所以java里线程分2种,1、守护线程,比如垃圾回收线程,就是最典型的守护线程。2、用户线程,就是应用程序里的自定义线程。守护线程:(1)守护线程,专门用于服务其他的线程,如果其他的线程(即用户自定义线程)都执行完毕,连main线程也执行完毕,那么jvm就会退出(即停止运行)——此时,连jvm都停止运行了,守护线程当然也就停止执行了。(2)再

2021-08-13 15:39:32 158

原创 大数据秋招学习笔记13

实时数仓项目:离线需求:就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop 的 MapReduce 方式;一般是根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。实时需求:输入数据是可以以序列化的方式一个个输入并进行处理的,也就是说在开始的时候并不需要知道所有的输入数据。与离线计算相比,运行时间短,计算量级相对较小。强调计算过程的时间要短,即所查当下给出结果。主要侧

2021-08-13 15:38:12 399

原创 大数据秋招学习笔记11

Flink基础知识:1)Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。2)Flink vs Spark Streaming:数据模型– spark 采用 RDD 模型,spark streaming 的 DStream 实际上也就是一组组小批数据 RDD 的集合。– flink 基本数据模型是数据流,以及事件(Event)序列。运行时架构– spark 是批计算,将 DAG 划分为不同的 stage,一个完成后才可以计算下一个。– flink 是

2021-08-10 21:51:15 123

原创 大数据秋招学习笔记8

Java基础知识:1)三大特性:(1)封装: 通常认为封装是把数据和操作数据的方法封装起来,对数据的访问只能通过已定义的接口。(2)继承: 继承是从已有类得到继承信息创建新类的过程。提供继承信息的类被称为父类(超类/基类),得到继承信息的被称为子类(派生类)。关于继承的几点补充:1、子类拥有父类对象所有的属性和方法(包括私有属性和私有方法),但是父类中的私有属性和方法子类是无法访问,只是拥有。因为在一个子类被创建的时候,首先会在内存中创建一个父类对象,然后在父类对象外部放上子类独有的属性,两者

2021-08-10 21:51:01 173

原创 大数据秋招学习笔记12

计算机网络基础知识:1)运输层主要使用以下两种协议:传输控制协议 TCP(Transmisson Control Protocol):提供面向连接的,可靠的数据传输服务。用户数据协议 UDP(User Datagram Protocol):提供无连接的,尽最大努力的数据传输服务(不保证数据传输的可靠性)。UDP 的主要特点:1、UDP 是无连接的;2、UDP 使用尽最大努力交付,即不保证可靠交付,因此主机不需要维持复杂的链接状态(这里面有许多参数);3、UDP 是面向报文的;4、UDP

2021-08-10 21:50:40 116

原创 大数据秋招学习笔记9

Mysql基础知识:1)事务的ACID属性:1. 原子性(Atomicity)原子性是指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生。2. 一致性(Consistency)事务必须使数据库从一个一致性状态变换到另外一个一致性状态。3. 隔离性(Isolation)事务的隔离性是指一个事务的执行不能被其他事务干扰,即一个事务内部的操作及使用的数据对并发的其他事务是隔离的,并发执行的各个事务之间不能互相干扰。4. 持久性(Durability)持久性是指一个事务一旦被提交,它对数

2021-08-08 21:28:12 191

原创 大数据秋招学习笔记10

Hbase基础知识:1)HBase 定义:HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。2)HBase 基本架构:(1)Region Server :Region Server 为 Region 的管理者,其实现类为 HRegionServer,主要作用如下:对于数据的操作:get, put, delete;对于 Region 的操作:splitRegion、compactRegion。(2)Master :Master 是所有 Region Server 的管理

2021-08-08 19:55:43 286

原创 大数据秋招学习笔记3

Hive基础知识:1)用于解决海量结构化日志的数据统计工具,可将结构的数据文件映射为一张表,并提供类 SQL 查询功能。本质就是将 HQL 转化成 MapReduce 程序。处理的数据存储在 HDFS上,分析数据底层的实现是 MapReduce,执行程序运行在 Yarn 上。2)优缺点:优点:(1)操作接口采用类 SQL 语法,提供快速开发的能力。(2)避免了去写 MapReduce,减少开发人员的学习成本。(3)优势在于处理大数据 。(4)支持用户自定义函数,用户可以根据自己的需求来实现自己的

2021-08-07 10:08:43 239

原创 大数据秋招学习笔记7

Redis基础知识:1)NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”,泛指非关系型的数据库。 NoSQL 不依赖业务逻辑方式存储,而以简单的key-value模式存储。因此大大的增加了数据库的扩展能力。2)与Memcache三点不同: 支持多数据类型,支持持久化,单线程+多路IO复用。Memcache采用多线程+锁。redis 的速度比 memcached 快很多 。3)redis 有哪些功能?(1)数据缓存功能;(2)分布式锁的功能;(3)支持数据持久化;

2021-08-06 20:32:53 153

原创 大数据秋招学习笔记5

Scala基础知识:1)Scala是一门以Java虚拟机(JVM)为运行环境并支持面向对象和函数式编程的静态类型编程语言。2)变量与常量:(1)声明变量时,类型可以省略,编译器自动推导,即类型推导。(2)类型确定后,就不能修改,说明 Scala 是强数据类型语言。(3)变量声明时,必须要有初始值。(4)在声明/定义一个变量时,可以使用 var 或者 val 来修饰,var 修饰的变量可改变,val 修饰的变量不可改。(5)var 修饰的对象引用可以改变,val 修饰的对象则不可改变,但对象的状

2021-08-05 08:48:57 163

原创 大数据秋招学习笔记6

Spark Core基础知识:1)Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2)MapReduce和Spark :(1)MapReduce无法满足循环迭代式数据流处理,在多并行运行的数据可复用场景中存在诸多计算效率等问题。Spark 就是在传统的 MapReduce 计算框架的基础上,利用其计算过程的优化,从而大大加快了数据分析、挖掘的运行和读写速度,(2) Spark 多个作业之间数据通信是基于内存,而 MapReduce 是基于磁盘。在实际的生产环境中,由于内存的限制

2021-08-04 14:35:04 221

原创 大数据秋招学习笔记1

Hadoop基础知识:1)bigdata特点:4V,大量(volume),高速(velocity),多样性(variety),低价值密度(value)。2)Hadoop是Apache基金会开发的分布式系统基础架构,主要用于解决海量数据的存储和分析计算问题,广义上通常指Hadoop生态圈。3)Hadoop1.* 和 Hadoop2.* 的区别:Hadoop1.* 中的Mapreduce同时负责业务逻辑计算与资源的调度,Hadoop2.* 中增加了Yarn,Yarn负责资源调度,Mapreduce只负责运

2021-08-03 20:40:59 241

原创 大数据秋招学习笔记4

Kafka基础知识:1)Kafka 是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。2)Kafka数据可靠性保证:为保证 producer 发送的数据,能可靠的发送到指定的 topic,topic 的每个 partition 收到 producer 发送的数据后,都需要向 producer 发送 ack(acknowledgement 确认收到),如果producer 收到 ack,就会进行下一轮的发送,否则重新发送数据。确保有follower与leader同步完成,le

2021-08-03 09:06:25 239

原创 大数据秋招学习笔记2

ZooKeeper基础知识:1)ZooKeeper是一个基于观察者模式的分布式服务管理框架,负责存储与管理数据,接收观察者注册,一旦数据状态发生变化 ,会通知观察者做出相应反应。2)ZooKeeper特点:(1)一个leader,多个follower组成的集群。(2)集群中只要有半数以上节点存活,就能正常服务。(3)全局数据一致,每个server上保存相同的数据副本。(4)更新请求顺序进行,来自同一个client的更新请求按其发送顺序依次执行。(5)数据更新原子性。(6)实时性。3)应用场

2021-08-02 16:50:00 169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除