Boogie。-优快云博客

原创大数据秋招学习笔记17

离线数仓项目：1）项目需求：1、用户行为数据采集平台搭建2、业务数据采集平台搭建3、数据仓库维度建模4、分析，设备、会员、商品、地区、活动等电商核心主题，统计的报表指标近100个。5、采用即席查询工具，随时进行指标分析6、对集群性能进行监控，发生异常需要报警7、元数据管理8、质量监控...

2021-08-28 20:10:44 208

JVM基础知识：1）Java 内存结构（运行时数据区）：（1）程序计数器：线程私有。一块较小的内存空间，可以看作当前线程所执行的字节码的行号指示器。如果线程正在执行的是一个Java方法，这个计数器记录的是正在执行的虚拟机字节码指令的地址；如果正在执行的是Native方法，这个计数器值则为空。（2）Java虚拟机栈：线程私有。它的生命周期与线程相同。虚拟机栈描述的是Java方法执行的内存模型：每个方法在执行的同时都会创建一个栈帧用于存储局部变量表、操作数栈、动态链接、方法出口等信息。每一个方法从调用直至

2021-08-21 09:26:59 189

原创大数据秋招学习笔记15

java集合基础知识：1）java容器：常见容器主要包括 Collection 和 Map 两种，Collection 存储着对象的集合，而 Map存储着键值对（两个对象）的映射表。Collection：Set：(1) TreeSet：基于红黑树实现，支持有序性操作。底层是TreeMap。添加的数据存入了map的key的位置，而value则固定是PRESENT。TreeSet中的元素是有序且不重复的，因为TreeMap中的key是有序且不重复的。（2）HashSet：基于哈希表实现，支持快

2021-08-17 20:49:21 300

原创大数据秋招学习笔记14

java并发：1）守护线程（即daemon thread），是个服务线程，准确地来说就是服务其他的线程，这是它的作用——而其他的线程只有一种，那就是用户线程。所以java里线程分2种，1、守护线程，比如垃圾回收线程，就是最典型的守护线程。2、用户线程，就是应用程序里的自定义线程。守护线程：（1）守护线程，专门用于服务其他的线程，如果其他的线程（即用户自定义线程）都执行完毕，连main线程也执行完毕，那么jvm就会退出（即停止运行）——此时，连jvm都停止运行了，守护线程当然也就停止执行了。（2）再

2021-08-13 15:39:32 195

原创大数据秋招学习笔记13

实时数仓项目：离线需求：就是在计算开始前已知所有输入数据，输入数据不会产生变化，一般计算量级较大，计算时间也较长。例如今天早上一点，把昨天累积的日志，计算出所需结果。最经典的就是Hadoop 的 MapReduce 方式；一般是根据前一日的数据生成报表，虽然统计指标、报表繁多，但是对时效性不敏感。实时需求：输入数据是可以以序列化的方式一个个输入并进行处理的，也就是说在开始的时候并不需要知道所有的输入数据。与离线计算相比，运行时间短，计算量级相对较小。强调计算过程的时间要短，即所查当下给出结果。主要侧

2021-08-13 15:38:12 439

原创大数据秋招学习笔记11

Flink基础知识：1）Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。2）Flink vs Spark Streaming：数据模型– spark 采用 RDD 模型，spark streaming 的 DStream 实际上也就是一组组小批数据 RDD 的集合。– flink 基本数据模型是数据流，以及事件（Event）序列。运行时架构– spark 是批计算，将 DAG 划分为不同的 stage，一个完成后才可以计算下一个。– flink 是

2021-08-10 21:51:15 150

原创大数据秋招学习笔记8

Java基础知识：1）三大特性：（1）封装：通常认为封装是把数据和操作数据的方法封装起来，对数据的访问只能通过已定义的接口。（2）继承：继承是从已有类得到继承信息创建新类的过程。提供继承信息的类被称为父类（超类/基类），得到继承信息的被称为子类（派生类）。关于继承的几点补充：1、子类拥有父类对象所有的属性和方法（包括私有属性和私有方法），但是父类中的私有属性和方法子类是无法访问，只是拥有。因为在一个子类被创建的时候，首先会在内存中创建一个父类对象，然后在父类对象外部放上子类独有的属性，两者

2021-08-10 21:51:01 194

原创大数据秋招学习笔记12

计算机网络基础知识：1）运输层主要使用以下两种协议:传输控制协议 TCP（Transmisson Control Protocol）：提供面向连接的，可靠的数据传输服务。用户数据协议 UDP（User Datagram Protocol）：提供无连接的，尽最大努力的数据传输服务（不保证数据传输的可靠性）。UDP 的主要特点：1、UDP 是无连接的；2、UDP 使用尽最大努力交付，即不保证可靠交付，因此主机不需要维持复杂的链接状态（这里面有许多参数）；3、UDP 是面向报文的；4、UDP

2021-08-10 21:50:40 147

原创大数据秋招学习笔记9

Mysql基础知识：1）事务的ACID属性：1. 原子性（Atomicity）原子性是指事务是一个不可分割的工作单位，事务中的操作要么都发生，要么都不发生。2. 一致性（Consistency）事务必须使数据库从一个一致性状态变换到另外一个一致性状态。3. 隔离性（Isolation）事务的隔离性是指一个事务的执行不能被其他事务干扰，即一个事务内部的操作及使用的数据对并发的其他事务是隔离的，并发执行的各个事务之间不能互相干扰。4. 持久性（Durability）持久性是指一个事务一旦被提交，它对数

2021-08-08 21:28:12 221

原创大数据秋招学习笔记10

Hbase基础知识：1）HBase 定义：HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。2）HBase 基本架构：（1）Region Server ：Region Server 为 Region 的管理者，其实现类为 HRegionServer，主要作用如下:对于数据的操作：get, put, delete；对于 Region 的操作：splitRegion、compactRegion。（2）Master ：Master 是所有 Region Server 的管理

2021-08-08 19:55:43 331

原创大数据秋招学习笔记3

Hive基础知识：1）用于解决海量结构化日志的数据统计工具，可将结构的数据文件映射为一张表，并提供类 SQL 查询功能。本质就是将 HQL 转化成 MapReduce 程序。处理的数据存储在 HDFS上，分析数据底层的实现是 MapReduce，执行程序运行在 Yarn 上。2）优缺点：优点：（1）操作接口采用类 SQL 语法，提供快速开发的能力。（2）避免了去写 MapReduce，减少开发人员的学习成本。（3）优势在于处理大数据。（4）支持用户自定义函数，用户可以根据自己的需求来实现自己的

2021-08-07 10:08:43 265

原创大数据秋招学习笔记7

Redis基础知识：1）NoSQL(NoSQL = Not Only SQL )，意即“不仅仅是SQL”，泛指非关系型的数据库。 NoSQL 不依赖业务逻辑方式存储，而以简单的key-value模式存储。因此大大的增加了数据库的扩展能力。2）与Memcache三点不同: 支持多数据类型，支持持久化，单线程+多路IO复用。Memcache采用多线程+锁。redis 的速度比 memcached 快很多。3）redis 有哪些功能？（1）数据缓存功能；（2）分布式锁的功能；（3）支持数据持久化；

2021-08-06 20:32:53 175

原创大数据秋招学习笔记5

Scala基础知识：1）Scala是一门以Java虚拟机（JVM）为运行环境并支持面向对象和函数式编程的静态类型编程语言。2）变量与常量：（1）声明变量时，类型可以省略，编译器自动推导，即类型推导。（2）类型确定后，就不能修改，说明 Scala 是强数据类型语言。（3）变量声明时，必须要有初始值。（4）在声明/定义一个变量时，可以使用 var 或者 val 来修饰，var 修饰的变量可改变，val 修饰的变量不可改。（5）var 修饰的对象引用可以改变，val 修饰的对象则不可改变，但对象的状

2021-08-05 08:48:57 191

原创大数据秋招学习笔记6

Spark Core基础知识：1）Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2）MapReduce和Spark ：（1）MapReduce无法满足循环迭代式数据流处理，在多并行运行的数据可复用场景中存在诸多计算效率等问题。Spark 就是在传统的 MapReduce 计算框架的基础上，利用其计算过程的优化，从而大大加快了数据分析、挖掘的运行和读写速度，（2） Spark 多个作业之间数据通信是基于内存，而 MapReduce 是基于磁盘。在实际的生产环境中，由于内存的限制

2021-08-04 14:35:04 256

原创大数据秋招学习笔记1

Hadoop基础知识：1）bigdata特点：4V，大量(volume)，高速(velocity)，多样性(variety)，低价值密度(value)。2）Hadoop是Apache基金会开发的分布式系统基础架构，主要用于解决海量数据的存储和分析计算问题，广义上通常指Hadoop生态圈。3）Hadoop1.* 和 Hadoop2.* 的区别：Hadoop1.* 中的Mapreduce同时负责业务逻辑计算与资源的调度，Hadoop2.* 中增加了Yarn，Yarn负责资源调度，Mapreduce只负责运

2021-08-03 20:40:59 272

原创大数据秋招学习笔记4

Kafka基础知识：1）Kafka 是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。2）Kafka数据可靠性保证：为保证 producer 发送的数据，能可靠的发送到指定的 topic，topic 的每个 partition 收到 producer 发送的数据后，都需要向 producer 发送 ack（acknowledgement 确认收到），如果producer 收到 ack，就会进行下一轮的发送，否则重新发送数据。确保有follower与leader同步完成，le

2021-08-03 09:06:25 270

原创大数据秋招学习笔记2

ZooKeeper基础知识：1）ZooKeeper是一个基于观察者模式的分布式服务管理框架，负责存储与管理数据，接收观察者注册，一旦数据状态发生变化，会通知观察者做出相应反应。2）ZooKeeper特点：（1）一个leader，多个follower组成的集群。（2）集群中只要有半数以上节点存活，就能正常服务。（3）全局数据一致，每个server上保存相同的数据副本。（4）更新请求顺序进行，来自同一个client的更新请求按其发送顺序依次执行。（5）数据更新原子性。（6）实时性。3）应用场

2021-08-02 16:50:00 189

qq_44427262的博客