
大数据
文章平均质量分 95
在学习的王哈哈
这个作者很懒,什么都没留下…
展开
-
【学习笔记】大数据技术之Flink(三)-容错机制,TableAPI和SQL,CEP
【学习笔记】大数据技术之Flink(三)-容错机制,TableAPI和SQL,CEP转载 2022-07-07 16:24:19 · 1250 阅读 · 2 评论 -
【学习笔记】大数据技术之Flink(二)
【学习笔记】大数据技术之Flink(二)转载 2022-06-29 16:46:48 · 1248 阅读 · 0 评论 -
【学习笔记】大数据技术之Flink(一)
转载尚硅谷大数据转载 2022-06-22 16:15:08 · 1880 阅读 · 0 评论 -
【学习笔记】大数据技术之Azkaban
Azkaban第1章 Azkaban概论1.1 为什么需要工作流调度系统1.2 常见工作流调度系统1.3 Azkaban与Oozie对比2.1 集群模式安装2.1.1 上传tar包jobC 依赖 JobA和JobB第1章 Azkaban概论1.1 为什么需要工作流调度系统1)一个完整的数据分析系统通常都是由大量任务单元组成:Shell脚本程序,Java程序,MapReduce程序、Hive脚本等2)各任务单元之间存在时间先后及前后依赖关系3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度原创 2022-04-27 12:44:28 · 961 阅读 · 0 评论 -
【学习笔记】大数据技术之Sqoop安装与使用
能够在关系型数据库和hadoop之间,进行数据的双向传输–导入和导出。当导入的时候,可以导到hdfs的路径中,也可以导到hive和hase的一张表里。2.3 Sqoop安装底层是mapreduce。2.3.1 下载并解压1)sqoop官网地址:http://sqoop.apache.org2)下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/3)上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到h原创 2022-04-24 19:59:38 · 442 阅读 · 0 评论 -
【学习笔记】大数据技术之SparkStreaming
这里写目录标题思考?SparkStreaming 的wordcount第1章 SparkStreaming 概述1.1 Spark Streaming 是什么1.2 Spark Streaming 的特点1.3 Spark Streaming 架构1.3.1 架构图1.3.2 背压机制第 2 章 Dstream 入门2.1 WordCount 案例实操2.2 WordCount 解析第 3 章 DStream 创建3.1 RDD 队列3.1.1 用法及说明3.1.2 案例实操3.2 自定义数据源3.2.1原创 2022-04-21 15:41:26 · 2267 阅读 · 0 评论 -
【学习笔记】大数据技术之SparkSQL
大数据技术之SparkSQL思考?SQL和DSL第1章 SparkSQL 概述1.1 SparkSQL 是什么1.2 Hive and SparkSQL1.3 SparkSQL 特点1.3.1 易整合1.3.2 统一的数据访问1.3.3 兼容 Hive1.3.4 标准数据连接1.4 DataFrame 是什么1.5 DataSet 是什么第2章 SparkSQL 核心编程2.1 新的起点2.2 DataFrame2.2.1 创建 DataFrame2.2.2 SQL 语法2.2.3 DSL 语法2.2.4原创 2022-04-19 17:41:14 · 936 阅读 · 0 评论 -
【学习笔记】大数据技术之SparkCore(一)
大数据技术之Spark第1章 Spark 概述1.1 Spark 是什么1.2 Spark and Hadoop1.3 Spark or Hadoop1.4 Spark 核心模块第2章 Spark 快速上手2.1 创建 Maven 项目2.1.1 增加 Scala 插件2.1.2 增加依赖关系Set the default spark-shell log level to ERROR. When running the spark-shell,log level for this class is used原创 2022-04-18 16:40:24 · 1265 阅读 · 0 评论 -
【学习笔记】大数据技术之Scala(下)
大数据技术之Scala第 6 章 面向对象6.1 Scala 包6.1.1 包的命名6.1.2 包说明(包语句)6.1.3 包对象6.1.4 导包说明6.2 类和对象6.2.1 定义类6.2.2 属性6.3 封装==6.1.5 访问权限==6.2.3 方法6.2.4 创建对象6.2.5 构造器6.2.6 构造器参数6.4 继承和多态第 6 章 面向对象Scala 的面向对象思想和 Java 的面向对象思想和概念是一致的。Scala 中语法和 Java 不同,补充了更多的功能。6.1 Scala 包原创 2022-04-15 16:37:41 · 2595 阅读 · 0 评论 -
【学习笔记】大数据技术之Scala(上)
尚硅谷大数据技术之Scala(新版)思考:1. 为什么scala在生成字节码文件的过程中,会有 类名$.class文件生成?第 1 章 Scala 入门1.1 概述1.1.1 为什么学习 Scala1.1.2 Scala 发展历史1.1.3 Scala 和 Java 关系1.1.4 Scala 语言特点1.2 Scala 环境搭建1.3 Scala 插件安装1.4 HelloWorld 案例1.4.1 创建 IDEA 项目工程1.4.2 class 和 object 说明1.4.3 Scala 程序反编译1原创 2022-04-11 19:15:24 · 3124 阅读 · 0 评论 -
【学习笔记】大数据技术之HBase
大数据技术之HBase思考?1. RegionServer和Master的区别?第 1 章 HBase 简介1.1 HBase 定义1.2 HBase 数据模型1.2.1 HBase 逻辑结构1.2.2 HBase 物理存储结构1.2.3 数据模型1.3 HBase 基本架构第 2 章 HBase 快速入门2.1 HBase 安装部署2.1.1 Zookeeper 正常部署2.1.2 Hadoop 正常部署2.1.3 HBase 的解压2.1.4 HBase 的配置文件2.1.5 HBase 远程发送到其他原创 2022-04-08 13:39:29 · 1739 阅读 · 0 评论 -
【学习笔记】大数据技术之Kafka3.x(生产调优手册)
生产调优手册第 1 章 Kafka 硬件配置选择1.1 场景说明1.2 服务器台数选择1.3 磁盘选择1.4 内存选择1.5 CPU 选择1.6 网络选择第 2 章 Kafka 生产者2.1 Kafka 生产者核心参数配置2.2 生产者如何提高吞吐量2.3 数据可靠性2.4 数据去重2.5 数据有序2.6 数据乱序第 3 章 Kafka Broker3.1 Broker 核心参数配置3.2 服役新节点/退役旧节点3.3 增加分区3.4 增加副本因子3.5 手动调整分区副本存储3.6 Leader Parti原创 2022-04-05 17:42:35 · 2778 阅读 · 0 评论 -
【学习笔记】大数据技术之Kafka3.x(监控,外部系统集成)
大数据技术之Kafka3.x第 6 章 Kafka-Eagle 监控6.1 MySQL 环境准备6.2 Kafka 环境准备6.3 Kafka-Eagle 安装6.4 Kafka-Eagle 页面操作第 7 章 Kafka-Kraft 模式7.1 Kafka-Kraft 架构7.2 Kafka-Kraft 集群部署第 1 章 集成 Flume1.1 Flume 生产者1.2 Flume 消费者第 2 章 集成 Flink2.1 Flink 生产者2.2 Flink 消费者第 3 章 集成 SpringBoo原创 2022-04-05 14:55:07 · 2412 阅读 · 1 评论 -
【学习笔记】大数据技术之Kafka3.x(2022版)
大数据技术之Kafka3.x(2022版)第 1 章 Kafka 概述1.1 定义1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种模式1.3 Kafka 基础架构2. Kafka 快速入门2.1 安装部署2.1.1 集群规划2.1.2 集群部署2.2.1 主题命令行操作2.2.2 生产者命令行操作2.2.3 消费者命令行操作第 3 章 Kafka 生产者3.1 生产者消息发送流程3.1.1 发送原理3.1.2 生产者重要参数列表3.2 异步发送 API3.2.1 普通异步发送3.原创 2022-04-04 22:04:26 · 4377 阅读 · 2 评论 -
【学习笔记】大数据技术之Flume
这里写目录标题思考?1. 在实时监控目录下的多个追加文件中,更名文件怎样解决?2. 三个source有哪些?3. 自定义source时,会出现相同i的情况,为什么?4. put的dorollback中,为什么TaildirSource不会丢数据而netcat会丢数据?第 1 章 Flume 概述1.1 Flume 定义1.2 Flume 基础架构1.2.1 Agent1.2.2 Source1.2.3 Sink1.2.4 Channel1.2.5 Event第 2 章 Flume 入门2.1 Flume 安原创 2022-03-30 20:18:24 · 1808 阅读 · 2 评论 -
【学习笔记】大数据技术之Zookeeper(基础篇)
大数据技术之Zookeeper1.Zookeeper 入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址2.Zookeeper 本地安装2.1 本地模式安装2.2 配置参数解读3.Zookeeper 集群操作3.1 集群操作3.1.1 集群安装3.1.2 选举机制(面试重点)3.1.3 ZK 集群启动停止脚本3.2 客户端命令行操作3.2.1 命令行语法3.2.2 znode 节点数据信息3.2.3 节点类型(持久/短暂/有序号/无序号)3.2.4 监听器原理3.2.5 节点删除与原创 2022-03-28 16:27:46 · 2084 阅读 · 0 评论 -
【学习笔记】大数据技术之Hive(下)
8 函数8.1 系统内置函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;UDF: 普通函数UDTF: 炸裂函数UDAF: 聚合函数8.2 常用内置函数8.2.1 空字段赋值1)函数说明NVL:给值为 NULL 的数据赋值,它的格式是 NVL( value,def原创 2022-03-27 14:37:08 · 571 阅读 · 0 评论 -
【学习笔记】大数据技术之Hive(上)
大数据技术之Hive面试题1. Hive 基本概念1.1 什么是 Hive1.2Hive 的优缺点1.2.1 优点1.2.2 缺点1.3 Hive 架构原理1.4 Hive 和数据库比较1.4.1 查询语言1.4.2 数据更新1.4.3 执行延迟1.4.4 数据规模2. Hive 安装2.1 Hive 安装地址2.2Hive 安装部署2.2.1 安装 Hive2.2.2 启动并使用 Hive2.3 MySQL 安装2.4 Hive 元数据配置到 MySQL2.4.1 拷贝驱动2.4.2 配置 Metasto原创 2022-03-26 17:34:42 · 3442 阅读 · 0 评论 -
【学习笔记】大数据技术之Hadoop(源码记录)
源码第0章 RPC通信原理解析第1章 NameNode启动源码解析1.1 启动9870端口服务1.2 加载镜像文件和编辑日志1.3 初始化NN的RPC服务端1.4 NN启动资源检查1.5 NN对心跳超时判断1.6 安全模式第2章 DataNode启动源码解析2.1 初始化DataXceiverServer2.2 初始化HTTP服务2.3 初始化DN的RPC服务端2.4 DN向NN注册2.5 向NN发送心跳第3章 HDFS上传源码解析3.1 create创建过程3.1.1 DN向NN发起创建请求3.1.2 N转载 2022-03-22 22:17:43 · 2511 阅读 · 0 评论 -
【学习笔记】大数据技术之Hadoop(生产调优手册)
这里写目录标题1. HDFS—核心参数1.1 NameNode内存生产配置1.2 NameNode心跳并发配置1.3 开启回收站配置2. HDFS—集群压测2.1 测试HDFS写性能2.2 测试HDFS读性能3.HDFS—多目录3.1 NameNode多目录配置3.2 DataNode多目录配置3.3 集群数据均衡之磁盘间数据均衡4. HDFS—集群扩容及缩容4.1 添加白名单4.2 服役新服务器4.3 服务器间数据均衡4.4 黑名单退役服务器5. HDFS—存储优化5.1 纠删码5.1.1 纠删码原理5转载 2022-03-22 17:31:02 · 570 阅读 · 0 评论 -
【学习笔记】大数据技术之Hadoop(Yarn)
Yarn1 Yarn资源调度器1.1 Yarn基础架构1.2 Yarn工作机制1.3 作业提交全过程1.4 Yarn调度器和调度算法1.4.1 先进先出调度器(FIFO)1.4.2 容量调度器(Capacity Scheduler)1.4.3 公平调度器(Fair Scheduler)1.5 Yarn常用命令1.5.1 yarn application查看任务(1)列出所有Application:(2)根据Application状态过滤:(3)Kill掉Application:1.5.2 yarn logs转载 2022-03-21 15:52:12 · 434 阅读 · 0 评论 -
【学习笔记】大数据技术之Hadoop(MapReduces)
mapreduce11.8 WordCount案例实操1.8.1 本地测试11.8 WordCount案例实操1.8.1 本地测试转载 2022-03-19 21:57:45 · 1112 阅读 · 0 评论 -
【学习笔记】大数据技术之Hadoop(HDFS)
hadoop的hdfs篇其中解答了HDFS的读写问题,以及HDFS文件块大小等面试常见问题。以及记录了Hadoop的shell操作全过程原创 2022-03-17 19:22:05 · 564 阅读 · 0 评论 -
【学习笔记】初级的Maven学习
Maven1、为什么要学习Maven1.1、Maven作为依赖管理工具1.2、Maven作为构建管理工具2. 什么是Maven?2.1、构建2.2、依赖2.3、Maven的工作机制3. Maven核心程序解压和配置4. 使用 Maven:命令行环境4.1 实验—:根据坐标创建Maven工程4.1.1 Maven核心概念:坐标4.1.2 实验操作4.1.3 Maven核心概念:POM4.1.4 Maven核心概念:约定的目录结构4.2 实验二:在Maven 工程中编写代码4.3 实验三:执行Maven的构建命原创 2022-03-14 21:11:21 · 330 阅读 · 0 评论 -
【学习笔记】大数据技术之Hadoop(入门)
大数据技术之Hadoop1. 概念1.1 Hadoop是什么?1.2 Hadoop发展历史10.3 Hadoop的三大发行版本1.4 Hadoop优势(4高)1.5 Hadoop组成,1.x 2.x 3.x区别(重点)1.5.1 HDFS架构概述1.5.2 YARN架构概述1.5.3 MapReduce架构概述1.5.4 HDFS、YARN、MapReduce三者关系1.6 大数据技术生态体系1.7 推荐系统框架图2. 环境准备3. Hadoop生产集群搭建4. 常见错误的解决方案1. 概念1.1 Ha原创 2022-03-14 13:44:51 · 7934 阅读 · 0 评论