
大数据
文章平均质量分 89
小哥哥咯
爱自由,爱生活!
展开
-
数据仓库方法论书籍及其阅读建议
通过以上顺序,读者可系统建立从理论到实践的知识体系,并适应不同规模企业与技术环境的需求。:先掌握基础,再学习Kimball方法论,最后扩展实战与新技术。:企业级数据仓库(EDW)理论基石,与Kimball形成互补。:零基础入门,语言通俗易懂,快速建立数据仓库的基本认知。:已有技术背景,直接切入经典方法论,强化设计与工程能力。:Kimball团队经验合集,解决复杂问题与趋势洞察。:聚焦全生命周期管理与技术趋势,弱化细节设计。:大数据与云技术融合,现代数据仓库升级指南。原创 2025-05-03 15:06:36 · 448 阅读 · 0 评论 -
032 SQL知识点小记
不同场景下的SQL知识集锦原创 2022-06-21 21:47:30 · 657 阅读 · 0 评论 -
031 Log4j日志框架
MapReduce使用Log4j2 + Slf4j输出日志示例原创 2022-06-18 23:13:26 · 404 阅读 · 0 评论 -
028 大数据之Superset商业智能
1、Apache Superset试用了5款BI分析工具,终于找到了上手最快的那一个!superset安装及简单使用原创 2022-05-15 21:45:59 · 474 阅读 · 0 评论 -
027 大数据之Azkaban调度系统
1、Azkaban 3.0 中文文档解压Azkaban部署包[atguigu@hadoop102 azkaban]$ ll总用量 12drwxr-xr-x. 2 atguigu atguigu 4096 4月 18 2020 azkaban-db-3.84.4drwxr-xr-x. 6 atguigu atguigu 4096 4月 18 2020 azkaban-exec-server-3.84.4drwxr-xr-x. 6 atguigu atguigu 4096 4月 18 2020原创 2022-05-14 21:53:25 · 906 阅读 · 0 评论 -
026 数据仓库
1、数据仓库数仓分层:ODS直接存放原始数据,DWD对数据进行清洗,DIM轻度汇总,DWS重度汇总,ADS提供报表数据;分层原因:简化复杂问题,减少重复开发,隔离原始数据;几个概念:1)数据集市部门级的,2)数据仓库公司级的,3)数据湖包含各种类型的数据一文看懂:什么是数据库、数据湖、数据仓库、湖仓一体、智能湖仓?...原创 2022-05-04 12:09:46 · 2955 阅读 · 0 评论 -
030 大数据之BI工具Zepplin
JDBC连KyLinimport java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;public class TestKylin { public static void main(String[] args) throws Exception { //Kylin_JDBC 驱动 St原创 2022-05-26 22:28:33 · 467 阅读 · 0 评论 -
029 大数据之即席查询Presto&Kylin
正常解压安装包[atguigu@hadoop102 software]$ tar -zxvf presto-server-0.196.tar.gz -C /opt/module/# 创建存储数据文件夹[atguigu@hadoop102 presto-server-0.196]$ mkdir data# 编写配置内存管理的文件夹[atguigu@hadoop102 presto-server-0.196]$ mkdir etc# 编写配置数据源的配置文件夹[atguigu@hadoop102原创 2022-05-18 22:20:03 · 938 阅读 · 0 评论 -
025 大数据之Sqoop
1、Apache Sqoop慌了! Apache Sqoop正式退役?2、Sqoop的安装和配置正常解压[atguigu@hadoop102 conf]$ tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/修改配置文件[atguigu@hadoop102 conf]$ cat sqoop-env.sh # Licensed to the Apache Software Foundation (ASF) un原创 2022-05-01 22:12:02 · 1806 阅读 · 0 评论 -
024 大数据之Flink
1、Spark与Flink对比1232、Spark Streaming保证Exactly-Once语义3、Kafka auto.offset.reset值详解4、从Lambda架构到Kappa架构再到?浅谈未来数仓架构设计~5、详解数仓中的数据分层:ODS、DWD、DWM、DWS、ADS原创 2022-03-20 18:32:43 · 2969 阅读 · 0 评论 -
023 博客集锦之Github
【Git】(1)—工作区、暂存区、版本库、远程仓库git pull时冲突的几种解决方式git reset --soft,–hard的区别原创 2022-03-17 22:03:21 · 706 阅读 · 0 评论 -
022 Spark内核
1、Spark yarn模式运行机制2、大数据开发:Spark通讯架构解析3、RPC是什么,看完你就知道了4、深入理解Spark任务调度原创 2022-03-15 21:44:40 · 2374 阅读 · 0 评论 -
021 Spark Streaming
1、简介Spark Streaming抽象、架构与原理Spark Streaming 背压(Back Pressure)机制原创 2022-03-09 21:28:23 · 1833 阅读 · 0 评论 -
020 Spark SQL(IDEA+MAVEN+SLF4J)
1、IDEA 使用Spark SQL163、Spark SQL实战开发进阶之CLI命令行使用【Hive】beeline连接报错 root is not allowed to impersonate root (state=08S01,code=0)resourceslog4j.propertieslog4j.rootCategory=ERROR, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.append原创 2022-03-09 21:01:26 · 1593 阅读 · 0 评论 -
019 大数据之Spark
1、Spark概述Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。在绝大多数的数据计算场景中,Spark确实会比MapReduce更有优势。但是Spark是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致Job执行失败,此时,MapReduce其实是一个更好的选择,所以Spark并不能完全替代MR。Spark Core:Spark Core中提供了Spark最基础与最核心的功能,Spark其他的功能如:Spark SQL,Spark Streaming原创 2022-02-24 22:46:09 · 1085 阅读 · 0 评论 -
018 The Scala Programming Language
1、Scala介绍Scala(百度百科)学习Scala的几个原因:1)大数据主要的批处理计算引擎框架Spark是基于Scala语言开发的2)大数据主要的流式计算引擎框架Flink也提供了Scala相应的API3)大数据领域中函数式编程的开发效率更高,更直观,更容易理解.............................................原创 2022-02-06 11:04:05 · 1722 阅读 · 0 评论 -
017 大数据之HBase
1、Apache HBaseHbase简介1.2、HBase逻辑结构1.3、HBase物理存储结构1)Name Space:命名空间,类似于关系型数据库的database概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是hbase和default,hbase中存放的是HBase内置的表,default表是用户默认使用的命名空间;2)Table:类似于关系型数据库的表概念。不同的是,HBase定义表时只需要声明列族即可,不需要声明具体的列。这意味着,往HBase写入数据时,原创 2022-02-03 14:44:18 · 3119 阅读 · 0 评论 -
016 大数据之Kafka
1、APACHE KAFKA概念【Kafka】Kafka简单介绍Kafka 3.0 Documentation原创 2022-01-24 22:25:30 · 1352 阅读 · 0 评论 -
015 大数据之Flume
1、Apache Flume初识【Flume】Flume 简单理解及使用实例Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume-og采用了多Master的方式。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据原创 2022-01-22 11:42:33 · 1967 阅读 · 0 评论 -
014 大数据之HIVE实战
1、HIVE的计算引擎hive的引擎mapreduce、tez和spark三者比较hive sql执行方式对比(tez,mapreduce,spark,storm)TEZ和MapReduce区别Flink on Hive构建流批一体数仓MR引擎在HIVE 2中将被弃用,官方推荐使用TEZ或SPARK等引擎,在实际应用中如果使用TEZ或者SPARK计算时出现内存溢出的问题(TEZ和SPARK都是内存式计算),可以考虑使用MR进行运算,虽然慢但是肯定会出结果。Flink使用HiveCatalog可原创 2022-01-17 22:28:19 · 1796 阅读 · 0 评论 -
013 大数据之HIVE压缩和存储
上一篇文章:012 大数据之HIVE查询1、Hive的数据压缩介绍及使用1、HIVE的输入编解码器不需要设置,使用文件扩展名自动判断是否支持,Hive的Map、Reduce压缩功能默认不开启;2、Hive常见的存储格式的区别与应用场景,SequenceFile实现合并小文件,SequenceFile格式与mapreduce;3、HIVE使用Map、Reduce压缩功能时需要开启hive中间传输数据压缩功能,才可正常使用;4、snappy最常作为企业数据压缩格式,但不支持切分,而LZO可通过使用索引原创 2022-01-16 19:02:46 · 223 阅读 · 0 评论 -
012 大数据之HIVE查询
1、DBeaver连接HIVE查询实战1.1、HiveServer2的相关知识Hive架构之HiveServer2Prerequisites: Have Hive installed and setup to run on Hadoop cluster.HiveServer2 a.k.a HS2 is a second-generation Hive server that enables:① Remote clients to execute queries against the Hive s原创 2022-01-06 22:26:53 · 2338 阅读 · 0 评论 -
011 大数据之Hive基础
1、Hive基本概念1.1、Hive概述概念:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC dr原创 2022-01-03 11:34:39 · 1664 阅读 · 0 评论 -
010 Zookeeper
1、Zookeeper入门1.1、概念Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应.1.2、Zookeeper特点及理解1.3、Zookeeper 数据结构详解................................................................原创 2021-12-29 22:36:10 · 1135 阅读 · 0 评论 -
009 Hadoop 优化&新特性&HA
压缩算法原始文件大小压缩文件大小压缩速度解压速度自带切分改程序gzip8.3GB1.8GB17.5MB/s58MB/s是否否bzip28.3GB1.1GB2.4MB/s9.5MB/s是是否LZO8.3GB2.9GB49.3MB/s74.6MB/s否是是输入压缩:(Hadoop使用文件扩展名判断是否支持某种编解码器,core-site.xml)org.apache.hadoop.io.co.................原创 2021-12-27 21:55:02 · 955 阅读 · 0 评论 -
008 Yarn资源调度器
1、Yarn基本架构2、Yarn工作机制3、作业提交全过程4、资源调度器目前,Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。Hadoop3.1.3默认的资源调度器是Capacity Scheduler。yarn-default.xml<property> <description>The class to use as the resource scheduler.</descriptio原创 2021-12-25 17:12:48 · 751 阅读 · 0 评论 -
007 Hadoop之MapReduce深入
1、MapReduce框架原理MapTask的sort:快速排序(内存) + 归并排序(磁盘)ReduceTask的sort:归并排序(磁盘 or 内存)MapTask.java@Override public void run(final JobConf job, final TaskUmbilicalProtocol umbilical) throws IOException, ClassNotFoundException, InterruptedException { t原创 2021-12-19 22:11:53 · 1663 阅读 · 0 评论 -
006 Hadoop之MapReduce初识
MapReduce概念:MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并行运行在一个Hadoop集群上。MapReduce优点易于编程:它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。易于扩展:当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。高容错性:ha原创 2021-12-18 14:17:17 · 1595 阅读 · 0 评论 -
002 VMware Workstation 安装 CentOS 7 小结【桥接模式】
查看Linux分区(fdisk -l)及其文件系统格式(blkid)[root@localhost ~]# fdisk -l磁盘 /dev/sda:42.9 GB, 42949672960 字节,83886080 个扇区Units = 扇区 of 1 * 512 = 512 bytes扇区大小(逻辑/物理):512 字节 / 512 字节I/O 大小(最小/最佳):512 字节 / 512 字节磁盘标签类型:dos磁盘标识符:0x000c8e5b 设备 Boot Start原创 2021-12-05 20:53:31 · 326 阅读 · 0 评论 -
001 物理机、虚拟机、有线网卡、无线网卡组局域网
设置对象:物理机A、物理机B、虚拟机A、虚拟机B物理机A:虚拟机A:原创 2021-11-28 14:40:21 · 1087 阅读 · 0 评论 -
003 Hadoop集群搭建
前提: 准备好三台可以互相通信的虚拟机,虚拟机创建教程可以参考我的上一篇博客1、编写集群分发脚本rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。# scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname# 命令 递归 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称scp -r /o原创 2021-12-11 16:57:19 · 1399 阅读 · 0 评论 -
004 Hadoop之HDFS初识
1、初识HDFSHDFS:Hadoop Distributed File System场景:一次写入多次读出,其本身不支持修改,适合用来做数据分析,并不适合做网盘优点:高容错行、适合大数据处理、构建在廉价机上缺点:不适合低延时访问、小文件存储不高效、不支持并发写入和文件随机修改1.1、HDFS组成架构NameNode:管理数据块映射、配置副本策略、处理客户端读写请求;DataNode:存储实际的数据块、执行数据块的读/写操作;Client:对上传HDFS的文件切块、从NameNode获取文原创 2021-12-14 21:32:49 · 726 阅读 · 0 评论 -
005 Hadoop之HDFS深入
1、HDFS的写入数据流程Hadoop-clienthadoop的FileSystem类中,遍历文件目录的三种方法(源码和区别)通过FileSystem对象操作HDFS的方法就不过多讲了,请参考官网示例原创 2021-12-15 22:09:04 · 1411 阅读 · 0 评论