- 博客(50)
- 资源 (1)
- 收藏
- 关注
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark SQL的shuffle分区设置】的总结分析
Spark SQL的shuffle分区设置
2023-03-05 17:12:13
768
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark SQL基本概念】的总结分析
Spark SQL是Spark多种组件中其中一个, 主要是用于处理大规模的结构化数据什么是结构化数据:一份数据集, 每一行都是有固定的列, 每一列的类型都是一致的, 我们将这种数据集称为结构化的数据例如: MySQL表数据1 张三 202 李四 183 王五 21为什么要学习Spark SQL呢?1- 会SQL的人, 一定比会大数据的人多2- Spark SQL既可以编写SQL语句, 也可以编写代码, 甚至支持混合使用。
2023-03-05 16:59:21
126
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Spark程序与PySpark程序交互流程】的总结分析
Spark程序与PySpark程序交互流程
2023-02-05 16:21:00
379
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【基于Pycharm完成PySpark入门案例(下)】的总结分析
基于Pycharm完成PySpark入门案例(下)
2023-02-05 16:10:27
214
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【基于Pycharm完成PySpark入门案例(上)】的总结分析
基于Pycharm完成PySpark入门案例
2023-02-05 16:07:10
359
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Kafka的基本介绍】的总结分析
Kafka是Apache旗下的一款开源免费的消息队列的中间件产品,最早是由领英公司开发的, 后期共享给Apache, 目前已经是Apache旗下的顶级开源的项目, 采用语言为Scala 官方网站: http://www.kafka.apache.org适用场景: 数据传递工作, 需要将数据从一端传递到另一端, 此时可以通过Kafka来实现, 不局限两端的程序 在实时领域中, 主要是用于流式的数据处理工作。
2023-01-09 23:31:51
112
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【DWB层构建】的总结分析
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U8lyoHlA-1669378314454)(笔记-新零售项目-DWB层构建.assets/image-20221110201552623.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OKOTfTAY-1669378314454)(笔记-新零售项目-DWB层构建.assets/image-20221112140100879.png)]3、筛选业务表关键字段,建立目标表。
2022-11-25 20:12:56
854
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【数据建模模型】的总结分析
【代码】【博学谷学习记录】超强总结,用心分享|狂野大数据课程【数据建模模型】的总结分析。
2022-11-25 20:10:52
518
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【指标和维度】的总结分析
【代码】【博学谷学习记录】超强总结,用心分享|狂野大数据课程【指标和维度】的总结分析。
2022-11-25 20:08:22
157
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Sqoop框架】的总结分析
1 、Sqoop的导入导出导入: RDBMS -----> Hadoop平台 导出: Hadoop平台 -----> RDBMS 2 、Sqoop的重点是写导入导出的命令 3 、Sqoop的底层是没有Reduce的MRSqoop这是机械性将数据源的数据一条条进行搬移,不需要对数据做额外的聚合,所以不需要Reduce。
2022-11-25 20:06:40
547
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【MapReduce】的总结分析
学习MapReduce的意义1 、面试需求 2 、MR是分布式计算的鼻祖,理解分布式计算的思想和架构 3 、HiveSQL底层默认就是MR 4 、很多的分布式计算引擎都借鉴了MapReduce大数据计算引擎的发展第一代:MapReduce --- > IO硬盘 + 网络第二代:Tez --- > IO硬盘 + 网络 + DAG第三代:Spark --- > 内存 + 网络 + DAG第四代:Flink --- > 内存MapReduce思想。
2022-09-25 23:36:26
337
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【HDFS框架(二)】的总结分析
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JXSn0xeX-1663574182206)(HDFS框架.assets/image-20220917163637510.png)]操作步骤1-动态上线。操作步骤2-动态下线。
2022-09-19 15:57:10
388
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【HDFS框架】的总结分析
介绍1 、HDFS的全称Hadoop Distributed File System,Hadoop分布式文件系统 2 、HDFS来自谷歌的论文GFS特点。
2022-09-19 15:40:07
140
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Zookeeper框架】的总结分析
1 、ZK本身也是一个集群 2 、ZK本身也可以存数据(配置数据) ,可以理解为一个数据库 3 、ZK单独使用没有任何意义,ZK用来管理别的框架 4 、ZK顶层是Java语言 5 、ZK集群允许部分主机宕机,ZK集群中最坏情况下,只要有大于一半的主机在工作,集群就能维持运转(过半机制)
2022-09-04 22:07:38
429
原创 【博学谷学习记录】超强总结,用心分享|狂野大数据课程【Shell编程】的总结分析
入门案例1、编写Shell脚本2、shell的运行方式方式1-脚本可以没有执行权限方式2-脚本必须有执行权限方式3-脚本必须有执行权限------结论--------shell的数据类型shell的变量用户自定义变量使用变量环境变量特点环境量的查看自定义环境变量使用环境变量特殊变量变量的内容实例shell的字符串自定格式操作shell的运算符运算符类型例子shell的流程控制
2022-08-28 23:02:16
235
原创 【博学谷学习记录】超强总结,用心分享|大数据前置课程【File类】的总结分析
对于File而言,其封装的并不是一个真正存在的文件,仅仅是一个路径名而已.它可以是存在的,也可以是不存在的.将来是要通过具体的操作把这个路径的内容转换为具体存在的
2022-08-21 22:27:50
72
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人