自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 大数据学习18之Spark-SQL

案例:// ==================== 建立连接 ====================// 初始化配置对象并设置运行模式与 AppName// 根据配置对象初始化 SparkSession 对象// 日志级别// 在 IDEA 中开发 SparkSQL 如果遇到模型转换,需要导入隐式转换// ==================== 业务处理 ====================// 数据准备// 注册 UDF 函数})// 在 SQL 中使用val sql =

2024-11-23 08:29:08 1697

原创 大数据学习17之Spark-Core

aggregateByKey 算子和 foldByKey 算子都是给每个分区的第一个 Key 的 Value 一个初始值,如果想要再灵活点,可以使用 combineByKey 算子,因为它的第一个参数是给每个分区的第一个 Key 的 Value 一个初始值规则(使用createCombiner 函数来初始化第一个 Key 的初始值)。将数据根据指定的规则进行筛选过滤,符合规则的数据保留,不符合规则的数据丢弃。当数据进行筛选过滤后,分区不变,但是分区内的数据可能不均衡,生产环境下,可能会出现数据倾斜。

2024-11-19 20:22:44 1400

原创 大数据学习16之Spark-Core

Spark 有多种运行模式 ,local、standalone、yarn、mesos、k8s资源组的Master和Work :Cluster Master 表示 Master,负责管理与分配整个集群中的资源(CPU Core 和 Memory);Cluster Worker 表示 Worker,负责接收资源并执行作业中的任务。作业组的Master 和 Worker:Driver 表示 Master,负责管理整个集群中的作业任务调度;

2024-11-18 11:03:00 1572

原创 大数据学习15之Scala集合与泛型

Traversable 是一个特质(trait),它是其他集合的父特质,它的子特质 immutable.Traversable 和 mutable.Traversable 分别是不可变集可变集合的父特质,集合中大部分通用的方法都是在这个特质中定义的。因此了解它的功能对学习其他集合类十分重要。Iterable 代表一个可以迭代的集合,它继承了 Traversable 特质,同时也是其他集合的父特质。

2024-11-15 19:55:47 1587

原创 大数据学习14之Scala面向对象--至简原则

面向对象(Object Oriented)是一种编程思想,面向对象主要是把事物给对象化,包括其属性和行为。面向对象编程更贴近实际生活的思想,总体来说面向对象的底层还是面向过程,面向过程抽象成类,然后封装,方便使用就是面向对象(万物皆对象)。对象唯一性;抽象性(封装性);继承性;多态(多样);类是数据结构(属性)和行为(操作)的集合,是一个抽象的概念。包括方法和属性;类的具体实现;面向对象的三大特征:封装、继承、多态。Scala 中创建类和对象可以通过 class 和 new 关键字来实现。

2024-11-14 21:49:01 1492

原创 大数据学习13之Scala基础语法(重点)

方法是隶属于类或者对象的,在运行时,它会被加载到 JVM 的方法区中函数是一个对象,继承自 FunctionN,函数对象有 apply,curried,toString,tupled 这些方法,方法则没有。

2024-11-13 18:57:17 1470

原创 大数据学习12之HBase

Apache HBase(Hadoop DataBase)是一个开源的、高可靠性、高性能、面向列(这里指列族,非列式存储)、可伸缩、实时读写的分布式数据库,其设计思想来源于 Google 的 BigTable 论文。利用 Hadoop HDFS 作为其文件存储系统,利用 ZooKeeper 作为其分布式协同服务。主要用来存储非结构化和半结构化的松散数据(列式存储 NoSQL 数据库)。

2024-11-11 21:05:08 1347

原创 SQL练习题之统计连续登录七天的用户(开窗实现)

4. (困难)统计连续登录七天(含七天)以上的用户(开窗和不开窗都要求实现)。#对排序编号或日期的天去重,排除一天登录两次的情况。#对日期排序,并用denserank 开窗排序。#让日期与排序序号做差,如若连续,则差会相等。#差值相等的大于等于7则表示连续登录七天。SQL文件:user_sign.sql。#分组计数相同的差值。

2024-11-11 10:55:52 715

原创 大数据学习11之Hive优化篇

数据倾斜,即单个节点任务所处理的数据量远大于同类型任务所处理的数据量,导致该节点成为整个作业的瓶颈,这是分布式系统不可能避免的问题。MapReduce 模型中,数据倾斜问题是很常见的,因为同一个 Key 的 Values,在进GroupByKey、CountByKey、ReduceByKey、Join 等操作时一定是分配到某一个节点上的一个 Task 中进行处理的,如果某个 Key 对应的数据量特别大的话,就会造成某个节点的堵塞甚至宕机的情况。

2024-11-08 20:58:33 1416

原创 大数据学习10之Hive高级

过程:创建Maven项目,导入依赖,创建方法类,并继承响应方法类实现方法类的方法生成jar包Hive导入自定义函数jar包重新加载函数。

2024-11-06 17:41:23 1731

原创 大数据学习09之Hive基础

MetaStore 服务实际上就是一种 Thrift 服务,通过它我们可以获取到 Hive 元数据。通过 Thrift 服务获取原数据的方式,屏蔽了数据库访问需要的驱动,URL,用户名,密码等细节。HiveServer2(HS2)是一个服务端接口,使远程客户端可以执行对 Hive 的查询并返回结果。一般来讲,我们认为HiveServer2 是用来提交查询的,而 MetaStore 才是真正用来访问元数据的,所以推荐使用第二种,这种方式更加安全或者从设计上来讲更加合理,如下图所示。

2024-11-05 20:44:58 1633

原创 大数据学习08之Hadoop-MapReduce-Yarn

将大数据切分为小数据;:输入、切片、Map发散、洗牌、Reduce规约、输出:设计了统一的计算框架,隐藏处理细节,程序员只需要专注应用问题和算法:集群并发,PB数级离线处理,不擅长实时、流式、有向图DAG:将计算放到数据节点上进行。:数据海量、内存难以放入、因而外存处理,磁盘顺序访问和随机访问性能差异大。大量的低端服务器容易崩溃。

2024-11-01 21:28:49 1382

原创 大数据学习07之Hadoop-HDFS

所谓“分而治之”,就是把一个复杂的算法问题按一定的“分解”方法分为等价的规模较小的若干部分,然后逐个分别找出各部分的解,再把各部分的解组成整个问题的解。这种朴素的思想来源于人们生活与工作的实践经验,如下图。如何在内存1G的情况下,在1TB的文本文件中找到重复的两行?1.遍历(效率低,内存够,但时间复杂度较高O(n²))2.HashSet(key去重,内存不够)3.对文本的每一行取哈希值然后用1024取余,相同余数的行数据放到一个文本里,如此划分成1024个1GB大小的文本文件,然后再对每个文件用HashSe

2024-10-31 21:56:02 845

原创 大数据学习06之Zookeeper

现如今,对于多数大型互联网应用,主机众多、部署分散,而且现在的集群规模越来越大,节点只会越来越多,所以 节点故障、网络故障是常态,因此分区容错性也就成为了一个分布式系统必然要面对的问题。那么就只能在 C 和 A 之间进 行取舍。但对于传统的项目就可能有所不同,拿银行的转账系统来说,涉及到金钱的对于数据一致性不能做出一丝的让 步,C 必须保证,出现网络故障的话,宁可停止服务。而互联网非金融项目普遍都是基于 AP 模式。

2024-10-30 21:15:23 1408

原创 大数据学习05之Shell

内核基础上的一个应用程序,开机自启,呈现给用户,用户通过Shell使用Linux。俗称壳,区别于核。拥有自己的基本编程元素,因而可以在Shell中编程。Shell 也是一种编程语言,它的编译器(解释器)是 Shell 这个程序。我们平时所说的 Shell,有时候是指连接用户和内核的这个程序,有时候也指 Shell 编程。

2024-10-25 21:14:46 739

原创 大数据学习04之Linux基础配置与操作补充

以安装nginx为例此处通过rz命令直接讲源码包发送到Linux系统中在/opt目录下创建nginx目录并将源码压缩表解压到此文件。

2024-10-25 12:41:59 588

原创 大数据学习03之Linux基础配置与操作

软件安装方式大致分为以下几种使用安装包安装。macOS:dmg绿色版软件,解压即安装,解压就可以使用。使用yum命令安装,例如 yum install wget。使用源码编译安装,例如:Redis、Nginx 等。基本格式:rpm [选项] 软件包rpm -qa。

2024-10-24 15:32:44 937

原创 大数据学习02之Linux基础配置和操作

接01文件系统。

2024-10-23 20:43:56 894

原创 大数据学习01之Linux虚拟机基础配置与操作

在GNU/Linux系统(CentOS-7-x86_64-Minimal-1810.iso)界面输入如下指令:(使用CTRL+U可以清除光标之前的所有输入,CTRL+L是清屏操作)进入vi 文本界面 按 i 进入编辑将BOOTPROTO=DHCP 改为 BOOTPROTO=static;即将IP动态分配改为静态,防止虚拟机在每次启动的时候IP地址不同,从而影响后面大数据组件集群的正常启动;ONBOOT=no改为ONBOOT=yes将网络服务设为开机自启;

2024-10-22 19:27:44 987

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除