- 博客(18)
- 收藏
- 关注
原创 sparksql
Spark SQL 是 Spark 用于处理结构化数据的模块。统一的数据处理支持 SQL 查询与 Spark 生态系统集成性能优化数据仓库和数据分析实时数据分析机器学习和数据挖掘数据可视化。
2024-10-14 21:12:48
1006
原创 spark-RDD原理
缓存级别指定缓存的数据位置默认是缓存到内存上StorageLevel.DISK_ONLY # 将数据缓存到磁盘上StorageLevel.DISK_ONLY_2 # 将数据缓存到磁盘上 保存两份StorageLevel.DISK_ONLY_3 # 将数据缓存到磁盘上 保存三份StorageLevel.MEMORY_ONLY # 将数据缓存到内存 默认StorageLevel.MEMORY_ONLY_2 # 将数据缓存到内存 保存两份。
2024-10-10 20:18:50
964
原创 spark的rdd高级用法 --算子
rdd中封装了各种算子方便进行计算,主要分为两类转化算子 对rdd数据进行转化计算得到新的rdd,定义了一个线程任务action执行算子触发计算任务,让计算任务进行执行,得到结果触发线程执行的rdd的转化算子大部分都是从rdd中读取元素数据(rdd中每条数据),具体计算需要开发人员编写函数传递到rdd算子中rdd的执行算子则大部分是用来获取数据 collect方法就是触发算子。
2024-10-09 14:52:36
781
原创 spark的rdd介绍和应用
RDD是spark的一种数据模型(规定数据的存储结构和计算方法)RDD是将数据分布式存储在不同服务器的内存上,通过RDD共享不同服务器的内存数据所以Spark是基于内存进行分布式数据计算的框架。
2024-10-09 11:34:08
563
原创 索引-事务-引擎-优化(MySQL高级)
索引是数据库中用于提高数据检索效率的数据结构,通常基于表中的一个或多个列创建。它可以大大加快数据查询的速度,特别是在处理大量数据时效果更为显著。索引还可以减少查询时分组和排序的时间,加速表和表之间的连接操作,从而优化数据库的整体性能。事务是数据库管理系统执行过程中的一个逻辑单位,由一个或多个SQL语句组成,这些语句作为一个整体一起向系统提交,要么全部执行,要么全部不执行。存储引擎是数据库管理系统中用于存储数据、处理数据更新和查询的技术实现方式。不同的存储引擎具有不同的特点和适用场景。
2024-08-10 11:46:36
1325
原创 数据库基础MySQL(五 MYSQL常用函数)
在之前的几篇中,对MySQL数据库的使用做出了讲解,但是在MySQL中,有很多很经常用到的函数。这次,就对这些函数进行一个大汇总,全程干货!!!!!上车啦!!!!!
2024-08-03 10:30:34
783
原创 数据库基础MySQL(四 DQL高级查询数据 全是重点!!!)
外键约束(Foreign Key Constraint,简称FK)是关系型数据库管理系统(RDBMS)中用于维护数据一致性和完整性的一种重要机制。外键约束是指在一个表中定义一个或多个列,这些列的值必须与另一个表(通常称为主表或父表)中的一个或多个列(主键或唯一键)的值相匹配。被约束的表称为从表或子表。通过这种方式,外键约束在两个表之间建立了关联关系,确保了两个表之间数据的一致性和完整性。(1)主键 primary key(2)外键 foreign key有两张数据表,且它们之间有关联。
2024-08-02 10:11:34
1367
原创 数据库基础MySQL(三 有关数据查询)
范围查询是指在某个范围内进行查询,分别有in和between...and...。简单查询有两种方式:(1)查询所有数据(2)按不同字段名来查询数据.下面举出一些例子,供哥们儿们更深入了解该语法。注:%表示任意多个任意字符,_表示一个任意字符。后面会继续更新MySQL基础语法与操作。中,使用比较运算符来查询结果。
2024-08-01 08:58:20
520
原创 数据库基础MySQL(二 有关建表)
MySQL有多种引擎,能执行create table、select等命令,在数据量不多时,使用任何引擎都没什么关系。但是,在大数据开发期间,要处理海量数据,就需要来了解MySQL的多种引擎了。create table 表名(字段名1 数据类型(长度) [约束],字段名2 数据类型(长度) [约束],字段名3 数据类型(长度) [约束],...) engine = 引擎名 default charset utf8;字段名的结尾处可以添加SQL约束。
2024-07-28 09:15:31
518
原创 数据库基础MySQL(一)
它允许用户定义数据库中的数据结构,如表、视图、索引等,以及这些结构之间的关系。我们会发现,当确定了数据的某类型后,可以更有效的保证数据的准确性。注:通常情况下,在字符内容长度 ≤ 255时,固定长度使用char(长度),可变长度使用varchar(长度)。(2)小数:double,注意:在编程开发中,一般把小数称为浮点数;浮点数,也就是小数,可以理解为:带有小数点的数据。删除一列,指的是:删除数据表的一列字段。比如,要给年龄设定为整数类型,可写成:age int。修改表名,指的是:修改数据表的名称。
2024-07-26 12:03:52
570
原创 Apache ZooKeeper(Hadoop)详细原理和使用
例如,如果 zxid1小于 zxid2,说明 zxid1 操作先于 zxid2 发生,zxid 对于整个zk 都是唯一的,即使操作的是不同的 znode。dataVersion:数据版本号,每次对节点进行 set 操作,dataVersion 的值都会增加 1(即使设置的是相同的数据),可有效避免了数据更新时出现的先后顺序问题。首先来说一下zookeeper的工作原理,它是由leader来进行对事务请求的调度和处理,然后follower处理非客户端的事务请求。通过命令 get,可以获得节点的属性。
2024-07-25 16:02:15
1742
原创 详解MySQL窗口函数(MySQL高级)
窗口函数又被称为开窗函数,与Oracle 窗口函数类似,属于MySQL的一大特点. 非聚合窗口函数是相对于聚函数来说的。聚合函数是对一组数据计算后返回单个值(即分组),非聚合函数一次只会处理一行数据。窗口聚合函数在行记录上计算某个字段的结果时,可将窗口范围内的数据输入到聚合函数中,并不改变行数。
2024-07-19 14:49:49
701
原创 分布式存储 HadoopHDFS(此文章直接让你从小白变成入门!!!)
作用: 删除参数指定的文件和目录,参数可以有多个,删除目录需要加-r参数 如果指定-skipTrash选项,那么在回收站可用的情况下,该选项将跳过回收站而直接删除文件;否则,在回收站可用时,在HDFS Shell 中执行此命令,会将文件暂时放到回收站中。应用: hadoop fs -put /root/1.txt[linux] /dir1 [hdfs] #上传文件 hadoop fs –put /root/dir2 / #上传目录。
2024-07-17 21:03:05
559
原创 MySQL的存储过程(数据库高级)
简单的说,存储过程就是一组SQL语句集,功能强大,可以实现一些比较复杂的逻辑功能,类似于JAVA语言中的方法,类似Python中的函数;存储过就是数据库 SQL 语言层面的代码封装与重用。存储过程(Stored Procedure)是一种在数据库中存储复杂程序,以便外部程序调用的一种数据库对象。存储过程是为了完成特定功能的SQL语句集,经编译创建并保存在数据库中,用户可通过指定存储过程的名字并给定参数(需要时)来调用执行。-- 调用存储过程。
2024-07-17 10:07:45
1210
原创 Linux的用户和权限
当切换用户到普通用户的时候,当我们需要进行操作时,由于权限的不足,无法进行增删改查。此时需要我们切换为toot用户,对所建立的普通用户进行授权,为普通用户设置sudo权限。前面第一个rwx为所属用户权限,后面第二个为分组权限,最后一个为其他用户权限。r为可读权限,w为可写权限,x为可执行权限。此命令是从普通用户切换到root用户,进行此操作需要输入密码,密码就是你登录虚拟机时候的密码。此操作是为用户设置不与要密码操作,为下面普通用户使用sudo临时使用root权限提供条件。也可以使用这个命令进行修改权限。
2024-07-16 14:18:19
566
原创 有关VMware虚拟机使用NAT模式无法上网问题的解决(亲测有效)
当时在配置虚拟机时也碰到了无法ping通网址的问题,只需要右键点开虚拟机的设置选择网络适配器,将网络连接改为自定义,根据你所下载版本选择(我的是VMnet2)只要你找到后面括号内有NAT模式选择即可。然后设置完毕重启虚拟机即可。
2024-07-15 20:12:48
2037
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人