- 博客(17)
- 收藏
- 关注
原创 一文SparkSQL
SparkSQL的两种数据模型:DataFrame、DataSet1. DataFrame:DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。DataFrame是为数据提供了Schema的视图。可以把它当做数据库中的一张表来对待。
2022-10-12 19:19:40
1742
原创 Spark中的RDD数据模型
Spark可以将一个作业切分多个任务后,发送给Executor节点并行计算,而能够并行计算的任务数量我们称之为并行度。
2022-10-07 19:15:35
469
原创 韩老师——数据结构与算法—单链表的生成及增删改查操作和常见关于链表的面试题java代码实现
【代码】韩老师——数据结构与算法—单链表的生成及增删改查操作和常见关于链表的面试题java代码实现。
2022-08-31 12:17:47
205
原创 hive存储格式的对和存储压缩相结合
Hive支持的存储数据的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。TEXTFILE 、SEQUENCEFILE为行存ORC、PARQUET为列存。
2022-08-30 18:37:26
532
原创 hive自定义UDF函数
之后利用Maven将代码打包后上传到hive安装目录下的lib下边(可以选择重启hive,或者热添加的方式让jar包生效)注意:这里的evaluate方法的方法名不能写别的名字,只能写死。老API是继承UDF,编写evaluate方法,实现函数功能。例子:查询员工表的name字段的name字符长度。案例:编写函数实现给定一个字符串,输出其长度。之后编写函数,利用jar包里的类实现函数功能。函数编写后就可以在SQL语句中使用函数了。...
2022-08-30 17:20:43
471
原创 hive中对库和表的增删改查操作
hive中的表没有分区时,查找数据会全局扫描,当数据量大时会浪费时间,加上分区后不同区的表存储在不同的文件,访问时可以根据分区访问文件,节省时间。可以使用ALTER DATABASE命令为某个数据库的DBPROPERTIES设置键-值对属性值,来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的,包括数据库名和数据库所在的目录位置。如果数据库不为空,可以采用cascade命令,强制删除。如果创建的时外部表,删表后数据还在。...
2022-08-26 16:21:41
1061
原创 Hive on Tez配置过程
此时的hive已经配置完成,可以使用mapreduce引擎进行操作,前提是集群的hdfs,yarn开启,并且启动hive前,要先启动metastore和hiveserver2这两个服务。也可以直接把log4j-slf4j-impl-2.10.0.jar 删了,我就是这么搞的,也没有问题。以上命令启动后会在后台运行,启动之后jps所在的shell命令行,会显示两个runjar,即为启动成功。因为MySQL的密码策略,需要设置一个比较复杂的密码(此处先随便设置一个复杂的密码)是在hadoop的目录下创建。
2022-08-25 10:15:26
870
原创 java多线程的两种创建方式
多线程的创建,方式一:继承于Thread类 * 1.创建一个继承于Thread类的子类 * 2.重写Thread类的run()-->将此线程的操作声明在run()中 * 3.创建Thread类的子类的对象 * 4.通过子类对象调用start() * * @author zz * @creat 2022-02-26-14:35 *///1.创建一个继承于Thread类的子类class MyThread extends Thread { //2.重写Thread类的run().
2022-04-13 14:56:14
427
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人