嘎嘎想学习-优快云博客

原创一文SparkSQL

SparkSQL的两种数据模型：DataFrame、DataSet1. DataFrame:DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。DataFrame是为数据提供了Schema的视图。可以把它当做数据库中的一张表来对待。

2022-10-12 19:19:40 1742

原创 Spark中的RDD数据模型

Spark可以将一个作业切分多个任务后，发送给Executor节点并行计算，而能够并行计算的任务数量我们称之为并行度。

2022-10-07 19:15:35 469

原创 Spark中的RDD数据模型

Spark中的RDD数据模型

2022-10-05 15:48:31 996

原创 Hbase整合Hive

Hbase整合Hive

2022-09-20 20:19:23 853

原创 Hbase中的shell操作

Hbase中的shell操作

2022-09-19 17:45:27 1257

原创 hive实战——谷粒影音

对于给定的video日志数据，先利用mapreduce程序进行数据清洗，把数据的存储格式按我们的要求存入文件。

2022-09-02 16:09:25 769

原创韩老师——数据结构---单向环形链表解决约瑟夫问题java代码实现

数据结构---单向环形链表解决约瑟夫问题java代码实现

2022-09-02 10:30:13 277

原创韩老师数据结构——双向链表的增删改查操作代码实现及思路分析

【代码】韩老师数据结构——双向链表的增删改查操作代码实现及思路分析。

2022-09-01 12:04:25 150

原创韩老师——数据结构与算法—单链表的生成及增删改查操作和常见关于链表的面试题java代码实现

【代码】韩老师——数据结构与算法—单链表的生成及增删改查操作和常见关于链表的面试题java代码实现。

2022-08-31 12:17:47 205

原创 hive存储格式的对和存储压缩相结合

Hive支持的存储数据的格式主要有：TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。TEXTFILE 、SEQUENCEFILE为行存ORC、PARQUET为列存。

2022-08-30 18:37:26 532

原创 hive自定义UDF函数

之后利用Maven将代码打包后上传到hive安装目录下的lib下边（可以选择重启hive,或者热添加的方式让jar包生效）注意：这里的evaluate方法的方法名不能写别的名字，只能写死。老API是继承UDF，编写evaluate方法，实现函数功能。例子：查询员工表的name字段的name字符长度。案例：编写函数实现给定一个字符串，输出其长度。之后编写函数，利用jar包里的类实现函数功能。函数编写后就可以在SQL语句中使用函数了。...

2022-08-30 17:20:43 471

原创韩顺平老师——数组模拟队列和环形队列代码实现

【代码】韩顺平老师——数组模拟队列和环形队列。

2022-08-29 22:49:52 166

原创 hive中表数据的导入和导出

hive中表数据的导入和导出

2022-08-26 18:56:16 1103

原创 hive中对库和表的增删改查操作

hive中的表没有分区时，查找数据会全局扫描，当数据量大时会浪费时间，加上分区后不同区的表存储在不同的文件，访问时可以根据分区访问文件，节省时间。可以使用ALTER DATABASE命令为某个数据库的DBPROPERTIES设置键-值对属性值，来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的，包括数据库名和数据库所在的目录位置。如果数据库不为空，可以采用cascade命令，强制删除。如果创建的时外部表，删表后数据还在。...

2022-08-26 16:21:41 1061

原创数据结构——稀疏数组（棋盘存档问题）java实现代码

稀疏数组压缩二维数组

2022-08-25 17:20:10 324

原创 Hive on Tez配置过程

此时的hive已经配置完成，可以使用mapreduce引擎进行操作，前提是集群的hdfs,yarn开启，并且启动hive前，要先启动metastore和hiveserver2这两个服务。也可以直接把log4j-slf4j-impl-2.10.0.jar 删了，我就是这么搞的，也没有问题。以上命令启动后会在后台运行，启动之后jps所在的shell命令行，会显示两个runjar,即为启动成功。因为MySQL的密码策略，需要设置一个比较复杂的密码（此处先随便设置一个复杂的密码）是在hadoop的目录下创建。

2022-08-25 10:15:26 870

原创 java多线程的两种创建方式

多线程的创建，方式一：继承于Thread类 * 1.创建一个继承于Thread类的子类 * 2.重写Thread类的run（）-->将此线程的操作声明在run（）中 * 3.创建Thread类的子类的对象 * 4.通过子类对象调用start（） * * @author zz * @creat 2022-02-26-14:35 *///1.创建一个继承于Thread类的子类class MyThread extends Thread { //2.重写Thread类的run（）.

2022-04-13 14:56:14 427

m0_45847655的博客

原创一文SparkSQL

原创 Spark中的RDD数据模型

原创 Spark中的RDD数据模型

原创 Hbase整合Hive

原创 Hbase中的shell操作

原创 hive实战——谷粒影音

原创韩老师——数据结构---单向环形链表解决约瑟夫问题java代码实现

原创韩老师数据结构——双向链表的增删改查操作代码实现及思路分析

原创韩老师——数据结构与算法—单链表的生成及增删改查操作和常见关于链表的面试题java代码实现

原创 hive存储格式的对和存储压缩相结合

原创 hive自定义UDF函数

原创韩顺平老师——数组模拟队列和环形队列代码实现

原创 hive中表数据的导入和导出

原创 hive中对库和表的增删改查操作

原创数据结构——稀疏数组（棋盘存档问题）java实现代码

原创 Hive on Tez配置过程

原创 java多线程的两种创建方式

空空如也

空空如也