不爱学习的小枫-优快云博客

原创离线-DataX

DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台，它是一个异构数据源离线同步工具致力于实现包括关系型数据库(MySQLOracle等HDFSHiveODPSHBaseFTP等各种异构数据源之间稳定高效的数据同步功能。为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。

2025-04-22 17:39:30 1169

原创 sqoop的参数及初体验

在实际工作当中，数据的导入，很多时候都是只需要导入增量数据即可，并不需要将表中的数据每次都全部导入到hive或者hdfs当中去，这样会造成数据重复的问题。这些被指定的列的类型不能使任意字符类型，如char、varchar等类型都是不可以的，同时-- check-column可以去指定多个列。如果数据库中的表具有约束条件（例如，其值必须唯一的主键列）并且已有数据存在，则必须注意避免插入违反这些约束条件的记录。它执行在数据库服务器相应的SQL查询，并将结果存储在HDFS的目标目录。

2025-04-22 16:18:59 784

原创 spark外部数据源(hive和jdbc)

Spark SQL 附带了一个用 JDBC 从其他数据库读取数据的数据源 API。它简化了查询这些数据源的方式，因为其返回的是 DataFrame，所以可以获得 Spark SQL的全部优势（包括性能方面以及与其他数据源的表进行连接的能力）

2025-03-20 21:41:54 1199

原创 spark的数据源

其中textFile算子底层调用的就是text算子，但是两者的区别是text算子返回的是DataFrame，而textFile算子返回的是DataSet，从源码可以看出，text算子支持多文件的形式。在一个分区表中，不同分区的数据通常存储在不同的目录中，分区列的值通常就包含在了分区目录的目录名中。ORC主要还是针对Hive的存储格式，如果企业中是对Hive过度依赖的话，推荐使用ORC，但如果在企业中刚开始只是用Hive管理元数据，主要的计算引擎是Spark的话，还是推荐选择Parquet.

2025-03-20 12:37:01 1163

原创 sparksql的Transformation与 Action操作

这种类型的 Join 也称为笛卡儿积（Cartesian Product），Join 左表的每行数据都会跟右表的每行数据进行 Join，产生的结果行数为 m*n，所以在生产环境下尽量不要用这种 Join。LEFT SEMI JOIN 只会返回匹配右表的数据，而且 LEFT SEMI JOIN 只会返回左表的数据，右表的数据是不会显示的，下面三种写法都是等价的。LEFT OUTER JOIN 等价于 LEFT JOIN，这个 Join 的返回的结果相信大家都知道，我就不介绍了。下面三种写法都是等价的。

2025-03-18 19:59:04 880

原创 spark-数据集（RDD,DataFrame,DataSet）

DataSet包含了DataFrame的功能，在Spark2.0中两者得到了统一： DataFrame表示为DataSet[Row]，即DataSet的子集。DataFrame 的前身是 SchemaRDD ，Row是一个泛化的无类型 JVM object，可以理解为一行具体的数据集合。DataFrame中提供了详细的数据结构信息，从而使得SparkSQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么，DataFrame中的数据结构信息，即为schema。

2025-03-18 10:51:10 1158

原创 git常用命令

git基本操作及合并

2025-03-16 19:33:44 580

原创 spark常见的submit参数

spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件，用于在集群中启动应用程序

2025-03-11 21:47:11 1157

原创 scala中三大重要方法

apply，upadte，unapply

2025-03-11 15:44:42 350

原创 scala模式匹配

Scala 中的模式匹配类似于 Java 中的 switch 语法

2025-03-11 10:02:35 461

原创 scala的集合

scala的集合系统的区分了可变（ mutable ）和不可变（immutable ）集合

2025-03-10 20:39:29 1107

原创 scala类型检测和转换

1）obj.isInstanceOf[T]：判断 obj 是不是 T 类型。2）obj.asInstanceOf[T]：将 obj 强转成 T 类型。3）classOf[T]：获取类的信息。

2025-03-09 21:43:54 428

原创 scala传递匿名函数简化的原则

如果可以推断出当前传入的表达式是一个函数体，而不是调用语句，可以直接省略下划线。_代替，但是下划线的顺序和参数的顺序是一一对应的。以一下这个标准调用为例说明问题。推导：对于多个参数，但是。，那么每个参数可以使用。

2025-03-09 09:06:46 401

原创 scala函数的至简原则

3）返回值类型如果能够推断出来，那么可以省略:和返回值类型一起省略。，那么即使函数体中使用 return 关键字也不起作用。4）如果有 return，则不能省略返回值类型，，Scala 会使用函数体的。，但是声明了参数列表，那么。5）如果函数明确声明。

2025-03-08 15:48:53 318

原创华X面试题（列转行）

通过 split(space(cast(stu_len-1 as int)),"")，构建一个对应年限大小的空数组，使用此数据进行行转列，得到对应年限的记录数，再对日期进行处理。

2025-03-06 19:33:00 179

原创 Hive-数据倾斜优化

第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；数据倾斜问题，通常是指参与计算的数据分布不均，即某个key或者某些key的数据量远超其他key，导致在shuffle阶段，大量相同key的数据被发往同一个Reduce，进而导致该Reduce所需的时间远超其他Reduce，成为整个任务的瓶颈。最长时长远大于平均时长。

2025-03-05 17:56:06 1337

原创 Hive-优化（参数优化篇）

不过，有时Hive的输入数据量是非常小的。CBO优化对于执行计划中join顺序是有影响的，其之join顺序提前，如果某张表的数据量较小，将其提前，会有更大的概率使得中间结果的数据量变小，从而使整个计算任务的数据量减小，也就是使计算成本变小。合适的map数，会让资源分配的更平均，让我们的代码运行更快，通常情况下，作业会通过input的目录产生一个或者多个map任务。当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。

2025-03-05 12:26:04 1750

原创 Hive-优化（语法优化篇）

在生产环境中，会面临列很多或者数据量很大时，如果使用select * 或者不指定分区进行全列或者全表扫描时效率很低。Hive在读取数据时，可以只读取查询中所需要的列，忽视其他的列，这样做可以节省读取开销（中间表存储开销和数据整合开销）1.列裁剪：在查询时只读取需要的列。避免select *2.分区裁剪：在查询中只读取需要的分区。遵循一个原则：尽量少的读入数据，尽早地数据收敛！

2025-03-04 22:00:44 1891

原创 HIVE的执行计划实操

所谓执行计划，顾名思义，就是对一个查询任务（sql），做出一份怎样去完成任务的详细方案。若某个Stage对应的一个MapReduce Job，其Map端和Reduce端的计算逻辑分别由Map Operator Tree和Reduce Operator Tree进行描述，Operator Tree由一系列的Operator组成，一个Operator代表在Map或Reduce阶段的一个单一的逻辑操作，例如TableScan Operator，Select Operator，Join Operator等。

2025-03-03 10:12:53 935

原创 Hive的窗口函数

具体使用语法如下：分析函数/专用窗口函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)是对指定的字段进行分组，后续都会以组为单位，把每个分组单独作为一个窗口进行统计分析操作。划分的范围被称为窗口，这也是窗口函数的由来.则整个结果集将作为单个窗口分区；如果没有 ORDER BY，我们则无法定义窗口帧，进而整个分区将作为单个窗口帧进行处理。窗口帧用于从分区中选择指定的多条记录，供窗口函数处理。

2025-03-01 13:55:19 1723

原创 Hive的内置函数

HIVE除了提供了类似mysql的sql的语法外，还提供了大量内置的函数，方便开发者来调用，编写功能丰富的处理程序。使用如下命令查看当前hive版本支持的所有内置函数。

2025-03-01 10:20:48 1629

原创 HIVE中的分组聚合语句

多重分组聚合

2025-02-28 12:39:39 429

原创传统Sql语句和Hql的执行顺序

Sql语句和Hql的执行顺序

2025-02-28 11:40:02 359

原创 HIVE数据加载

hive的数据加载

2025-02-28 11:20:30 675

原创 HIVE表操作

Hive有四种表：内部表，外部表，分区表，分桶表。分别对应不同的需求。又可将他们分为两组内部表和外部表、分区表和分桶表，其中分区表在企业中用的最多，可以说百分之八九十的表都是分区表。

2025-02-27 15:07:47 824

原创 HIVE数据类型

【代码】HIVE数据类型。

2025-02-27 10:19:29 264

原创 hdfs的读流程

客户端接收到数据包后，将它们按照正确的顺序进行重组，得到完整的数据块。

2025-02-25 13:54:23 565

原创 HDFS的写流程

需要注意的是，写入期间可能会有多个DataNode发生故障，但只要写入了最小复本数，写操作就会成功，并且这个块可以在集群中异步复制，直到达到目标复本数。

2025-02-25 13:51:53 417

原创 HADOOP系统架构

Hadoop （2.x系列以后）框架主要由四个模块组成，这些组件共同构成了Hadoop的核心架构，使得Hadoop能够处理大规模数据集的存储和计算需求。

2025-02-24 12:44:54 583

原创 DB2建表时报错：DB2 SQL Error: SQLCODE=-286, SQLSTATE=42727

问题描述：DB2在创建一个200多列的大数据表时，报错：SQL 错误 [42727]: A default table space could not be found with a page size of at least “16384” that authorization ID “PAS” is authorized to use… SQLCODE=-286, SQLSTATE=42727, DRIVER=4.16.53

2021-01-06 15:34:27 3368

原创 Node.js的初步使用--模块加载及第三方包

Node.js的初步使用--模块加载及第三方包

2021-01-05 22:57:04 636

原创 js中let、const、var 的用法和区别

js中let、const、var 的用法和区别

2021-01-04 19:54:47 427

原创 js中常见的事件对象

js中常见的事件对象

2020-12-18 22:30:31 760 2

原创 js之DOM中的元素及节点的操作

DOM树操作中的元素获取、操作元素以及对节点的使用

2020-12-16 21:24:11 442

原创 js中的数据类型及各数据类型转换

js中的数据类型及各数据类型转换

2020-12-09 17:26:23 389

原创 CSS小技巧之溢出的文字省略号表示

在日常使用中，有时会遇到文本超出所有区域的情况发生，就需要将超出的部分用省略号表示

2020-12-01 15:03:05 626

原创 CSS小技巧之三角形

在平时的网页制作中，总会遇到需要三角形的时候，下面介绍下通过css实现小三角形的效果。div { width: 0; height: 0; border-width: 20px; border-style: solid; border-color: red green skyblue yellow; font-size: 0; line-height: 0; }以上代码的含义是，先将div块的长宽都设为0，然后给定边框，样式，以及各边框的颜色，就可以显示出

2020-12-01 14:44:53 231

原创 css的优先级

CSS优先级问题：在html页面中，对于css的优先级使用，会使用以下的优先级顺序：!important >> style='' 内部样式表 >> id选择器的css样式 >> class选择器的css样式 >> 标签选择器的css样式...

2020-11-12 23:11:08 139

原创 ora数据库索引被锁解决方法

索引被锁错误描述:在程序跑批时，出现报错"sqlcode:-12801 ORA-12801: 并行查询服务器 P000 中发出错误信号ORA-00060: 等待资源时检测到死锁ORA-06512",后经过程序逐步执行，发现报错的执行sql语句’alter index index_2009 rebuild partition P19 nologging parallel 5 tablespace TBS_IDX‘该sql是创建索引，故猜测是因索引被锁造成的。解决方法--查询被锁的s.

2020-10-10 08:50:40 1592

原创 java基础学习-static详解

static静态内容的简单总结和归纳。

2020-05-21 12:24:47 334

jdk-9.0.4.rar

空空如也