自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 资源 (2)
  • 收藏
  • 关注

原创 离线-DataX

DataX 是阿里云 DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台,它是一个异构数据源离线同步工具致力于实现包括关系型数据库(MySQLOracle等HDFSHiveODPSHBaseFTP等各种异构数据源之间稳定高效的数据同步功能。为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。

2025-04-22 17:39:30 1152

原创 sqoop的参数及初体验

在实际工作当中,数据的导入,很多时候都是只需要导入增量数据即可,并不需要将表中的数据每次都全部导入到hive或者hdfs当中去,这样会造成数据重复的问题。这些被指定的列的类型不能使任意字符类型,如char、varchar等类型都是不可以的,同时-- check-column可以去指定多个列。如果数据库中的表具有约束条件(例如,其值必须唯一的主键列)并且已有数据存在,则必须注意避免插入违反这些约束条件的记录。它执行在数据库服务器相应的SQL查询,并将结果存储在HDFS的目标目录。

2025-04-22 16:18:59 741

原创 spark外部数据源(hive和jdbc)

Spark SQL 附带了一个用 JDBC 从其他数据库读取数据的数据源 API。它简化了查询这些数据源的方式,因为其返回的是 DataFrame,所以可以获得 Spark SQL的全部优势(包括性能方面以及与其他数据源的表进行连接的能力)

2025-03-20 21:41:54 1146

原创 spark的数据源

其中textFile算子底层调用的就是text算子,但是两者的区别是text算子返回的是DataFrame,而textFile算子返回的是DataSet,从源码可以看出,text算子支持多文件的形式。在一个分区表中,不同分区的数据通常存储在不同的目录中,分区列的值通常就包含在了分区目录的目录名中。ORC主要还是针对Hive的存储格式,如果企业中是对Hive过度依赖的话,推荐使用ORC,但如果在企业中刚开始只是用Hive管理元数据,主要的计算引擎是Spark的话,还是推荐选择Parquet.

2025-03-20 12:37:01 1126

原创 sparksql的Transformation与 Action操作

这种类型的 Join 也称为笛卡儿积(Cartesian Product),Join 左表的每行数据都会跟右表的每行数据进行 Join,产生的结果行数为 m*n,所以在生产环境下尽量不要用这种 Join。LEFT SEMI JOIN 只会返回匹配右表的数据,而且 LEFT SEMI JOIN 只会返回左表的数据,右表的数据是不会显示的,下面三种写法都是等价的。LEFT OUTER JOIN 等价于 LEFT JOIN,这个 Join 的返回的结果相信大家都知道,我就不介绍了。下面三种写法都是等价的。

2025-03-18 19:59:04 840

原创 spark-数据集(RDD,DataFrame,DataSet)

DataSet包含了DataFrame的功能,在Spark2.0中两者得到了统一: DataFrame表示为DataSet[Row],即DataSet的子集。DataFrame 的前身是 SchemaRDD ,Row是一个泛化的无类型 JVM object,可以理解为一行具体的数据集合。DataFrame中提供了详细的数据结构信息,从而使得SparkSQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么,DataFrame中的数据结构信息,即为schema。

2025-03-18 10:51:10 1088

原创 git常用命令

git基本操作及合并

2025-03-16 19:33:44 563

原创 spark常见的submit参数

spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件,用于在集群中启动应用程序

2025-03-11 21:47:11 1117

原创 scala中三大重要方法

apply,upadte,unapply

2025-03-11 15:44:42 340

原创 scala模式匹配

Scala 中的模式匹配类似于 Java 中的 switch 语法

2025-03-11 10:02:35 439

原创 scala的集合

scala的集合系统的区分了可变( mutable  )和不可变(immutable )集合

2025-03-10 20:39:29 1067

原创 scala类型检测和转换

1)obj.isInstanceOf[T]:判断 obj 是不是 T 类型。2)obj.asInstanceOf[T]:将 obj 强转成 T 类型。3)classOf[T]:获取类的信息。

2025-03-09 21:43:54 404

原创 scala传递匿名函数简化的原则

如果可以推断出当前传入的表达式是一个函数体,而不是调用语句,可以直接省略下划线。_代替,但是下划线的顺序和参数的顺序是一一对应的。以一下这个标准调用为例说明问题。推导:对于多个参数,但是。,那么每个参数可以使用。

2025-03-09 09:06:46 373

原创 scala函数的至简原则

3)返回值类型如果能够推断出来,那么可以省略:和返回值类型一起省略。,那么即使函数体中使用 return 关键字也不起作用。4)如果有 return,则不能省略返回值类型,,Scala 会使用函数体的。,但是声明了参数列表,那么。5)如果函数明确声明。

2025-03-08 15:48:53 303

原创 华X面试题(列转行)

通过 split(space(cast(stu_len-1 as int)),""),构建一个对应年限大小的空数组,使用此数据进行行转列,得到对应年限的记录数,再对日期进行处理。

2025-03-06 19:33:00 174

原创 Hive-数据倾斜优化

第一个 MR Job 中,Map 的输出结果集合会随机分布到 Reduce 中,每个 Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的;数据倾斜问题,通常是指参与计算的数据分布不均,即某个key或者某些key的数据量远超其他key,导致在shuffle阶段,大量相同key的数据被发往同一个Reduce,进而导致该Reduce所需的时间远超其他Reduce,成为整个任务的瓶颈。最长时长远大于平均时长。

2025-03-05 17:56:06 1322

原创 Hive-优化(参数优化篇)

不过,有时Hive的输入数据量是非常小的。CBO优化对于执行计划中join顺序是有影响的,其之join顺序提前,如果某张表的数据量较小,将其提前,会有更大的概率使得中间结果的数据量变小,从而使整个计算任务的数据量减小,也就是使计算成本变小。合适的map数,会让资源分配的更平均,让我们的代码运行更快,通常情况下,作业会通过input的目录产生一个或者多个map任务。当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。

2025-03-05 12:26:04 1707

原创 Hive-优化(语法优化篇)

在生产环境中,会面临列很多或者数据量很大时,如果使用select * 或者不指定分区进行全列或者全表扫描时效率很低。Hive在读取数据时,可以只读取查询中所需要的列,忽视其他的列,这样做可以节省读取开销(中间表存储开销和数据整合开销)1.列裁剪:在查询时只读取需要的列。避免select *2.分区裁剪:在查询中只读取需要的分区。遵循一个原则:尽量少的读入数据,尽早地数据收敛!

2025-03-04 22:00:44 1851

原创 HIVE的执行计划实操

所谓执行计划,顾名思义,就是对一个查询任务(sql),做出一份怎样去完成任务的详细方案。若某个Stage对应的一个MapReduce Job,其Map端和Reduce端的计算逻辑分别由Map Operator Tree和Reduce Operator Tree进行描述,Operator Tree由一系列的Operator组成,一个Operator代表在Map或Reduce阶段的一个单一的逻辑操作,例如TableScan Operator,Select Operator,Join Operator等。

2025-03-03 10:12:53 888

原创 Hive的窗口函数

具体使用语法如下:分析函数/专用窗口函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)是对指定的字段进行分组,后续都会以组为单位,把每个分组单独作为一个窗口进行统计分析操作。划分的范围被称为窗口,这也是窗口函数的由来.则整个结果集将作为单个窗口分区;如果没有 ORDER BY,我们则无法定义窗口帧,进而整个分区将作为单个窗口帧进行处理。窗口帧用于从分区中选择指定的多条记录,供窗口函数处理。

2025-03-01 13:55:19 1623

原创 Hive的内置函数

HIVE除了提供了类似mysql的sql的语法外,还提供了大量内置的函数,方便开发者来调用,编写功能丰富的处理程序。使用如下命令查看当前hive版本支持的所有内置函数。

2025-03-01 10:20:48 1568

原创 HIVE中的分组聚合语句

多重分组聚合

2025-02-28 12:39:39 412

原创 传统Sql语句和Hql的执行顺序

Sql语句和Hql的执行顺序

2025-02-28 11:40:02 352

原创 HIVE数据加载

hive的数据加载

2025-02-28 11:20:30 653

原创 HIVE表操作

Hive有四种表:内部表,外部表,分区表,分桶表。分别对应不同的需求。又可将他们分为两组内部表和外部表、分区表和分桶表,其中分区表在企业中用的最多,可以说百分之八九十的表都是分区表。

2025-02-27 15:07:47 795

原创 HIVE数据类型

【代码】HIVE数据类型。

2025-02-27 10:19:29 258

原创 hdfs的读流程

客户端接收到数据包后,将它们按照正确的顺序进行重组,得到完整的数据块。

2025-02-25 13:54:23 525

原创 HDFS的写流程

需要注意的是,写入期间可能会有多个DataNode发生故障,但只要写入了最小复本数,写操作就会成功,并且这个块可以在集群中异步复制,直到达到目标复本数。

2025-02-25 13:51:53 392

原创 HADOOP系统架构

Hadoop (2.x系列以后)框架主要由四个模块组成,这些组件共同构成了Hadoop的核心架构,使得Hadoop能够处理大规模数据集的存储和计算需求。

2025-02-24 12:44:54 517

原创 DB2建表时报错:DB2 SQL Error: SQLCODE=-286, SQLSTATE=42727

问题描述:DB2在创建一个200多列的大数据表时,报错:SQL 错误 [42727]: A default table space could not be found with a page size of at least “16384” that authorization ID “PAS” is authorized to use… SQLCODE=-286, SQLSTATE=42727, DRIVER=4.16.53

2021-01-06 15:34:27 3343

原创 Node.js的初步使用--模块加载及第三方包

Node.js的初步使用--模块加载及第三方包

2021-01-05 22:57:04 623

原创 js中let、const、var 的用法和区别

js中let、const、var 的用法和区别

2021-01-04 19:54:47 422

原创 js中常见的事件对象

js中常见的事件对象

2020-12-18 22:30:31 757 2

原创 js之DOM中的元素及节点的操作

DOM树操作中的元素获取、操作元素以及对节点的使用

2020-12-16 21:24:11 439

原创 js中的数据类型及各数据类型转换

js中的数据类型及各数据类型转换

2020-12-09 17:26:23 382

原创 CSS小技巧之溢出的文字省略号表示

在日常使用中,有时会遇到文本超出所有区域的情况发生,就需要将超出的部分用省略号表示

2020-12-01 15:03:05 619

原创 CSS小技巧之三角形

在平时的网页制作中,总会遇到需要三角形的时候,下面介绍下通过css实现小三角形的效果。div { width: 0; height: 0; border-width: 20px; border-style: solid; border-color: red green skyblue yellow; font-size: 0; line-height: 0; }以上代码的含义是,先将div块的长宽都设为0,然后给定边框,样式,以及各边框的颜色,就可以显示出

2020-12-01 14:44:53 222

原创 css的优先级

CSS优先级问题:在html页面中,对于css的优先级使用,会使用以下的优先级顺序:!important >> style='' 内部样式表 >> id选择器的css样式 >> class选择器的css样式 >> 标签选择器的css样式...

2020-11-12 23:11:08 135

原创 ora数据库索引被锁解决方法

索引被锁错误描述:在程序跑批时,出现报错"sqlcode:-12801 ORA-12801: 并行查询服务器 P000 中发出错误信号ORA-00060: 等待资源时检测到死锁ORA-06512",后经过程序逐步执行,发现报错的执行sql语句’alter index index_2009 rebuild partition P19 nologging parallel 5 tablespace TBS_IDX‘该sql是创建索引,故猜测是因索引被锁造成的。解决方法--查询被锁的s.

2020-10-10 08:50:40 1573

原创 java基础学习-static详解

static静态内容的简单总结和归纳。

2020-05-21 12:24:47 325

jdk-9.0.4.rar

java的jdk1.9安装包,直接从oracle官网中下载,耗时需要有些久,故我在下载完成后,上传csdn中,希望可以帮助大家,一起学习,一起儿进步

2020-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除