OnePandas-优快云博客

原创大数据本地环境搭建03-Spark搭建

需要提前部署好 Zookeeper/Hadoop/Hive 环境。

2024-02-03 15:29:22 1249

1）NameNode 内存计算2）Hadoop2.x系列，配置 NameNode 内存NameNode 内存默认 2000m，如果内存服务器内存 4G，NameNode 内存可以配置 3g。在 hadoop-env.sh 文件中配置如下3）Hadoop3.x系列，配置 NameNode 内存（1）hadoop-env.sh 中描述 Hadoop 的内存是动态分配的（2）查看 NameNode 占用内存（3）查看 DataNode 占用内存。

2024-02-01 20:57:20 1542

原创 Linux命令之 printf 详解

每次格式化时传入两个参数。前一个参数对应第一个替代符，后一个参数对应第二个替代符。

2024-01-31 21:08:18 963

原创 Linux命令之 vim 详解

所有的 Unix Like 系统都会内建 vi 文书编辑器，其他的文书编辑器则不一定会存在。但是目前我们使用比较多的是 vim 编辑器。vim 具有程序编辑的能力，可以主动的以字体颜色辨别语法的正确性，方便程序设计。

2024-01-31 21:08:02 1001

原创 Linux命令之 sed 详解

【代码】Linux命令之 sed 详解。

2024-01-31 21:07:36 413

原创 SparkSQL之函数解析

!! expr - Logical not.不的意思Examples:> SELECT ! true; false> SELECT ! false; true> SELECT ! NULL; NULLSince: 1.0.0!=expr1 != expr2 - Returns true if expr1 is not equal to expr2, or false otherwise.如果 expr1 不等于 expr2 则返回 true，否则返回 fa

2024-01-30 19:31:19 1636

原创 Hive之set参数大全-22(完)

在 Hive 中，是一个配置参数，用于指定是否启用矢量化处理复杂数据类型。该参数用于控制是否启用 Hive 的矢量化执行引擎对复杂数据类型（例如结构体、数组、映射等）进行矢量化处理。矢量化执行是一种通过同时处理多个数据元素来提高查询性能的技术。默认情况下，的值通常是未设置的，由 Hive 使用其默认的配置。你可以通过 Hive 的配置文件或者在 Hive 命令行中使用SET命令来配置这个参数。该参数通常是一个布尔值，表示是否启用矢量化处理复杂数据类型。true表示启用，false表示禁用。

2024-01-30 19:22:16 1772

原创 Hive之set参数大全-21

在 Hive 中，是一个配置参数，用于指定是否启用用户定义表函数（UDTF）的自动进度报告。该参数用于控制是否在执行用户定义表函数（UDTF）时自动报告进度。自动进度报告允许用户在执行长时间运行的 UDTF 时获得进度信息。默认情况下，的值通常是未设置，由 Hive 使用其默认的进度报告策略。你可以通过 Hive 的配置文件或者在 Hive 命令行中使用SET命令来配置这个参数。该参数通常是一个布尔值，表示是否启用 UDTF 的自动进度报告。true表示启用，false表示禁用。

2024-01-30 19:21:18 1320

原创 Hive之set参数大全-20

在 Hive 中，是一个配置参数，用于指定在 Tez 会话期间是否打印事件的摘要信息。该参数用于控制 Tez 会话期间是否打印事件的摘要信息。Tez 会话包括了一系列的事件，这些事件可以提供关于任务执行和性能的有用信息。默认情况下，的值通常是未设置或设置为false，表示默认情况下不打印事件的摘要信息。你可以通过 Hive 的配置文件或者在 Hive 命令行中使用SET命令来配置这个参数。该参数通常是一个布尔值，表示是否打印 Tez 会话期间事件的摘要信息。

2024-01-28 16:13:15 1305

原创 Hive之set参数大全-19

在 Hive 中，是一个配置参数，用于指定用于计算列的唯一值数（NDV，即基数）的算法。该参数用于控制在收集表或列的统计信息时，Hive 使用的算法来估计列的唯一值数。默认情况下，的值通常是hll，表示使用 HyperLogLog 算法进行唯一值数的估计。你可以通过 Hive 的配置文件或者在 Hive 命令行中使用SET命令来配置这个参数。hllnosamplingauto使用不同的算法可能会影响唯一值数的估计精度和计算性能。HyperLogLog 算法通常用于大型数据集，以更高效地估计唯一值数。

2024-01-28 16:12:23 1332

原创 Hive之set参数大全-18

请注意，具体的配置和效果可能会根据 Hive 和 Spark 的版本以及其他环境因素而有所不同。请注意，具体的配置和效果可能会根据 Hive 和 Spark 的版本以及其他环境因素而有所不同。请注意，具体的配置和效果可能会根据 Hive 和 Spark 的版本以及其他环境因素而有所不同。请注意，具体的配置和效果可能会根据 Hive 和 Spark 的版本以及其他环境因素而有所不同。请注意，具体的配置和效果可能会根据 Hive 和 Spark 的版本以及其他环境因素而有所不同。

2024-01-27 18:32:49 1495

原创 Hive之set参数大全-17

请注意，这样的设置只对当前 HiveServer2 会话有效，当 HiveServer2 重新启动时，设置将被重置为默认值。请注意，这样的设置只对当前 HiveServer2 会话有效，当 HiveServer2 重新启动时，设置将被重置为默认值。请注意，这样的设置只对当前 HiveServer2 会话有效，当 HiveServer2 重新启动时，设置将被重置为默认值。请注意，这样的设置只对当前 HiveServer2 会话有效，当 HiveServer2 重新启动时，设置将被重置为默认值。

2024-01-27 18:31:43 1546

原创 Hive之set参数大全-16

在 Hive 中，是一个参数，用于配置 HiveServer2 的传输模式。该参数定义了 HiveServer2 使用的传输协议，可以是二进制（Binary）或 HTTP。以下是设置其中，是传输模式，可以是binary或http。请注意，这样的设置只对当前 HiveServer2 会话有效，当 HiveServer2 重新启动时，设置将被重置为默认值。如果您希望永久性地更改配置参数，可以在 Hive 的配置文件中进行修改，并需要重新启动 HiveServer2 服务以使更改生效。

2024-01-26 20:10:12 1595

原创 Hive之set参数大全-15

在 Hive 中，是一个参数，用于配置是否允许 Tez 会话使用自定义队列。该参数影响在 HiveServer2 中执行的 Tez 会话是否可以选择使用自定义的队列。以下是设置其中，是布尔值，用于启用或禁用 Tez 会话使用自定义队列。请注意，这样的设置只对当前 HiveServer2 会话有效，当 HiveServer2 重新启动时，设置将被重置为默认值。如果您希望永久性地更改配置参数，可以在 Hive 的配置文件中进行修改，并需要重新启动 HiveServer2 服务以使更改生效。

2024-01-26 20:09:24 1630

原创 Hive之set参数大全-14

在 Hive 中，是一个配置参数，用于指定 Hive 复制过程中存储用户定义函数（UDF）副本的根目录。这个参数控制了复制过程中 UDF 的存储位置。上述语句表示 Hive 复制过程中将用户定义函数的副本存储在目录中。确保指定的路径对 Hive 进程是可读写的。在 Hive 复制过程中，复制用户定义函数是为了保持元数据和用户定义函数的一致性。通过设置参数，可以指定存储副本的位置。在设置这个参数之前，建议根据你的环境需求和存储方案进行评估。

2024-01-26 20:08:38 1583

原创 Hive之set参数大全-13

是一个 Hive 配置参数，用于控制在执行 Skew Join 操作时是否进行编译时优化。Skew Join 是一种处理数据倾斜（skew）的连接操作的技术，它可以提高查询性能。如果被设置为true，则表示在编译阶段会对 Skew Join 进行优化。这通常包括生成更有效的执行计划，以减轻数据倾斜带来的性能问题。如果设置为false，则不会进行编译时的优化，而是依赖运行时的动态优化。默认情况下，这个参数通常是开启的，以确保在编译时尽量提前优化 Skew Join 操作。

2024-01-23 10:34:52 1331

原创 Hive之set参数大全-12

是 Hive 的配置参数之一，用于指定是否尝试在 Hive Metastore 中使用直接 SQL 查询执行 DDL（数据定义语言）操作。这个参数的默认值通常是false，表示不尝试使用直接 SQL 查询执行 DDL 操作。如果将其设置为true，则 Hive Metastore 在执行 DDL 操作时将尝试使用直接 SQL 查询，而不是使用 Hive Metastore 的默认存储实现。使用直接 SQL 查询执行 DDL 操作可能会提高性能，特别是在处理大型表和复杂的元数据操作时。

2024-01-23 10:34:03 1521

原创 Hive之set参数大全-11

这个参数的值通常是一个实现了特定接口的 Java 类，负责处理 Hive Metastore 中与文件系统交互相关的操作。主要用于本地模式运行的 Hive 任务，而对于在分布式模式下运行的任务，Hive 通常会使用 YARN（Yet Another Resource Negotiator）或其他资源管理器来分配内存，因此本地内存的设置可能不会直接生效。设置较大的最大容量可能有助于确保缓存能够容纳足够的元数据对象，提高性能，特别是在大型 Hive Metastore 中。

2024-01-21 09:38:12 1285

原创 Hive之set参数大全-10

是Apache Hive中的一个配置属性，用于指定LLAP（Low Latency Analytical Processing）引擎任务调度器中重新启用节点的最大超时时间。将替换为您希望设置的最大超时时间，通常是一个正整数，表示毫秒数。如果您想在Hive的配置文件（通常是）中进行永久设置，可以添加以下配置：</</</将上述XML片段添加到Hive配置文件中，并重新启动Hive服务以使更改生效。此属性用于控制LLAP引擎任务调度器中重新启用节点的最大超时时间。

2024-01-21 09:37:27 1333

原创 Hadoop之mapreduce参数大全-8(完)

是 Apache Hadoop MapReduce 中的一个配置属性，用于指定 JobHistoryServer 的 REST API 中用于 CSRF 保护的自定义标头。该属性用于设置用于 CSRF 保护的自定义 HTTP 标头。在启用 CSRF 保护的情况下，该属性指定用于验证请求的自定义标头。这有助于增强安全性，因为攻击者需要包含正确的自定义标头才能执行受保护的 REST API 操作。默认情况下，可能没有设置自定义标头。

2024-01-17 20:48:43 1126

原创 Hadoop之mapreduce参数大全-7

文件中配置的，该文件位于 Hadoop 的配置目录中。文件中配置的，该文件位于 Hadoop 的配置目录中。文件中配置的，该文件位于 Hadoop 的配置目录中。文件中配置的，该文件位于 Hadoop 的配置目录中。文件中配置的，该文件位于 Hadoop 的配置目录中。文件中配置的，该文件位于 Hadoop 的配置目录中。文件中配置的，该文件位于 Hadoop 的配置目录中。文件中配置的，该文件位于 Hadoop 的配置目录中。文件中配置的，该文件位于 Hadoop 的配置目录中。

2024-01-17 20:47:22 1422

原创 Linux命令之 diff 详解

以逐行的方式，比较文本文件的异同处。如果指定要比较目录，则 diff 会比较目录中相同文件名的文件，但不会比较其中子目录。其他小技巧: 有时候我们需要以一个文件为标准, 去修改其他文件, 并且修改的地方较多时, 我们可以通过打补丁的方式完成。注意: diff描述两个文件不同的方式是告诉我们怎样改变第一个文件之后与第二个文件匹配。

2024-01-17 20:37:14 2040

原创 Linux命令之 echo 详解

Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。read 命令从标准输入中读取一行,并把输入行的每个字段的值指定给 shell 变量。7.原样输出字符串，不进行转义或取变量(用单引号)您可以使用echo实现更复杂的输出格式控制。10.将变量内容转换成大小写。同样，双引号也可以省略。6.显示结果定向至文件。8.显示命令执行结果。

2024-01-17 20:36:13 1019

原创 Linux命令之 date 详解

会把时分秒中无意义的 0 给去掉，像是原本的 08:09:04 会变为 8:9:4。另外，只有取得权限者(比如说 root)才能设定系统时间。当您不希望出现无意义的 0 时(比如说 1999/03/07)，则可以在标记中插入 - 符号，比如说。中，这样下次重新开机时系统时间才会持续保持最新的正确值。若是不以加号作为开头，则表示要设定时间，而时间格式为。当您以 root 身分更改了系统时间之后，请记得以。显示日期与设定时间(12:34:56)显示时间后跳行，再显示目前日期。显示或设定系统的日期与时间。

2024-01-17 20:35:40 2205

原创 Hive之set参数大全-9

是Apache Hive中的一个配置属性，用于指定LLAP（Low Latency Analytical Processing）引擎是否跳过对用户定义函数（UDF）进行编译检查。-- 设置LLAP引擎是否跳过对UDF进行编译检查将替换为您希望设置的值，通常是布尔值，例如，true或false。如果您想在Hive的配置文件（通常是</</</将上述XML片段添加到Hive配置文件中，并重新启动Hive服务以使更改生效。该属性用于控制LLAP引擎是否在执行时跳过对用户定义函数进行编译检查。

2024-01-17 20:32:36 1148

原创 Hive之set参数大全-8

指定LLAP（Low Latency Analytical Processing）的执行模式hive.llap.execution.mode 是Apache Hive中的一个配置属性，用于指定LLAP（Low Latency Analytical Processing）的执行模式。该属性用于决定Hive查询是否使用LLAP引擎执行。以下是使用SQL语言设置此属性的示例：-- 设置LLAP的执行模式SET hive.llap.execution.mode=<desired_mode>;

2024-01-17 20:31:45 1086

原创 Hadoop之mapreduce参数大全-6

文件中配置的，该文件位于 Hadoop 的配置目录中。确保理解任务提交器的行为，以及设置适当的取消超时时间，以平衡任务取消的迅速性和提交器完成的可能性。通过设置这个配置属性，可以在 Hadoop 集群中利用节点标签功能，将 Reduce 任务限制在特定类型的节点上运行，以满足 Reduce 任务对硬件或软件环境的特定需求。通过设置这个配置属性，可以在 Hadoop 集群中利用节点标签功能，将 Map 任务限制在特定类型的节点上运行，以满足 Map 任务对硬件或软件环境的特定需求。

2024-01-10 20:29:55 2226

原创 Hadoop之mapreduce参数大全-5

通过设置这个配置属性，可以在 Hadoop 集群中利用节点标签功能，将 AM 限制在特定类型的节点上运行，以满足 AM 对硬件或软件环境的特定需求。通过设置这个配置属性，可以在 Hadoop 集群中利用节点标签功能，将作业限制在特定类型的节点上运行，以满足作业对硬件或软件环境的特定需求。是 Hadoop MapReduce 框架中的一个配置属性，用于指定在启用 Map 任务对于中间文件（Intermediate File）的预读取（read-ahead）时，要预读取的字节数。

2024-01-10 20:29:24 1331

原创 Hadoop之mapreduce参数大全-4

启用中间结果的压缩可以减小磁盘空间的占用，减少数据在网络上传输的带宽需求，从而提高整个作业的性能。与任务容器日志不同，ApplicationMaster 容器的日志包含了整个应用程序的运行信息，包括作业的启动、进度等。通过设置合适的轮询时间间隔，可以平衡客户端对作业进度的及时获取和减小对资源的过度消耗。是 Hadoop YARN 框架中的一个配置属性，用于限制应用程序的 MapReduce ApplicationMaster（AM）的容器日志的最大大小，单位为千字节（KB）。

2024-01-09 20:04:13 2350

原创 Hadoop之mapreduce参数大全-3

但需要注意，设置过小的值可能导致生成的切片数量过多，增加任务启动和管理的开销，而设置过大的值可能导致某些 Map 任务处理过大的数据块而效率降低。需要注意的是，标记和重置缓冲区大小的百分比的设置需要根据集群的硬件配置和实际的读取需求进行调整。需要注意的是，允许的最大运行中任务数的设置需要根据集群的硬件配置和实际的性能需求进行调整。需要注意的是，允许的最大任务数的设置需要根据集群的硬件配置和实际的性能需求进行调整。需要注意的是，允许的最小任务数的设置需要根据集群的硬件配置和实际的性能需求进行调整。

2024-01-09 20:03:11 2449

原创 Hive之函数解析

此外还有很多数学函数：绝对值函数: abs()、正取余函数: pmod()、正弦函数: sin()、反正弦函数: asin()、余弦函数: cos()、反余弦函数: acos()、positive函数: positive()、negative函数: negative()它的功能是如果value为NULL，则NVL函数返回default_value的值，否则返回value的值，如果两个参数散都为NULL，则返回NULL。如果传入参数都为true，则返回true，否则返回false。

2024-01-08 21:22:45 1233

原创 Linux命令之 find 详解

Linux find 命令用于在指定目录下查找文件和目录。

2024-01-07 18:45:30 585

原创 Hive之set参数大全-7

确保查看你所使用的 Hive 版本的官方文档，以获取最准确的配置信息。确保查看你所使用的 Hive 版本的官方文档，以获取最准确的配置信息。确保查看你所使用的 Hive 版本的官方文档，以获取最准确的配置信息。确保查看你所使用的 Hive 版本的官方文档，以获取最准确的配置信息。确保查看你所使用的 Hive 版本的官方文档，以获取最准确的配置信息。确保查看你所使用的 Hive 版本的官方文档，以获取最准确的配置信息。确保查看你所使用的 Hive 版本的官方文档，以获取最准确的配置信息。

2024-01-07 16:21:04 1070

原创 Hive之set参数大全-6

在 Apache Hive 中，是一个配置属性，用于指定是否允许将一些常用的 UDFs（用户定义的函数）永久加载到 LLAP（Live Long and Process）中。LLAP 是一种 Hive 执行引擎，旨在提高查询性能。以下是关于该属性的默认值通常为true。此属性指定是否允许将一些常用的 UDFs 永久加载到 LLAP 中。如果设置为true，Hive 将尝试将常用的 UDFs 永久加载到 LLAP 中，以加速查询执行。在 Hive 配置文件（通常是）中，你可以进行如下配置：</</

2024-01-07 16:19:32 1229

原创大数据本地环境搭建02-Zookeeper/Hadoop/Hive搭建

链接：https://pan.baidu.com/s/1wzbCiDxP7H5G_llwjSS3Rw?pwd=wgal提取码：wgal。

2024-01-06 22:53:52 1409 1

原创 Linux操作-数据分发脚本

数据分发脚本xsync

2024-01-06 22:12:09 437

原创 Hive之set参数大全-5

在Apache Hive中，通过语句向外部表（External Table）插入数据时，有一些注意事项和限制。外部表是Hive中的一种特殊表，它与Hive管理的存储位置外部的数据进行关联，而不是将数据移动到Hive的默认存储位置。PARTITION请注意，使用将删除外部表中的所有数据，并用新的数据进行替换。总体而言，插入外部表时，确保理解外部表的特性以及数据存储的位置是非常重要的。在插入操作之前，最好先对外部表的结构和数据存储位置进行仔细检查。

2024-01-05 23:27:39 1174

原创 Hadoop-命令操作整理

Create a file of zero length. An error is returned if the file exists with non-zero length.（创建一个长度为零的文件。如果存在长度为非零的文件，则返回错误。计算指定文件模式匹配的路径下的目录、文件和字节数。带有 -count 的输出列包括：DIR_COUNT、FILE_COUNT、CONTENT_SIZE、路径名。用户必须是文件的所有者，或者是超级用户。将文件上传到HDFS, 同 -put。直接删除,不放入回收站。

2024-01-05 23:08:34 1298

原创大数据本地环境搭建01-Linux基础环境搭建

链接：https://pan.baidu.com/s/1sV8Rkz3hR8Z7MS-KQ2pDbQ?在平时使用www.baidu.com域名访问时，最终会同dns服务器将域名解析为ip地址访问。版本应该对应java上的版本(这个是从别的地方copy的图,摆个样子)分别在 node1/node2/node3 执行以下命令。注意：上传文件位置为 /export/server目录下。上传位置为 /export/server目录。##5.1 java文件上传至服务器。继续安装centos。安装目录结构查看工具。

2024-01-05 22:59:24 1215

原创 Hadoop之mapreduce参数大全-2

需要注意的是，设置合理的超时时间可以避免Reduce任务在shuffle阶段的fetch操作中无限重试，从而影响任务的执行效率。需要注意的是，设置合理的超时时间可以避免Reduce任务在shuffle阶段的网络连接中无限等待，从而影响任务的执行效率。需要注意的是，启用网络连接的Keep-Alive特性可以减少网络连接的建立和断开次数，从而提高任务的网络传输效率。但需要注意，设置过小的值可能导致生成的切片数量过多，增加任务启动和管理的开销，而设置过大的值可能导致某些 Map 任务处理过大的数据块而效率降低。

2024-01-04 19:32:28 1454

空空如也

空空如也