- 博客(27)
- 收藏
- 关注
原创 Hive内核调优(三)
了解业务需求后,考虑使用直接编写MR实现,MAP的输入为用户信息表USER及所有指标表的目录下的文件,MAP输出为用户ID、指标值,REDUCE输入为用户ID、指标值序列,REDUCE输出为用户ID和按顺序排列的指标值,落地成结果文件。如下场景,需要将用户信息表USER与INDICT_1、INDICT_2、INDICT_3、INDICT_4、INDICT_5等一定数量的指标表进行关联,目标是汇总用户的所有指标到一个新的用户指标表,一方面SQL比较冗长,另一方面由于多次join性能较低。
2023-12-30 04:01:58
1144
原创 Hive内核调优(一)
注:CPU时间:表示运行程序所占用服务器CPU资源的时间。用户等待耗时:记录的是用户从提交作业到返回结果期间用户等待的所有时间。
2023-12-26 22:04:19
1287
原创 Mac M1及以上芯片在Ubuntu上使用conda安装JupyterLab
完成以上步骤后,您将拥有一个完整的JupyterLab环境,其中包括Python库、拼写检查器扩展以及Octave和C++内核。然后,浏览器将自动打开一个新选项卡,显示JupyterLab界面。在这里,您可以创建和编辑Jupyter笔记本,运行Python、Octave和C++代码等。
2023-04-07 02:44:06
708
3
原创 Ubuntu配置Python环境
现在,您已经在~/.bash_profile文件中配置了Python环境。这将确保Python和pip在您的用户会话中全局可用。请注意,这意味着您将在系统级别安装和管理Python库,这可能会导致依赖关系冲突。虚拟环境仍然是解决此问题的最佳方法。的路径(这是Python和pip通常位于的地方),那么它们应该已经在PATH中。例如,如果Python和pip的路径分别是。
2023-04-07 02:38:30
8113
3
原创 Mac 上配置 Scala 语言开发环境
Scala 是一种基于 Java 平台的语言,所以需要先安装 JDK(Java Development Kit)。可以在 Oracle 官网上下载和安装 JDK,也可以使用 Homebrew 安装 JDK。
2023-04-06 05:20:57
1202
原创 Mac 上配置 C 语言开发环境
Xcode 是 Mac 上的集成开发环境(IDE),可以用来进行 C 语言开发。它可以在 Mac App Store 上下载和安装,或者从 Apple 开发者网站下载。在安装 Xcode 时,需要同时安装 Command Line Tools,这个工具集包含了一些常用的命令行工具,包括 GCC 编译器等。
2023-04-06 05:14:22
4843
原创 Mac 通过下载软件包配置安装Python环境
如果系统已经安装了 Python,则会显示 Python 的版本信息。如果未安装 Python,则需要下载并安装。
2023-04-06 05:01:17
684
原创 Mac 上配置 JDK 1.8 的详细流程
如果系统已经安装了 JDK,则会显示 JDK 的版本信息。如果未安装 JDK,则需要下载并安装。是 JDK 1.8 的安装路径,需要根据实际安装路径进行修改。如果输出 JDK 1.8 的版本信息,则说明 JDK 配置成功。可以从 Oracle 官网下载 JDK 1.8 的安装包,至此,JDK 1.8 的配置就完成了。打开下载的安装包,按照提示进行安装。
2023-04-06 04:50:32
9480
原创 SQL概念和使用
本文介绍了 SQL 数据库的基本概念、结构以及 Mac 上的安装和客户端链接方法。此外,还介绍了 SQL 的增删改查操作、常用函数和管理员用户。掌握这些 SQL 的知识点可以帮助开发人员更好地管理和操作数据库。
2023-04-06 04:39:31
379
原创 Apache ZooKeeper
Apache Zookeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance) 等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。
2023-04-05 20:22:06
497
原创 Hive 调优指南
Apache Hive 是一个基于 Hadoop 的数据仓库解决方案,用于查询和分析大量的结构化数据。为了提高 Hive 查询性能和效率,本文将介绍一些 Hive 调优的策略和方法。
2023-04-05 19:45:22
722
原创 HiveSQL 练习题及答案
以下是一些 HiveSQL 练习题目,包括创建表、插入数据、查询数据等操作。这些题目将帮助您巩固 HiveSQL 的知识。
2023-04-05 19:27:06
639
原创 Hive部署 及 HiveSQL 概念与使用
Hive 允许用户创建自定义函数以满足特定需求。要创建一个 UDF,需要编写一个 Java 类并实现 org.apache.hadoop.hive.ql.exec.UDF 接口,然后使用 CREATE FUNCTION 语句将其注册到 Hive 中。本文介绍了如何在三台服务器上部署 Apache Hive,以及 HiveSQL 的概念和使用方法。通过部署 Hive 和使用 HiveSQL,您可以更轻松地查询和分析存储在Hadoop 上的结构化数据。
2023-04-05 19:16:31
290
原创 Apache Hive:概念与组成
Apache Hive 是一个基于 Hadoop 的数据仓库工具,适用于处理和分析大量结构化数据。Hive 提供了类 SQL 查询语言(HiveQL),便于用户查询和分析数据。然而,Hive 存在一些局限性,如查询性能较慢、不支持实时数据处理等。针对这些局限性,可以选择其他大数据工具,如 Presto、Impala 或 Apache Spark。
2023-04-05 19:03:06
409
原创 大数据之Zabbix
大数据之Zabbix文章目录大数据之Zabbix第1章 Zabbix入门1.1 Zabbix概述1.2 Zabbix 基础架构第2章 Zabbix部署2.1 集群规划2.2 准备工作2.2.1 关闭集群2.2.2 关闭防火墙(3台节点,已关闭)2.2.3 关闭SELinux(hadoop102)2.3 配置Zabbix yum源(3台节点)2.3.1 安装yum仓库2.3.2 修改zabbix仓库配置文件2.4 安装Zabbix2.5 配置Zabbix2.5.1 创建zabbix数据库2.5.2 导入Z
2022-03-18 09:58:22
942
原创 大数据之Presto
大数据之Presto文章目录大数据之Presto第1章 Presto1.1 Presto简介1.1.1 Presto概念1.1.2 Presto架构1.1.3 Presto优缺点1.1.4 Presto、Impala性能比较1.2 Presto安装1.2.1 Presto Server安装1.2.2 Presto命令行Client安装1.2.3 Presto可视化Client安装1.3 Presto优化之数据存储1.3.1 合理设置分区1.3.2 使用列式存储1.3.3 使用压缩1.4 Presto优化之
2022-03-18 09:13:50
708
原创 大数据之Superset
大数据之Superset文章目录大数据之Superset第1章 Superset入门1.1 Superset概述1.2 环境说明第2章 Superset安装2.1 安装Python环境2.1.1 安装Miniconda2.1.2 创建Python3.7环境2.2 Superset部署2.2.1 安装依赖2.2.2 安装Superset2.2.3 启动Supterset2.2.4 superset启停脚本第3章 Superset使用3.1准备MySQL数据源3.2 对接MySQL数据源3.2.1 安装依赖
2022-03-17 09:05:13
5464
原创 大数据技术之DolphinScheduler
文章目录大数据技术之DolphinScheduler第1章 DolphinScheduler简介1.1 DolphinScheduler概述1.2 DolphinScheduler核心架构第2章 DolphinScheduler部署说明2.1 软硬件环境要求2.1.1 操作系统版本要求2.1.2 服务器硬件要求2.2 部署模2.2.1 单机模式2.2.2 伪集群模式2.2.3 集群模式第3章 DolphinScheduler集群模式部署**3.1** 集群规划3.2 前置准备工作3.3 解压DolphinS
2022-03-16 15:03:04
20939
5
原创 大数据之DataX
第1章 DataX简介1.1 DataX概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 源码地址:https://github.com/alibaba/DataX1.2 DataX支持的数据源DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图。类
2022-03-16 10:17:27
4103
原创 大数据之MaxWell
第1章 Maxwell简介1.1 Maxwell概述 Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。 官网地址:http://maxwells-daemon.io/1.2 Maxwell输出数据格式注:Maxwell输出的json字段说明:字段解释da
2022-03-16 09:42:20
5658
原创 Hadoop阶段学习总结
Hadoop阶段学习总结第一部分:HDFS相关问题一、描述一下HDFS的数据写入流程 首先由客户端想NameNode服务发起写数据请求,NameNode接收到请求后会进行基本验证,验证内容包括对请求上传的路径进行合法验证其次还要对请求的用户进行权限验证。验证没有问题后,NameNode会响应客户端允许上传。接下来客户端会对文件按照blocksize大小进行切块,切完块后依次以块为单位进行上传。此时客户端会请求上传第一个块信息,服务端接收到上传请求后会依据HDFS默认的机架感知原理默认情况下返回三台
2022-03-07 11:36:23
1205
原创 LeetCode数据库题目1-123
LeetCode数据库题目1-123175. 组合两个表难度简单SQL架构表1: Person+-------------+---------+| 列名 | 类型 |+-------------+---------+| PersonId | int || FirstName | varchar || LastName | varchar |+-------------+---------+PersonId 是上表主键表2: Addr
2022-03-07 11:30:33
15621
空空如也
为什么要在 ~/.bash_profile里面配置环境
2023-04-06
TA创建的收藏夹 TA关注的收藏夹
TA关注的人