浮云6363-优快云博客

原创 hive2.0中常用的内置函数大全

目录数学函数abs(x)：返回绝对值greatest(T v1, T v2, ...):求最大值least(T v1, T v2, ...)：求最小值round(DOUBLE a)：四舍五入round(DOUBLE a, INT d)：指定精度的四舍五入bround(DOUBLE a)：银行家舍入法bround(DOUBLE a, INT d)：银行家指定精度的舍入法,保留d位小数floor(DO...

2018-12-09 00:29:05 5327 1

原创 Linux常用命令汇总及示例

一、认识Linux系统及基础命令1 构成2 重要的二级目录3 基础命令二、文件管理命令：Linux中没有后缀之分1 增：mkdir touch2 删、清空3 改：vim3.1 命令模式：刚刚打开时进入命令模式3.2 插入模式：在命令模式中按i，进入插入模式3.3 最后行模式：在命令模式下，按shift+：，进入最后行模式4 查：more、cat、less、hea...

2018-12-05 19:44:34 20976 6

原创 spark3优化小文件参数

spark3 sql中优化小文件参数。

2025-04-23 10:50:17 560

原创【GaussDB】查看表和数据库信息

查询表是否做过表分析，执行如下命令会返回每个表最近一次做analyze的时间，没有返回时间的则表示没有做过analyze。使用系统表pg_tables查询数据库所有表的信息。使用函数pg_get_tabledef查询表定义。通过系统表pg_database查询数据库列表。查询public下的表做表分析的时间。查询表的总大小（包含表的索引和数据）查询系统中所有表占用空间大小排行。查询表的数据大小（不包括索引）

2023-06-07 11:05:01 17747

原创【flink sql】kafka连接器

R/W 列定义了一个元数据是可读的（R）还是可写的（W）。只读列必须声明为 VIRTUAL 以在 INSERT INTO 操作中排除它们。连接器可以读出消息格式的元数据。格式元数据的配置键以 ‘value.’ 作为前缀。Kafka 连接器提供从 Kafka topic 中消费和写入数据的能力。以下的连接器元数据可以在表定义中通过元数据列的形式获取。这篇博客聊聊怎么通过flink sql连接kafka。如果元数据名称和字段名称是一致的，可以省略。

2023-03-23 11:43:49 3188

原创【flink sql】创建表

框架会定期发出所生成的最大的 watermark ，如果当前 watermark 仍然与前一个 watermark 相同、为空、或返回的 watermark 的值小于最后一个发出的 watermark ，则新的 watermark 不会被发出。在 CREATE TABLE 语句中，创建主键会修改列的 nullable 属性，主键声明的列默认都是非 Nullable 的。主键可以和列的定义一起声明，也可以独立声明为表的限制属性，不管是哪种方式，主键都不可以重复定义，否则 Flink 会报错。

2023-03-21 20:05:43 3597

原创【flink sql】函数使用

如果数字 1 或整数 2 为 NULL，则返回 NULL。返回一个字符串，该字符串将位置 INT1 中的 INT2（默认情况下为 STRING2 的长度）替换为位置 INT1 中的 STRING2。返回字符串1在字符串2的位置，位置从1开始，如果不在字符串2中，返回0，如果出现多次，返回第一次出现的位置。去除字符串2中两边包含字符串1，如果只有一个字符串参数，则去除字符串两边的空格。将字符串1中包含字符串2的用字符串3替换，支持正则表达式。如果没有第二个参数，则返回四舍五入的整数。不应该是0.5的吗？

2023-03-20 20:53:36 1533

原创【Python】ValueError: If using all scalar values, you must pass an index

Python报错误：ValueError: If using all scalar values, you must pass an index

2023-01-31 16:15:51 689

原创【python】The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all

【python】pandas判断报错：The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all。

2022-10-25 10:45:28 1583

原创【kafka报错】java.lang.NoSuchMethodError: org.apache.zookeeper.ZooKeeper.＜init＞

启动kafka报错：java.lang.NoSuchMethodError: org.apache.zookeeper.ZooKeeper.(Ljava/lang/String;ILorg/apache/zookeeper/Watcher;Lorg/apache/zookeeper/client/ZKClientConfig;)V

2022-10-07 20:11:58 1800 2

原创【PostgreSQL】PostgreSQL的upsert功能(insert on conflict do)的用法

PostgreSQL 的 upsert 功能：当记录不存在时，执行插入；否则，进行更新。

2022-07-08 21:12:21 4987

原创【presto】行转列和列转行

行转列数据源：select * from test.tmp_row_to_col;568810800017635002 210100026066367206568810800017635002 210100026070369019568810800017635002 210100026038823395568810800017635002 210100026038921817568811800170738001 210100016048730468568811800170738001

2022-05-03 16:59:48 9538 1

原创【presto】url函数

提取函数URL方法用于从HTTP URLs（或者是任何满足RFC 2396标准的有效URIs）中提取相应的信息。URL方法支持如下的语法：[protocol:][//host[:port]][path][?query][#fragment]被从URLs中提取出来的部分，不会包括URI的语法分隔符（如:或者?）url_extract_fragment(url) → varchar从URL返回fragment标识符select url_extract_fragment('https://blog.c

2022-05-03 16:16:26 1384

原创【presto】json函数

转换为JSON支持由BOOLEAN, TINYINT, SMALLINT, INTEGER, BIGINT, REAL, DOUBLE或VARCHAR转换。当ARRAY中的元素是以上类型时支持转换。当map的key的类型是VARCHAR，value类型是以上类型时支持转换。SELECT CAST(NULL AS JSON); -- NULLSELECT CAST(1 AS JSON); -- JSON '1'SELECT CAST(9223372036854775807 AS JSON); --

2022-05-03 15:06:39 9496

原创合并本地或hdfs上的小文件

众所周知，HDFS中过多的小文件，会给NameNode造成很大的压力，所谓的小文件，是指远远小于文件块大小的文件。在使用HDFS的过程中，应尽量避免生成过多的小文件。本文以TextFile为例，介绍一下从本地–>HDFS、HDFS–>本地、以及HDFS–>HDFS的文件上传下载移动过程中，对小文件的合并方法。将本地的小文件合并，上传到HDFS假设存放在本地的数据由很多个小文件组成，需要上传到HDFS。一般的做法是在本地使用脚本、程序先把小文件合并后再上传。其实没有必要，HDFS中

2022-04-30 15:46:37 2482

原创 hive的craete table as

Create Table As Select (CTAS)hive中还可以通过一个 create-table-as-select (CTAS) 语句中的查询结果来创建和填充表。 CTAS 创建的表是原子的，这意味着在填充所有查询结果之前，其他用户看不到该表。因此，其他用户要么看到包含完整查询结果的表，要么根本看不到该表。CTAS 中有两个部分，SELECT 部分可以是 HiveQL 支持的任何 SELECT 语句。 CTAS 的 CREATE 部分从 SELECT 部分获取结果模式，并使用其他表属性（

2022-04-22 23:39:45 5676

原创误删hive表如何恢复

CDH环境,已配置回收站,配置回收站默认日期保存为一天失误将hive表数据删除,删除的数据移动到了回收站中,位于/user/hive/.Trash/删除日期XXX/hive/warehouse数据库名.db/表名 先查看表名文件中是否是删除的表hdfs dfs -ls /user/hive/.Trash/Currerrt/user/hive/warehouse/数据库据库名.db | grep 表名对于有分区的表,额外执行msck repair table 数据库.表名对于该表有权限管理

2022-04-05 21:32:29 2576

转载 GaussDB通过merge into高效更新导入数据

GaussDB(DWS)支持的MERGE INTO功能，可以同时进行大数据量的更新与插入。对于数据仓库是一项非常重要的技术。

2022-04-05 14:22:03 4125

原创【presto】函数大全

presto函数大全

2022-03-27 22:04:07 22365 5

原创解放生产力，VSCode使用小技巧

使用一个工具，我们不仅要学会运用工具解决我们的需求和功能，还要学会如果使用工具提高我们的生产力，这样能更高效完成工作，剩余时间可以摸摸鱼或学习。下面让我们一起来看看VSCode常用的小技巧和快捷键。Let’s GO！！！首页情况设置：文件–>首选项–>设置快捷键设置常用快捷键查找快捷键方式：Ctrl + K Ctrl + S显示所有命令： Ctrl + Shift + p快速打开文件： Ctrl + p重开一行：光标在行尾的话，回车即可；不在行尾，Ctrl + En

2022-03-26 23:07:11 1875

原创【presto】时间函数汇总

目录获取当前日期：current_date()获取当前时间：current_time()获取当前日期和时间：current_timestamp()获取当前日期和时间：now()字符串转时间戳：cast(string, timestamp)字符串转时间戳：date_parse(string, fromat)bigint转时间戳时间戳转biging时间戳格式化： format_datetime(timestamp,format)时间戳取年月日字符串转年月日bigint转年月日时间间隔：date_diff(uni

2022-03-17 22:59:46 26481

转载网易云音乐面向用户增长的数据治理实践

大数据时代，用户的行为深刻影响着企业产品的变革与创新，如何追溯和分析用户行为，沉淀数字资产，并利用它实现精准化营销和产品价值提升，需要更多的探索与实践。本次分享的题目为用户分群数据化运营智能决策引擎数据开发实践，将结合网易云音乐产品实例，阐述数仓侧如何从0到1开展用户数据产品的开发与治理，实现用户增长。

2022-02-20 11:42:01 1370

转载快手如何搭建一个好的数据指标体系？

一个好的数据指标体系可以助力业务快速的解构业务、理解业务、发现业务问题，快速定位原因，并且找到最合适的解决方案。因此学习搭建一个好的数据指标体系是数据助力业务决策的灵魂。

2022-02-20 11:35:26 870

原创 MySQL列转行(group_concat函数)

在MySQL中，如何将列转成一行？比如一个一个商品会属于多个分类(如华为手机可以是手机分类，也可以是数码分类)，如何将此商品在一条数据中展现所有分类。思路很简单，通过MySQL函数group_concat即可解决。创建测试表：create table test.test_mysql_liezhuanhang (id bigint auto_increment comment '主键',name varchar(100),age int(5),prima

2021-12-16 22:37:22 6079

原创 MySQL行转列

在MySQL中，有字段存储类型为varchar，值为用某个符号分割的数组，如何进行行转列？整体思路：利用mysql.help_topic中从0开始自增help_topic_id字段和想要行转列的表进行join产生笛卡尔积，运用MySQL的substring_index(str,delim,count)函数将字段一个一个分割。substring_index(str,delim,count)str:要处理的字符串delim:分隔符count:计数(如果是正数，从左至右截取count个，负数则从右至左截

2021-11-26 21:09:17 1677

原创 hadoop启动和停止脚本

#!/bin/bashHADOOP_HOME=/opt/modules/hadoop-2.7.3cd ${HADOOP_HOME}#start namenode./sbin/hadoop-daemon.sh start namenodeif [ $? -eq 0 ]; then echo start namenode success!! #start datanode ./sbin/hadoop-daemon.sh start datanode if [ $? -eq 0

2021-11-21 10:29:52 1313

原创 Jupyter Notebook设置环境变量和修改默认的工作目录

设置环境变量1.在搜索框中直接搜索，点击环境变量2.打开环境变量3.找到path双击打开可以在用户环境变量的path中添加，也可以在系统环境变量中添加，区别在于用户环境变量仅在此用户下有效，系统环境变量对电脑下所有用户有效。C:\Users\PC\Anaconda3\Library\binC:\Users\PC\Anaconda3\Scripts上面路径中的PC为用户名，总而言之就是填写你安装Anaconda的目录下Scripts和Library\bin的路径生产配置文件首先打开你的

2021-11-14 20:13:28 5754

原创 hive修改表路径

hive分为内部表和外部表，两种表修改路径方式不一样。内部表设置新的路径alter table tb_table1 set location 'hdfs://cluster/hive/warehouse/test.db/tb_table2移动表的文件hdfs dfs -mv /hive/warehouse/test.db/tb_table1 /hive/warehouse/test.db/tb_table2外部表因为外部表删除表并不会删除文件，所以可以先删除表drop table tab

2021-10-31 16:54:19 6143

原创 vim编辑器查找某个词

进入命令模式下输入：/XXX，这个是查找文件中“xxx”这个单词，是从文件上面到下面查找；？xxx，这个是查找文件中“xxx”这个单词，是从文件下面到上面查找，不管用/还是？查找到第一个字符串后，按回车，vim会高亮所有的匹配文；ubuntu下默认的是incsearch模式，就是输完命令后，会自动显示第一个（或最后一个）匹配。如果输入：set noincsearch 会转到普通模式，不会自动显示第一个匹配，回车后显示所有匹配。高亮所有的匹配后，按n键转到下一个匹配，按N键转到上一个匹配。..

2021-10-10 11:36:52 1734

原创 windows连接WSL-ubuntu里安装的MySQL

推荐使用root用户，或者在每条命令前面加上sudo搜索MySQL： apt search mysql-server**安装MySQL：**执行 sudo apt install mysql-server安装完成后查看MySQL服务状态：sudo service mysql status启动MySQL服务：sudo service mysql start登录MySQL：sudo mysql -u root -p这里需要我们输入密码，但是我们还没设置密码，默认密码为空，直接回车就好了修改my

2021-09-05 22:49:25 1510

原创 hadoop 异常问题解决：NameNode is still loading. Redirecting to the Startup Progress page

环境：apache hadoop 3.2.2 、机器发生重启，集群异常关闭现象：重启hdfs和yarn服务，底层namenode和datanode都没有报错，但是在namenode的web ui上报错这种一般发生在一个namenode挂掉之后，隔一段时间重启，那么这个重启namenode需要加载到最新的fsimage，这种情况就是正常的，根据fsimage大小，加载的时间长短也是不一样的。如果加载很慢，修改hadoop-env.sh,对其参数进行内存调优# 扩大一下2个参数的jvm使用内存，原来

2021-09-05 17:22:17 3210

原创 windows子系统(wsl)Ubuntu18.4Hadoop的50070访问不了

在Windows子系统(wsl)Ubuntu18.4中安装了Hadoop3.2.2版本，然后启动那么namenode和datanode，通过jps发现服务正常，但是访问namenode的web界面却访问不了。首先我们来看看子系统用的是哪个ip再看看Windows的ip，可以看出两个ip是一致的，所以子系统可以访问外网修改core-site.xmlwe文件：<configuration>  <pr

2021-09-05 17:14:37 866

原创浅谈企业数据中台建设思路

迎各位关注我的个人微信公众号：赶令，将会定期更新大数据相关知识及个人心得虽然数据中台已经提出很久了，但很多中小型企业还是停留在传统数据库或者简单的数据仓库阶段。随着DT时代互联网、智能设备及其他信息技术的发展，数据爆发式增长，各种结构化、半结构化、非结构化数据不断的产生。在新环境下，数据应用呈现出数据来源多、业务变化快、系统耦合多、应用深度深、大数据组件复杂多样等特征。如何将这些数据进行有序、有结构地组织和存储是企业面临的一个挑战。那么基于以上特征，改如何构建数据中台？可以从方法论、产品+工具、

2021-09-05 00:51:46 1396

原创电商商品指标分析

商品是电商系统中最重要的业务模型，某种程度上说，电商就是围绕于商品进行的，不管在电商供应链、电商营销、还是推荐，商品都有其非常重要的地位。那么我们该如何评估商品带来的价值及反馈给运营及时调整策略呢？首先我们简单了解下电商商品流程流向，从流程中不难看出，整体都是围绕着商品(以下出现的专业词语在上篇文章中已经解释：浅谈电商商品数模建设)。简单了解完商品流向后，我们可以从以下维度及指标去衡量商品的情况：维度的选取用户、门店、供应商、订单等指标分类商品总数指标spu数：spu资料库中的数量(可

2021-08-21 23:41:24 3652

原创浅谈电商商品数模建设

目录一、专业术语解释1、商品2、 SPU3、 SKU4、 SPU、SKU和商品的关系二、商品数据模型1、概念模型2、物理模型最近在做电商商品的数仓建设，初次相遇电商商品，很多专业术语、概念都是一脸茫然的，本文简单介绍下商品中常见专业术语的含义及数据模型。欢迎关注微信公众号：赶令一、专业术语解释1、商品说起商品模型，我们不得不先搞清楚一个概念，什么是商品？结合百度百科，我们可以认为：商品是为了出售而生产的劳动成果。例如我们今天所购买的XXX项目的票，XXX手机品牌，我们都可以认为是商品。商

2021-08-16 23:12:13 1507

转载【工具】Windows Terminal美化（oh-my-posh3）

目录一.安装主题 [^1]二.编辑相应配置文件 [^2]三.安装Nerd Fonts字体并应用[^3]四.在vscode中power shell样式（可选）前一段时间想美化一下Windows Terminal，无奈网上教程比较乱，美化中途也遇到了许多问题，于是，便想写一篇文章关于怎么美化Windows Terminal。网上看到的教程大多数是关于oh-my-posh2的，现在oh-my-posh升级到3了，一些地方有些小的变化。关于oh-my-posh2的教程，oh-my-posh的作者在GitHub

2021-07-18 15:26:55 2171 4

转载 Win10系统常用的快捷键（绝对很详细）

目录前言介绍01-Win系列快捷键使用02-Ctrl系列快捷键使用03-Shift系列快捷键使用04-Alt系列快捷键使用前言介绍快捷键，也就是刷刷按几下键盘上的组合键就可以达到鼠标点很多下才能实现的效果。我们熟知的Ctrl+C、Ctrl+V，就是快捷键。快捷键不光能提高我们的工作效率，还能提高我们使用电脑的（Bi）格。不多说，接下来我将介绍我常用的这20多个快捷键，看看你会几个？01-Win系列快捷键使用Win+D，快速进入桌面Win+D，俗称老板键，就是说你在工作的时候看剧、浏览无关网页

2021-07-12 12:29:10 15990 1

转载 Git删除暂存区或版本库中的文件

故事前提小明今天遇到了一个bug，莫名奇妙改着改着就乱了，万分后悔，一心想回退到之前的版本重新开始，不过庆幸的是使用了git托管，一起来看看git作为管理工具的强大之处吧。基础Git有三大区（工作区、暂存区、版本库）以及几个状态（untracked、unstaged、uncommited），下面只是简述下Git的大概工作流程，详细的可以参见其他有关Git的文章。打开你的项目文件夹，除了隐藏的.git文件夹，其他项目文件位于的地方便是工作区，工作区的文件需要添加到Git的暂存区（git add）

2021-07-05 16:09:04 1536

原创 2059 - Authentication plugin ‘caching_sha2_password‘ cannot be loaded: dlopen(../Frameworks/caching_

navicat连接mysql报错如下：2059 - Authentication plugin 'caching_sha2_password' cannot be loaded: dlopen(../Frameworks/caching_sha2_password.so, 2): image not found原因：由于目前已有的客户端连接软件还不支持mysql 8新增加的加密方式caching_sha2_password，所以我们需要修改用户的加密方式，将其改为老的加密验证方式。use mysq

2021-06-10 14:37:36 1668

原创 Pycharm安装第三方库的简易方法

使用python时，为了提高效率，安装添加第三方库是必不可少的。这里介绍一个简易的采用pycharm安装第三方库的方法：1…打开pycharm，先点击File,弹出的菜单中再点击settings。mac快捷键command+,，windows快捷键ctrl+alt+s2.点击settings之后再点击project下面的project Interpreter，在出现的界面中，点击上面界面右上角的“+”，如下图所示：3.在出现的界面中搜索需要安装的第三方库，比如“pymysql”。然后点击界面左下角

2021-06-10 10:44:17 4204 2

Spark原著中文版

过去的几年中，计算系统经历着重大的变革，为了满足不断增长的数据量和处理速度需求，越来越多的应用向分布式系统扩展。如今，从互联网到企业运作，再到科技设备，不尽其数的数据源都在产生大量的、有价值的数据流。然而，单一的机器处理能力并没有跟上数据增长的速度，使得这些有价值的数据越来越难以被使用。以至于越来越多的组织——不仅仅是互联网公司，还有一些传统企业和研究室——迫切需要将他们重要的计算能力扩展到成百上千台机器上去。在这同时，数据处理所需的速度和复杂性也在逐渐增加。在许多领域中，除了简单的查询，像机器学习和图分析这样的复杂算法也得到日益广泛的应用。另外，除了批量处理，一些组织还需要在实时数据源上进行流分析，以保证能够及时采取行动。未来的计算平台不仅需要能满足常规作业的扩展，同时也需要对新的应用有更好的支持。针对上述的各种问题，本文提出了一种集群计算架构，能够解决这些新出现的数据处理作业的需求，同时还可以应对越来越大规模的扩展。虽然早期的集群计算系统，如 MapReduce，已经能够进行批量处理，但我们的架构更支持流处理和交互查询，并且拥有和之前系统相同的可扩展性和容错性。然而当前所部署的大部分的系统仅支持简单的单路运算(例如,聚合或SQL查询)，而我们的系统针更为复杂的分析（例如，机器学习的迭代算法）扩展到了对多路算法的支持。最后，与处理特定工作的专有系统不同的是，我们的架构允许这些算法相互结合，从而实现更丰富的新应用。例如，流处理和批量处理，或 SQL 和复杂分析之间的相互结合。为了实现上述的各种特性，我们通过简单的扩展 MapReduce，为其增加了数据共享原语，也就是所谓的弹性分布式数据集（RDDs）。我们发现，这样的扩展足以能够有效地覆盖大部分作业的需求。在开源的 Spark 系统中我们实现了 RDDs，同时使用了模拟测试程序和真实的用户应用对其进行评估。在许多应用领域中，Spark 已经接近或是超过了专有系统的性能，同时提供更强大的容错保证，并允许这些作业之间能够进行结合。我们从理论建模和实践的角度去探索 RDDs 的通用性，来解释为什么这样的扩展可以覆盖大范围的不同作业需求。

2018-11-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人