雨中禁火-优快云博客

原创 dolphinscheduler报错：WorkflowExecuteThread:[244] - handler error:java.lang.NullPointerException:

dolphinscheduler报错：WorkflowExecuteThread:[244] - handler error:java.lang.NullPointerException: null。

2023-06-28 10:11:57 550 1

原创 Class com.hadoop.compression.lzo.LzoCodec was not found

idea 使用spark连接hive时报错：Class com.hadoop.compression.lzo.LzoCodec was not found

2022-08-15 15:45:47 1064

原创 spark-hive

报错：set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it.hive thrift接口可以参考注意代码中的hive-site.xml和集群上面的保持一致否则会报错，例如set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it..

2022-01-24 17:55:42 4162 3

原创 SQL中为null赋值的方法

SQL中为null赋值的方法NVL函数是一个空值转换函数 NVL（表达式1，表达式2）如果表达式1为空值，NVL返回值为表达式2的值，否则返回表达式1的值。该函数的目的是把一个空值（null）转换成一个实际的值。其表达式的值可以是数字型、字符型和日期型。但是表达式1和表达式2的数据类型必须为同一个类型。coalesce(arg1, arg2,arg3,arg4......); 该函数的含义是返回最近的一个为非空值的值.例: (1)coalesce(1, 2

2021-09-29 16:38:01 6406

原创 hive分区回复

当删除了hive分区表，重新运行，会没有数据所以我们需要回复hive分区表数据语法：MSCK REPAIR TABLE table_name;执行后，Hive会检测如果HDFS目录下存在但表的metastore中不存在的partition元信息，更新到metastore中。...

2021-09-26 17:49:35 296

原创 No such file or directoryssment_test.sh: line 3: /etc/profile

No such file or directoryssment_test.sh: line 3: /etc/profile判定一下脚本语言是windows 还是 Linux

2021-09-26 15:35:08 274

原创 ParseException line 125:60 missing ) at ‘as‘ near ‘＜EOF＞‘ line 144:57 missing ) at ‘as‘ near ‘＜EOF＞‘

substring_index(substring_index(content_tag,'"',-4),'"',1)as content_tag,由于单双引号在hive中不能正确识别，所以需要转义符号在SQL中能正确识别

2021-09-23 09:56:17 1377

转载对大数据指标的理解、大数据常用指标都有哪些

导读：数据指标体系是构建数据中台的重要一环。数据指标的建立让运营及产品人员更直观地看到基本指标的变动，让数据分析师更便捷地开展数据分析工作。数据指标就是将大数据之“大”的精髓给提炼出来，展现每日观察数据的使用者最迫切想要看到的统计量。数据指标体系并不是第三方服务公司的专利，只要对埋点科学地进行数据采集，每个成型的互联网公司都可以自己搭建数据指标体系。数据之大，很多时候人们并不知从哪里着手，甚至弄不清自己到底想要什么数据，这时候数据产品经理这一角色应运而生。数据产品经理既要完成数据体系设计，让原本无序或庞

2021-08-04 20:24:00 7779

原创 Kafka重点内容

\1. Kafka如何保证数据不丢失如何保证不重复producer 生产端是如何保证数据不丢失的 ack+hw+isr 都不能100%解决.consumer端是如何保证数据不丢失的 ISR： enable.auto.commit=false（手动）Kafka幂等写⼊可以保证同⼀分区数据不会重复.\2. Kafka副本ISR的作⽤?为什么需要ISR?原理是什么?检测folloer是否在线，有没有失去联系当ACK等于-1的时候，如果有follower同步过慢，会造成数据重复ISR定期检测

2021-06-23 17:57:24 168

原创 Scala中的偏函数

如果一个方法中没有match只有case，这个函数可以定义成PartialFunction偏函数。偏函数定义时，不能使用括号传参，默认定义PartialFunction中传入一个值，匹配上了对应的case，返回一个值。

2021-06-18 19:43:30 316

原创 Scala中的样例类 case class

样例类Case Class * Case Class一般被翻译成样例类，它是一种特殊的类，能够被优化以用于模式匹配。 * 当一个类被声名为case class的时候，scala会帮助我们做下面几件事情： * 1、构造器中的参数如果不被声明为var的话，它默认的是val类型的，但一般不推荐将构造器中的参数声明为var。 * 2、自动创建伴生对象，同时在里面给我们实现子apply方法，使我们在使用的时候可以不直接使用new创建对象。 * 3、伴生对象中同样会帮我们实现unapply方法，从而...

2021-06-18 19:34:33 396 1

原创 scala中list的常用操作

object listDemo { def main(args: Array[String]): Unit = { val list: List[String] = List("a", "b" ,"a") //为列表预添加元素 println("A" +: list) //在列表开头添加元素 println("c" :: list) //在列表开头添加指定列表的元素 println(List("d","e") ::: list) //复制.

2021-06-16 19:33:18 686

原创 Spark中master、worker、driver、executor

首先说一句，master和worker是物理节点，driver和executor是进程。1，master和worker节点搭建spark集群的时候我们就已经设置好了master节点和worker节点，一个集群有多个master节点和多个worker节点。master节点常驻master守护进程，负责管理worker节点，我们从master节点提交应用。worker节点常驻worker守护进程，与master节点通信，并且管理executor进程。PS：一台机器可以同时作为master和worke

2021-06-15 21:52:55 836

原创 Spark中map与flatMap

map将函数作用到数据集的每一个元素上，生成一个新的分布式的数据集(RDD)返回map函数的源码：def map(self, f, preservesPartitioning=False): """ Return a new RDD by applying a function to each element of this RDD. >>> rdd = sc.parallelize(["b", "a", "c"]) >>> sorte

2021-06-15 20:44:40 2511 2

原创 Spark中常用函数

1. filter过滤函数df.filter(df.列名==值) 或者 df.filter("列名==值") 中间可以使用(或操作|) (与操作&)2. union函数df.union(df1) 可进行行合并的操作，df与df1的列名相同3. 本地集合求并集totalset = set1 | set2 set1=set(pandas['列名'])4. pandas df 选择数据df.iat[i,0] 选择行为i，列为0的数据5. pyspark df选

2021-06-15 20:00:43 2040

原创 Spark中对Partitioner的理解

前言分区只不过是将原来大的数据分成几部分。比如分布式系统中的分区，我们可以将其定义为大型数据集的分区，并将它们存储为整个群集中的多个部分。通过分区可以减少网络I/O，从而可以更快地处理数据。在Spark中，co-group，groupBy，groupByKey等操作需要大量的I/O操作。在这种情况下，如果我们应用分区，那么我们可以快速减少I/O操作的数量，以便我们可以加速数据处理。Spark适用于数据局部性原则。工作节点获取更接近它们的处理数据。通过分区网络，I/O将减少，从而可以更快地处理数

2021-06-15 19:47:12 263

原创 Scala中的类和对象

类和对象scala是支持面向对象的，也有类和对象的概念。我们依然可以基于scala语言来开发面向对象的应用程序。创建类和对象用法：使用class来定义一个类使用new来创建对象

2021-06-08 20:45:21 130

原创 Scala中的case

一：模式匹配1.简单匹配，值匹配val bools = List(true, false)for (bool <- bools) {bool match {case true => println("heads")case false => println("tails")case _ => println("something other than heads or tails (yikes!)")}}2.类型匹配val sundries = List(23,

2021-06-08 20:42:58 458

原创 Expression not in GROUP BY key

SemanticException [Error 10025]: Line 4:0 Expression not in GROUP BY key 'device_type'selectuser_id ,device_num ,device_type ,os ，os_version ,manufacturer,carrier ,network_type,area_code ,count(1) launch_countfrom dwd_nshop.dwd_nshop_actlog_la

2021-05-19 17:07:16 4566

原创有关count()函数的用法

count(1)包括了忽略所有列，用1代表代码行，在统计结果的时候，不会忽略列值为NULL。count(*)包括了所有的列，相当于行数，在统计结果的时候，不会忽略列值为NULL。count(列名)只包括列名那一列，在统计结果的时候，会忽略列值为空。...

2021-05-19 16:30:44 1441

原创当远程连接数据库被拒绝连接

当远程连接数据库被拒绝连接ERROR 1130: Host '192.168.1.3' is not allowed to connect to this MySQL server在数据库中执行以下代码grant all privileges on *.* to '用户名'@'IP地址' identified by '密码';

2021-05-17 22:42:44 948

原创 hive中的SQL

第一章查询语句基本语法1.1 **Select***查询结构基本语法下面是一个SQL查询语句的基本结构1.2 sql****语句的执行顺序1.3 查询注意事项1.4 数据库建模关系型数据库最难的地方，就是建模（model）。错综复杂的数据，需要建立模型，才能储存在数据库。所谓"模型"就是两样东西：实体（entity）+ 关系（relationship）ER图。实体指的是那些实际的对象，带有自己的属性，可以理解成一组相关属性的容器。关系就是实体之间的联系，通常可以分成"一对一"、

2021-05-06 21:41:16 1219

原创当虚拟机报错，该虚拟机似乎正在使用中。无法打开虚拟机

当虚拟机报错，该虚拟机似乎正在使用中。无法打开虚拟机例如：解决方法：找到该虚拟机的安装目录，把以 .lck 结尾的文件及文件夹删除就可以了

2021-05-06 17:54:54 314

原创 Hive的安装部署--三种模式

Hive的安装部署Hive常用的安装分三种(注意：Hive会自动监测Hadoop的环境变量，如有就必须启动Hadoop)先从本地上传Hive安装文件apache-hive-2.1.1-bin.tar.gz到/root/soft1 嵌入式模式使用hive自带默认元数据库derby来进行存储，通常用于测试优点：使用简单，不用进行配置缺点：只支持单Session。安装步骤：1.1 解压hive并配置环境变量[root@hd01 local]tar -zxvf apache-hive

2021-04-28 21:30:38 2116

原创 Hive的基本知识

一：Hive定义1.1出现原因Hive最早来源于FaceBook ,因为FaceBook⽹站每天产⽣海量的结构化⽇志数据，为了对这些数据进⾏管理，并且因为机器学习的需求，产⽣了Hive这⻔技术，并继续发展成为⼀个成功的Apache项⽬。1.2定义：Hive是⼀个基于 Hadoop 的数据仓库⼯具，可以将结构化的数据⽂件映射成⼀张数据表，并可以使⽤类似SQL的⽅式来对数据⽂件进⾏读写以及管理。这套Hive SQL 简称HQL。Hive的执⾏引擎可以是MR、Spark、Tez。1.3本质：

2021-04-28 20:29:51 382 2

原创 HDFS、MapReduce最重要的五个图

–SecondayNamenode的工作机制(检查点机制)通过上图，可以总结如下： 1. SecondaryNamenode请求Namenode停止使用正在编辑的editlog文件，Namenode会创建新的 editlog文件(小了吧)，同时更新seed_txid文件。 2. SecondaryNamenode通过HTTP协议获取Namenode上的fsimage和editlog文件。 3. SecondaryNamenode将fsimage读进内存当中，并逐步分析editlog文件里的数据

2021-04-28 20:15:11 128

原创获取对象四种方法

反射：动态获取字节码文件对象，对其成员进行抽象化获取对象四种方法：反射，new，序列化，克隆获取字节码文件对象Class<?> class1 = Class.forname("com.qf.refect.Person");获取实例对象Objet objet = class1.newIstance();通过反射得到方法Methon methon = class1.getMethon("show");调用方法，通过调用invoke方法实现Object obj = me

2021-04-28 20:01:50 1112

原创大数据专用名词解释

常用的数据采集框架：- sqoop：用于RDBMS与HDFS之间数据导入与导出- flume：采集日志文件数据，动态采集日志文件，数据流 flume采集到的数据，一份给HDFS，用于做离线分析；一份给Kafka，实时处理- kafka: 主要用于实时的数据流处理 flume与kafka都有类似消息队列的机制，来缓存大数据环境处理不了的数据HDFS：分布式文件系统MapReduce：分布式计算系统Yarn： Hadoop2.0版本的资源调度的框架。是Hadoop

2021-04-28 19:59:57 844

原创 SQL中常用的聚合函数

SQL Server中常用的聚合函数用：1.COUNT(*) 　　　返回所有元组个数（一行数据就是一个元组）2.COUNT（）　　统计一列中值的个数3.SUM（）　　　计算一列值的总和（此列必须是数值型）4.AVG（）　　　　计算一列值的平均值（此列必须是数值型）5.MAX（）　　　　求一列值中的最大值6.MIN（）　　　　求一列值中的最小值...

2021-04-28 19:57:29 2494

原创分区、分桶练习

1.将数据放入分区表ip1(fadd,sadd,tadd,fouadd)中并进行分区,(区号:firstadd),即:ip第一位2.将数据放入分桶排序(正序)表ip2,分8个桶3.按照fadd查出第2,5桶4.按照fadd查找第2,4,6,8桶1.将数据放入分区表ip1(fadd,sadd,tadd,fouadd)中并进行分区,(区号:firstadd),即:ip第一位create external table if not exists ip1(fadd int,asdd int,tad

2021-04-28 19:50:33 168

原创简单的将数据存入数据仓库hive，并操作。

简单的将数据存入数据仓库hive，并操作。有一个用户user.txt01#bingbing#2302#liying#2003#mali#2404#xiaoli#1805#wangli#2006#mumu#23要求:1.将数据存入数据仓库users.myuser(id,name,age),需要将数据放在hdfs的/data下面2.查找年龄最大的三个人,年龄相同再按照姓名排序第一题：先将user.txt放到Linux的/boot目录下在hdfs上创建/data[root@hd

2021-04-27 20:22:45 791 1

原创 NotePad++安装NppFtp出问题

在使用Notepad++的时候，想要安装插件NppFtp，怎么下载都显示炸不到这个包找不到，安装不上：可以去朋友的那里直接把这个文件夹复制到该目录下，就能正常安装使用。

2021-04-27 08:17:22 428

原创 Python自动登录QQ空间

Python自动登录QQ空间:from selenium import webdriver#注意：#这是打开一个浏览器：以谷歌浏览器为例#同时还要下载相符性的版本驱动器，否则Python不能自动控制derver=webdriver.Chrome(executable_path=r"D:\\Google\\chrome.exe")url="https://i.qq.com/"derver.get(url)derver.implicitly_wait(10)iframe=derver.fin

2021-04-26 19:18:36 1437 2

原创 Python爬取王者荣耀英雄皮肤

Python爬取王者荣耀英雄皮肤：from urllib import requestimport jsonimport urlliburl="https://pvp.qq.com/web201605/js/herolist.json"# 请求一个数据resp=request.urlopen(url)result=resp.read().decode('utf-8')result=json.loads(result)print(result)for item in result:

2021-04-26 19:11:30 253

原创大数据的概念

大数据的定义：维基百科给出的定义：数据规模巨大到无法通过人工在合理的时间内达到截取，管理，处理并整理成为人类所解读的信息。麦肯锡全球研究所给出的定义：一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据集合。高德纳(Gartner)研究机构给出的定义： "大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。概念总结：海量数据，具有高增长率、数据类型多样化、一定时间内无法使用

2021-04-24 20:22:26 1256 1

原创 SQL的分类

execute(String sql):通常用于DDL executeUpdate(String sql):通常用于DML executeQuery(String sql):用于DQLDDL（Data Defifinition Language）：数据定义语言，用来定义数据库对象：库、表、列等； DML（Data Manipulation Language）：数据操作语言，用来定义数据库记录（数据）； DCL（Data Control Language）：数据控制语言，用来定义访问权限和

2021-04-23 21:27:33 140

原创 IO流总结

InputStream ：字节输入流 read():一个字节一个字节的读,每次读出一个字节 InputStream inputStream = new FileInputStream("test1.txt")) num = inputStream.read();---System.out.println((char)num);read(数组):一次可以读出多个字节,数组的作用:每次会将读出的字节临时放到这个数组中 (InputStream inputStream

2021-04-23 21:24:50 164

weixin_57551874的博客