- 博客(37)
- 收藏
- 关注
原创 dolphinscheduler报错:WorkflowExecuteThread:[244] - handler error:java.lang.NullPointerException:
dolphinscheduler报错:WorkflowExecuteThread:[244] - handler error:java.lang.NullPointerException: null。
2023-06-28 10:11:57
443
1
原创 Class com.hadoop.compression.lzo.LzoCodec was not found
idea 使用spark连接hive时报错:Class com.hadoop.compression.lzo.LzoCodec was not found
2022-08-15 15:45:47
1010
原创 spark-hive
报错:set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it.hive thrift接口可以参考注意代码中的hive-site.xml和集群上面的保持一致否则会报错,例如set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it..
2022-01-24 17:55:42
3931
3
原创 SQL中为null赋值的方法
SQL中为null赋值的方法NVL函数是一个空值转换函数 NVL(表达式1,表达式2) 如果表达式1为空值,NVL返回值为表达式2的值,否则返回表达式1的值。 该函数的目的是把一个空值(null)转换成一个实际的值。 其表达式的值可以是数字型、字符型和日期型。 但是表达式1和表达式2的数据类型必须为同一个类型。coalesce(arg1, arg2,arg3,arg4......); 该函数的含义是返回最近的一个为非空值的值.例: (1)coalesce(1, 2
2021-09-29 16:38:01
6151
原创 hive分区回复
当删除了hive分区表,重新运行,会没有数据所以我们需要回复hive分区表数据语法:MSCK REPAIR TABLE table_name;执行后,Hive会检测如果HDFS目录下存在但表的metastore中不存在的partition元信息,更新到metastore中。...
2021-09-26 17:49:35
260
原创 No such file or directoryssment_test.sh: line 3: /etc/profile
No such file or directoryssment_test.sh: line 3: /etc/profile判定一下脚本语言是windows 还是 Linux
2021-09-26 15:35:08
242
原创 ParseException line 125:60 missing ) at ‘as‘ near ‘<EOF>‘ line 144:57 missing ) at ‘as‘ near ‘<EOF>‘
substring_index(substring_index(content_tag,'"',-4),'"',1)as content_tag,由于单双引号在hive中不能正确识别,所以需要转义符号 在SQL中能正确识别
2021-09-23 09:56:17
1315
转载 对大数据指标的理解、大数据常用指标都有哪些
导读:数据指标体系是构建数据中台的重要一环。数据指标的建立让运营及产品人员更直观地看到基本指标的变动,让数据分析师更便捷地开展数据分析工作。数据指标就是将大数据之“大”的精髓给提炼出来,展现每日观察数据的使用者最迫切想要看到的统计量。数据指标体系并不是第三方服务公司的专利,只要对埋点科学地进行数据采集,每个成型的互联网公司都可以自己搭建数据指标体系。数据之大,很多时候人们并不知从哪里着手,甚至弄不清自己到底想要什么数据,这时候数据产品经理这一角色应运而生。数据产品经理既要完成数据体系设计,让原本无序或庞
2021-08-04 20:24:00
7336
原创 Kafka重点内容
\1. Kafka如何保证数据不丢失 如何保证不重复producer 生产端是如何保证数据不丢失的 ack+hw+isr 都不能100%解决.consumer端是如何保证数据不丢失的 ISR: enable.auto.commit=false(手动)Kafka幂等写⼊可以保证同⼀分区数据不会重复.\2. Kafka副本ISR的作⽤?为什么需要ISR?原理是什么?检测folloer是否在线,有没有失去联系当ACK等于-1的时候,如果有follower同步过慢,会造成数据重复ISR定期检测
2021-06-23 17:57:24
126
原创 Scala中的偏函数
如果一个方法中没有match只有case,这个函数可以定义成PartialFunction偏函数。偏函数定义时,不能使用括号传参,默认定义PartialFunction中传入一个值,匹配上了对应的case,返回一个值。
2021-06-18 19:43:30
279
原创 Scala中的样例类 case class
样例类Case Class * Case Class一般被翻译成样例类,它是一种特殊的类,能够被优化以用于模式匹配。 * 当一个类被声名为case class的时候,scala会帮助我们做下面几件事情: * 1、构造器中的参数如果不被声明为var的话,它默认的是val类型的,但一般不推荐将构造器中的参数声明为var。 * 2、自动创建伴生对象,同时在里面给我们实现子apply方法,使我们在使用的时候可以不直接使用new创建对象。 * 3、伴生对象中同样会帮我们实现unapply方法,从而...
2021-06-18 19:34:33
358
1
原创 scala中list的常用操作
object listDemo { def main(args: Array[String]): Unit = { val list: List[String] = List("a", "b" ,"a") //为列表预添加元素 println("A" +: list) //在列表开头添加元素 println("c" :: list) //在列表开头添加指定列表的元素 println(List("d","e") ::: list) //复制.
2021-06-16 19:33:18
643
原创 Spark中master、worker、driver、executor
首先说一句,master和worker是物理节点,driver和executor是进程。1,master和worker节点搭建spark集群的时候我们就已经设置好了master节点和worker节点,一个集群有多个master节点和多个worker节点。master节点常驻master守护进程,负责管理worker节点,我们从master节点提交应用。worker节点常驻worker守护进程,与master节点通信,并且管理executor进程。PS:一台机器可以同时作为master和worke
2021-06-15 21:52:55
762
原创 Spark中map与flatMap
map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回map函数的源码:def map(self, f, preservesPartitioning=False): """ Return a new RDD by applying a function to each element of this RDD. >>> rdd = sc.parallelize(["b", "a", "c"]) >>> sorte
2021-06-15 20:44:40
2464
2
原创 Spark中常用函数
1. filter过滤函数df.filter(df.列名==值) 或者 df.filter("列名==值") 中间可以使用(或操作|) (与操作&)2. union函数df.union(df1) 可进行行合并的操作,df与df1的列名相同3. 本地集合求并集totalset = set1 | set2 set1=set(pandas['列名'])4. pandas df 选择数据df.iat[i,0] 选择行为i,列为0的数据5. pyspark df选
2021-06-15 20:00:43
1992
原创 Spark中对Partitioner的理解
前言分区只不过是将原来大的数据分成几部分。 比如分布式系统中的分区,我们可以将其定义为大型数据集的分区,并将它们存储为整个群集中的多个部分。通过分区可以减少网络I/O,从而可以更快地处理数据。在Spark中,co-group,groupBy,groupByKey等操作需要大量的I/O操作。 在这种情况下,如果我们应用分区,那么我们可以快速减少I/O操作的数量,以便我们可以加速数据处理。Spark适用于数据局部性原则。 工作节点获取更接近它们的处理数据。 通过分区网络,I/O将减少,从而可以更快地处理数
2021-06-15 19:47:12
216
原创 Scala中的类和对象
类和对象scala是支持面向对象的,也有类和对象的概念。我们依然可以基于scala语言来开发面向对象的应用程序。创建类和对象用法:使用class来定义一个类使用new来创建对象
2021-06-08 20:45:21
97
原创 Scala中的case
一:模式匹配1.简单匹配,值匹配val bools = List(true, false)for (bool <- bools) {bool match {case true => println("heads")case false => println("tails")case _ => println("something other than heads or tails (yikes!)")}}2.类型匹配val sundries = List(23,
2021-06-08 20:42:58
414
原创 Expression not in GROUP BY key
SemanticException [Error 10025]: Line 4:0 Expression not in GROUP BY key 'device_type'selectuser_id ,device_num ,device_type ,os ,os_version ,manufacturer,carrier ,network_type,area_code ,count(1) launch_countfrom dwd_nshop.dwd_nshop_actlog_la
2021-05-19 17:07:16
4476
原创 有关count()函数的用法
count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL。count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL。count(列名)只包括列名那一列,在统计结果的时候,会忽略列值为空。...
2021-05-19 16:30:44
1408
原创 当远程连接数据库被拒绝连接
当远程连接数据库被拒绝连接ERROR 1130: Host '192.168.1.3' is not allowed to connect to this MySQL server在数据库中执行以下代码grant all privileges on *.* to '用户名'@'IP地址' identified by '密码';
2021-05-17 22:42:44
874
原创 hive中的SQL
第一章 查询语句基本语法1.1 **Select***查询结构基本语法下面是一个SQL查询语句的基本结构1.2 sql****语句的执行顺序1.3 查询注意事项1.4 数据库建模关系型数据库最难的地方,就是建模(model)。错综复杂的数据,需要建立模型,才能储存在数据库。所谓"模型"就是两样东西:实体(entity)+ 关系(relationship)ER图。实体指的是那些实际的对象,带有自己的属性,可以理解成一组相关属性的容器。关系就是实体之间的联系,通常可以分成"一对一"、
2021-05-06 21:41:16
1035
原创 当虚拟机报错,该虚拟机似乎正在使用中。无法打开虚拟机
当虚拟机报错,该虚拟机似乎正在使用中。无法打开虚拟机例如:解决方法:找到该虚拟机的安装目录,把以 .lck 结尾的文件及文件夹删除就可以了
2021-05-06 17:54:54
271
原创 Hive的安装部署--三种模式
Hive的安装部署Hive常用的安装分三种(注意:Hive会自动监测Hadoop的环境变量,如有就必须启动Hadoop)先从本地上传Hive安装文件apache-hive-2.1.1-bin.tar.gz到/root/soft1 嵌入式模式使用hive自带默认元数据库derby来进行存储,通常用于测试优点:使用简单,不用进行配置缺点:只支持单Session。安装步骤:1.1 解压hive并配置环境变量[root@hd01 local]tar -zxvf apache-hive
2021-04-28 21:30:38
1942
原创 Hive的基本知识
一:Hive定义1.1出现原因Hive最早来源于FaceBook ,因为FaceBook⽹站每天产⽣海量的结构化⽇志数据,为了对这些数据进⾏管理,并且因为机器学习的需求,产⽣了Hive这⻔技术,并继续发展成为⼀个成功的Apache项⽬。1.2定义:Hive是⼀个基于 Hadoop 的数据仓库⼯具,可以将结构化的数据⽂件映射成⼀张数据表,并可以使⽤类似SQL的⽅式来对数据⽂件进⾏读写以及管理。这套Hive SQL 简 称HQL。Hive的执⾏引擎可以是MR、Spark、Tez。1.3本质:
2021-04-28 20:29:51
347
2
原创 HDFS、MapReduce最重要的五个图
–SecondayNamenode的工作机制(检查点机制)通过上图,可以总结如下: 1. SecondaryNamenode请求Namenode停止使用正在编辑的editlog文件,Namenode会创建新的 editlog文件(小了吧),同时更新seed_txid文件。 2. SecondaryNamenode通过HTTP协议获取Namenode上的fsimage和editlog文件。 3. SecondaryNamenode将fsimage读进内存当中,并逐步分析editlog文件里的数据
2021-04-28 20:15:11
99
原创 获取对象四种方法
反射: 动态获取字节码文件对象,对其成员进行抽象化获取对象四种方法:反射,new,序列化,克隆获取字节码文件对象Class<?> class1 = Class.forname("com.qf.refect.Person");获取实例对象Objet objet = class1.newIstance();通过反射得到方法Methon methon = class1.getMethon("show");调用方法,通过调用invoke方法实现Object obj = me
2021-04-28 20:01:50
1072
原创 大数据专用名词解释
常用的数据采集框架:- sqoop: 用于RDBMS与HDFS之间数据导入与导出- flume: 采集日志文件数据,动态采集日志文件,数据流 flume采集到的数据,一份给HDFS,用于做离线分析;一份给Kafka,实时处理- kafka: 主要用于实时的数据流处理 flume与kafka都有类似消息队列的机制,来缓存大数据环境处理不了的数据HDFS: 分布式文件系统MapReduce: 分布式计算系统Yarn: Hadoop2.0版本的资源调度的框架。 是Hadoop
2021-04-28 19:59:57
791
原创 SQL中常用的聚合函数
SQL Server中常用的聚合函数用:1.COUNT(*) 返回所有元组个数(一行数据就是一个元组)2.COUNT() 统计一列中值的个数3.SUM() 计算一列值的总和(此列必须是数值型)4.AVG() 计算一列值的平均值(此列必须是数值型)5.MAX() 求一列值中的最大值6.MIN() 求一列值中的最小值...
2021-04-28 19:57:29
2435
原创 分区、分桶练习
1.将数据放入分区表ip1(fadd,sadd,tadd,fouadd)中并进行分区,(区号:firstadd),即:ip第一位2.将数据放入分桶排序(正序)表ip2,分8个桶3.按照fadd查出第2,5桶4.按照fadd查找第2,4,6,8桶1.将数据放入分区表ip1(fadd,sadd,tadd,fouadd)中并进行分区,(区号:firstadd),即:ip第一位create external table if not exists ip1(fadd int,asdd int,tad
2021-04-28 19:50:33
124
原创 简单的将数据存入数据仓库hive,并操作。
简单的将数据存入数据仓库hive,并操作。有一个用户user.txt01#bingbing#2302#liying#2003#mali#2404#xiaoli#1805#wangli#2006#mumu#23要求:1.将数据存入数据仓库users.myuser(id,name,age),需要将数据放在hdfs的/data下面2.查找年龄最大的三个人,年龄相同再按照姓名排序第一题:先将user.txt放到Linux的/boot目录下在hdfs上创建/data[root@hd
2021-04-27 20:22:45
761
1
原创 NotePad++安装NppFtp出问题
在使用Notepad++的时候,想要安装插件NppFtp,怎么下载都显示炸不到这个包找不到,安装不上:可以去朋友的那里直接把这个文件夹复制到该目录下,就能正常安装使用。
2021-04-27 08:17:22
387
原创 Python自动登录QQ空间
Python自动登录QQ空间:from selenium import webdriver#注意:#这是打开一个浏览器:以谷歌浏览器为例#同时还要下载相符性的版本驱动器,否则Python不能自动控制derver=webdriver.Chrome(executable_path=r"D:\\Google\\chrome.exe")url="https://i.qq.com/"derver.get(url)derver.implicitly_wait(10)iframe=derver.fin
2021-04-26 19:18:36
1389
2
原创 Python爬取王者荣耀英雄皮肤
Python爬取王者荣耀英雄皮肤:from urllib import requestimport jsonimport urlliburl="https://pvp.qq.com/web201605/js/herolist.json"# 请求一个数据resp=request.urlopen(url)result=resp.read().decode('utf-8')result=json.loads(result)print(result)for item in result:
2021-04-26 19:11:30
213
原创 大数据的概念
大数据的定义:维基百科 给出的定义: 数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信 息。麦肯锡全球研究所 给出的定义: 一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据 集合。高德纳(Gartner)研究机构 给出的定义: "大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、 高增长率和多样化的信息资产。概念总结: 海量数据,具有高增长率、数据类型多样化、一定时间内无法使用
2021-04-24 20:22:26
1194
1
原创 SQL的分类
execute(String sql):通常用于DDL executeUpdate(String sql):通常用于DML executeQuery(String sql):用于DQLDDL(Data Defifinition Language):数据定义语言,用来定义数据库对象:库、表、列等; DML(Data Manipulation Language):数据操作语言,用来定义数据库记录(数据); DCL(Data Control Language):数据控制语言,用来定义访问权限和
2021-04-23 21:27:33
111
原创 IO流总结
InputStream :字节输入流 read():一个字节一个字节的读,每次读出一个字节 InputStream inputStream = new FileInputStream("test1.txt")) num = inputStream.read();---System.out.println((char)num);read(数组):一次可以读出多个字节,数组的作用:每次会将读出的字节临时放到这个数组中 (InputStream inputStream
2021-04-23 21:24:50
129
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人