跳蛙pass-优快云博客

原创 sql 50题（多种思路和包含优化考虑）更新中

数据准备数据表介绍1.学生表：Student(SId,Sname,Sage,Ssex)字段含义sid学生编号sname学生姓名Sage出生年月Ssex学生性别2.课程表:Course(CId,Cname,TId)字段含义cid学生编号sname课程编号cname课程名称tid教师编号3.教师表：Teacher(TId,Tname)字段含义tid教师编号tname教师

2022-02-21 16:52:31 704

原创 hive 报错 The auxService:mapreduce_shuffle does not exist

报错信息:Diagnostic Messages for this Task:Container launch failed for container_1644976539445_0002_01_000005 : org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:mapreduce_shuffle does not exist at sun.reflect.NativeConstructorAcc

2022-02-21 09:11:00 696

原创 hive 报找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

在这里解释一下 hive的报错输出报错不够明显，hive的控制台输出报错就是这个错：FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask但当查看yarn后台日志就不难发现他的真正的错是加载不到主类如图解决办法：关键需要配置两个配置：mapred-site.xml 和 yarn-site.xml下面配置hadoop classpath。先运行shell命令：hadoop

2022-02-18 16:42:46 2670 1

原创 idea 运行时出错: invalid format ：命令行过长

idea运行 ‘test’ 时出错: !invalid format: 命令行过长。要为 {0}{1, choice, 0# 或也为 {2} ''''default'''' 配置|1#} 缩短命令行吗?!运行 ‘test’ 时出错: !invalid format: 命令行过长。要为 {0}{1, choice, 0# 或也为 {2} ''''default'''' 配置|1#} 缩短命令行吗?!解决方法：第一步：第二步:第三步：...

2022-02-18 14:18:25 8874

原创 hive insert into 报Error during job, obtaining debugging information...

Ended Job = job_1644913962386_0020 with errorsError during job, obtaining debugging information...FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskMapReduce Jobs Launched: Stage-Stage-1: HDFS Read: 0 HDFS Write:

2022-02-17 11:37:28 1983

原创每日sql练习：组合两（多）个表

题目描述要求：编写一个 SQL 查询，满足条件：无论 student是否有地址信息，都需要基于上述两表提供 student的以下信息：FirstName, LastName, City, State已知数据表1: student+-------------+---------+| 列名 | 类型 |+-------------+---------+| StudentId | int || FirstName | varchar || LastNam

2022-02-14 16:15:27 359

原创面试高频题：多表如何连表查询(left join,right join,inner join)？

【题目】现在有两个表，“学生表”记录了学生的基本信息，有“学号”、“姓名”。“成绩”表记录了学生选修的课程，以及对应课程的成绩。这两个表通过“学号”进行关联。现在要查找出所有学生的学号，姓名，课程和成绩。【解题思路】1.确定查询结果题目要求查询所有学生的姓名，学号，课程和成绩信息select 学号,姓名,课程,成绩查询结果的列名“学号”、“姓名”，在“学生”表里，列名“课程”、“成绩”在“成绩”表里，所以需要进行多表查询。2.哪种联结呢？涉及到多表查询，在之前的课程《从零学会sql：

2022-02-14 15:58:36 1904 1

原创 hive hue 报FAILED: ParseException line 10:41 mismatched input ‘.‘ expecting )

报错原因FAILED: ParseException line 10:41 mismatched input ‘.’ expecting )翻译大意：失败：解析异常行10:41输入不匹配。“”期待）这些基本都是语法解析有错，寻找对应报错的行数，查看语法错误解决方法字段间添加，修改后： t1.dcjldbh, t1.zcbh...

2022-02-11 16:38:12 5800

原创每日分享 hive hue 报错Error while compiling statement: FAILED: SemanticException Error in parsing

报错原因SemanticException Error in parsing翻译过来大意就是解析中的 SemanticException（语义异常）错误解决办法应该修改成 a.dcbh 而不是 a,dcbh

2022-02-11 11:30:48 3477

原创每日分享环境报错：Exception in thread “main“ java.lang.RuntimeException: Cannot create staging directory

Exception in thread “main” java.lang.RuntimeException: Cannot create staging directory ‘hdfs://192.168.56.110:9000/usr/hive/warehouse/cb_sdss_jl/.hive-staging_hive_2022-02-10_14-25-56_070_6289356312406983760-1’: Permission denied: user=10392, access=WRITE,

2022-02-10 14:40:47 4881 1

原创记录一次 cdh运维 hue的hive查询处于挂起状态

服务器用的是阿里云。没有任何报错，当时这个问题自己解决很久。后面问同事，为什么hive查询有问题你们不找我呢（其实他们是没问题）？这里说一下，我用的是公司的区域网，他们用的是自己网。说到这里大家应该都知道了，就是给自己电脑换个网...

2022-02-07 16:43:08 1142 1

原创每日小运维 cdh节点间的数据均衡

场景：对于新加节点需要进行数据均衡很简单的操作：添加节点后，重新分配客户端配置后，选择hdfs服务->操作->重新平衡

2022-01-25 14:51:20 2513

原创每日cdh小运维每个节点的磁盘间数据均衡

1.cm页面修改配置dfs.disk.balancer.enabledtrue2.使用hdfs用户su hdfshdfs diskbalancer -plan 110.110.110.110(节点ip)hdfs diskbalancer -execute /system/diskbalancer/2022-Jan-25-14-21-06/110.110.110.110.plan.json等待执行结束查看计划状态hdfs diskbalancer -query 110.110.11

2022-01-25 14:38:44 2348

原创阿里云新增磁盘挂载

1。查看磁盘挂载情况以及硬盘格式df -Th 2 。查看实例是否有数据盘fdisk -l3.运行fdisk -u /dev/vdb命令分区数据盘fdisk -u /dev/vdb4.依次输入“n”,“p”“1”,两次回车,“wq”,分区就开始了,很快就会完成。5.使用“fdisk -l”命令可以看到,新的分区6.格式化新分区，使用“mkfs.ext4 /dev/vdb1”命令对新分区进行格式化,格式化的时间根据硬盘大小有所不同。mkfs.ext4 /dev/vdb1

2022-01-24 09:28:22 469

原创 cdh6.X整合ES6.X，以及安装IK分词，最全实操避坑以及总结

废话不多说，直接上干货。这里写目录标题一、配置Java1.8、maven以及其环境变量二、制作ES的parcel包和csd文件1.下载cm_ext2.下载ES安装包3.下载制作Parcel包和CSD文件的脚本3.制作ES的parcel包和CSD文件并校验三、在Cloudrea Manager中安装部署Elasticsearch服务1、将Parcel包:ELASTICSEARCH-0.0.5.elasticsearch.p0.5-el7.parcel 和 manifest.json 文件部署到httpd服务

2021-03-07 23:00:17 704 3

原创云音乐推荐系统（二）：推荐系统的核心算法

这里写目录标题一、召回阶段1.1基于热门的召回1.2基于用户分群的召回1.3基于协同过滤的召回二、协同过滤算法（计算相似的一种方式）2.1基于用户(user-based)的协同过滤算法2.2基于物品的(item-based)的协同过滤算法2.3基于模型(model-based)的协同过滤算法三、协同过滤四、基于用户的协同过滤五、ALS(交替最小二乘法)5.1 ALS原理六、协同过滤的“评分策略”一、召回阶段1.1基于热门的召回筛选用户播放歌曲的行为数据，选取播放次数最多的歌曲作为热门歌曲，为每个用户

2020-11-11 23:49:11 1925

原创云音乐推荐系统（一）

推荐系统的目地时为客户推荐其可能喜欢的，但没有发现的物品这里写目录标题一、核心要素1.1、用户1.2、物品与内容1.3、事件与语境二、推荐系统的主要构成2.1召回模块2.1.1常用召回（基于热门、用户分群等）2.1.2基于内容的召回2.1.3基于协同过滤的召回2.2排序模块2.2.1单点排序2.3过滤模块2.3.1过滤模块通常依赖商业逻辑和业务场景决定三、图解推荐系统的主要构成三、云音乐推荐系统的用户3.1冷启动用户3.2普通用户四、云音乐推荐系统的构成4.1召回模块4.2排序模块4.3过滤模块五、云音乐

2020-11-10 21:04:07 1479 1

原创 window映射linux中hbase报Exception in thread “main“ org.apache.hadoop.hbase.client.RetriesExhaustedExcept

Exception in thread “main” org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=36, exceptions:Tue Sep 15 19:33:40 CST 2020, null, java.net.SocketTimeoutException: callTimeout=60000, callDuration=68084: row ‘exam:analysis,000000

2020-09-16 13:41:20 1776

原创 Hortonworks Docker Sandbox创建连接MySQL（实操）

这里写目录标题docker 连接mysql2122端口2222端口docker 连接mysql2122端口#查看CONTAINER IDdocker ps#删除CONTAINER IDdocker rm -f CONTAINER IDdocker images#进入 cd star_scripts修改start_sandbox.sh，start_sandbox-hdf.sh，start_sandbox-hdp.sh三个文件都添加-p 3306:3306 \执行./start_

2020-09-14 19:49:54 313

原创 Redis：Redis命令大全

文章目录Redis keys命令Redis 字符串命令Redis hash 命令Redis List命令Redis Seq命令Redis keys命令SET key value用于插入key value实例命令可以Tab```shellSET hello redis```1 DEL key该命令用于在 key 存在时删除 key。实例：```DEL hello```2 DUMP key序列化给定 key ，并返回被序列化的值。3 EXISTS key检查给定 ke

2020-08-25 23:09:29 332

原创 Redis:java，scala及python连接Redis

这里写目录标题Java连接redisscala连接rediscpython连接redisJava连接redispom依赖: <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</version> </dependency>pack

2020-08-25 22:43:50 201

原创 Redis：centos7下安装Redis

文章目录一、安装redis一、安装redis1、下载Redis安装包wget http://download.redis.io/releases/redis-4.0.6.tar.gz2、解压压缩包tar -zxvf redis-4.0.6.tar.gz3、yum安装gcc依赖yum install gcc#遇到问题输入y即可4、跳转到redis解压目录下cd redis-4.0.65、编译安装make MALLOC=libc#进入src,输入make installcd

2020-08-25 22:24:39 96

原创 Spark基础(六):SparkStreaming实操读写kafka（亲测）

启动环境#启动zookeeperzkService.sh start#启动kafkakafka-server-shart.sh /opt/soft/kafka211/config/server.properties配置sources文件flume-kafkacd /opt/flumeconfvi conf_08011_kafka.properties#conf_08011_kafka.propertiess配置a11.channels=c11a11.sources=s11a11.s

2020-08-12 19:56:14 838

原创 Python基础(一)：Anaconda3安装以及Jupyter和pyspark集成

文章目录Anaconda3安装以及Jupyter和pyspark集成1.anaconda31、安装包大小不bai同2.安装步骤:Anaconda3安装以及Jupyter和pyspark集成1.anaconda31、安装包大小不bai同(1)python自身缺少numpy、matplotlib、scipy、scikit-learn…等一系列包du，需要安装pip来导入zhi这些包才能进行相应运dao算Anaconda(开源的Python包管理器)是一个python发行版，包含了conda、Python等

2020-08-12 19:30:04 362

原创 Spark(二)：Spark基础及架构

文章目录一级目录二级目录三级目录Spark基础及架构一、认识Spark快速易用通用多种运行模式Spark 与Map Reduce 比较Spark 技术栈二、了解 Spark 架构与运行环境spark 环境部署一级目录二级目录三级目录Spark基础及架构一、认识SparkApache Spark 是大数据领域最活跃的项目之一，其活跃度目前远超 Hadoop。特点是快速、易用、通用及多种运行模式。快速 Spark 是面向内存的大数据处理引擎，这使得 Spark 能够为多个不同数据源的数据提供

2020-08-12 08:47:29 569

原创 Spark（一）：基本原理与安装

文章目录一级目录二级目录三级目录Spark2.4.3基本原理与安装安装步骤一级目录二级目录三级目录Spark2.4.3基本原理与安装1.spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式，包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算，及时依赖磁盘进行复杂的运算，Spark依然比MapReduce更加高效

2020-08-10 20:17:18 335

原创 Flume(三)之Flume与kafka（kafka简介及安装）

Flume(三)之Flume与kafka（kafka简介及安装）1. 前言 Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Linkedin于2010年贡献给了Ap

2020-08-10 11:26:06 407

原创 Flume(一)：Flume安装及日志收集

Flume(一)：Flume安装及日志收集Flume安装下载http://archive.apache.org/dist/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz1)将下载的 flume 包，解压到/home/hadoop 目录中2)修改 flume-env.sh 配置文件,主要是 JAVA_HOME 变量设置。复制 flume-env.sh.template 为 flume-env.sh3)验证是否安装成功./bin/flume-ng versio

2020-08-06 20:16:48 219

原创 Scala入门系列（五）：Scala扩展：模式匹配、偏函数、正则表达式、隐式类、异常处理、高级类型

Scala入门系列（五）：Scala扩展：模式匹配、偏函数、正则表达式、隐式类、异常处理、高级类型match表达式类似Java switch语句能处理类型所有类型：scala中match表达式类似Java中的switch语句，switch的case语句可以处理int，short，byte，char类似的值，但是不能处理long，String等类型。Scala中任何类型都能当作比较用的样本（case），另外每个备选项最后不需要break，因为break是隐含的，防止因为疏忽从一个选择落入另一个中。

2020-08-03 22:32:28 284

原创 Scala入门系列（四）：Scala之OOP面向对象

文章目录Scala面向对象基本概念1、类（class）1.1类成员访问修饰符1.2类的定义1.2类的继承抽像类（abstract class）单列对象（object）特质（trait）样例类（case class）Scala面向对象基本概念1、类（class）类通过class关键字定义类通过new关键词创建实例类拥有成员变量和方法类的成员默认为public,也支持private、protected注意：类中无法定义静态成员和方法类无需明确定义构造方法，通过构造参数列表声明为类的一部分1

2020-07-24 12:22:30 406

原创 Hive的数据倾斜及解决

文章目录一、什么是数据倾斜二、Hadoop框架的特点三、主要表现四、容易数据倾斜情况五、产生数据倾斜的原因六、业务场景1、空值产生的数据倾斜2、不同数据类型关联产生数据倾斜3、大小表关联查询产生数据倾斜一、什么是数据倾斜由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点二、Hadoop框架的特点1、不怕数据大，就怕数据倾斜2、Jobs数比较多的作业运作效率相对比较低，如子查询比较多3、sum、count、max、min等聚集函数，通常不会有数据倾斜问题三、主要表现任务进度长时间维持在

2020-07-24 08:43:56 442

原创 Scala入门系列（三）：Scala高阶函数大全之Array

Array数组是一种可变的、可索引的数据集合。在 Scala 中用 Array[T] 的形式来表示 Java 中的数组形式 T[]。示例：val arr = Array(1, 2, 3, 4) // 声明一个数组对象val first = arr(0) // 读取第一个元素arr(3) = 100 // 替换第四个元素为 100val newarr = arr.map(_ * 2) // 所有元素乘 2println(newarr.mkString(",")) // 打印数组，结果为：2,4,

2020-07-16 14:47:56 421

原创 Scala入门系列（二）：Scala函数基础介绍

文章目录一、Scala函数1函数定义2参数传递1.2.1传值调用1.2.1 传名调用2、匿名函数3、高阶函数4、函数嵌套5、柯里化6、隐式参数7、命名参数8、参数缺省值一、Scala函数函数是Scala的核心1函数定义def 函数名([参数列表]):[返回值]={函数体return [表达式]}列1：def square(x: Int): Int = { println(x)x * x //return}列2：def sayHello(x:String):Unit={

2020-07-15 17:35:31 371

原创 Scala入门系列（一）：Scala基础介绍、开发环境

文章目录一、Scala介绍二、安装Scala编译器三、Scala交互式编程四、Scala开发环境五、Scala概述一、Scala介绍Scala源自JavaScala构建在JVM之上Scala与Java兼容、互通Scala的优势多范式编程：面向对象编程、函数式编程表达能力强、代码精简大数据与ScalaSpack采用Scala语言设计提供的API更加优雅基于JVM的语言更融入Hadoop生态圈二、安装Scala编译器下载安装包https://www.scala-lang.o

2020-07-15 15:22:12 548

原创 Hadoop高可用集群搭建(实操、干货)

Hadoop一、HDFS-HA 集群配置1.1 配置 HDFS-HA 集群1.官方地址：http://hadoop.apache.org/2.HDFS 高可用集群规划，请保证 Hadoop 完全分布式和 ZooKeeper 完全分布式环境已经安装完成。hadoop102 hadoop103JournalNode JournalNode 3.在 hadoop102 配置 core-site.xml<configuration> <!-- 把两个 N

2020-07-07 20:04:03 544 1

原创 Zookeeper分布式环境搭建（实操、干货）

文章目录一、解压安装包二、修改配置文件三、将配置好的文件分发都其他节点上四、在每个节点上的zkData目录下创建一个myid,里面写一个数字，数值不能重复一、解压安装包tar -zxf zookeeper-3.4.5-cdh5.14.2.tar.gz**移动**mv zook..... /opt/soft/zookeeper345二、修改配置文件cd /opt/soft/zookeeper345/confcp zoo_sample.cfg zoo.cfgvi zoo.cfg#数据存放目

2020-07-06 23:47:22 861

原创 Hadoop完全分布式环境搭建（实操）

文章目录1、环境准备1.1配置静态ip1.2修改主机名1.3配置主机映射2、安装jdk3、安装Hadoop4、完全分布式4.1集群准备4.2 设置免密登录4.3修改配置文件五、启动集群启动集群六、时间同步1、环境准备先准备一个纯净的centos7虚拟机，配置好静态ip,主机名，主机映射1.1配置静态ipvi /etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"

2020-07-06 23:19:57 372

原创 HADOOP YARN原理及资源调度

文章目录1、ResourceManager2、NodeManager3、Applicacation Master4、yarn调度方式5、Yarn架构及各角色职责6、Yarn作业执行流程7、特点8、MapReduce在Yarn上的运转1、ResourceManagerReaouceManager(资源管理器RM)常驻守护进程：管理集群资源，负责全局资源的监控、分配和管理；接收来自Nodemanager的心跳信息，进行整体资源的汇总；监控Application Master的开启和创建2、NodeM

2020-07-01 20:13:32 574

原创 HBase安装、环境配置（亲测）

这里写目录标题HBase介绍HBase介绍1、HBase是hadoop领域的数据库2、HBase是面向列存储的列式数据库a)行式数据库优缺点**i.**数据在表中的位置空间是确定的，指针在访问只要知道首地址就可以高效获取其他数据**ii.**但在常用的可能只是所有列中的部分列的数据，可是行式数据库会自动查询所有的列，只是在客户端进行数据的过滤，会浪费大量的带宽和空间b)列式数据库的优缺点**i.**一张不规则的表（人物画像）每行属性有大量的null**ii.**类似于交错数组，只使用在特定

2020-06-25 22:36:13 440

原创 apache hadoop hive高级查询一

文章目录Hive的数据查询select基础cte和嵌套查询进阶语句Hive的数据关联join 关联查询MapjoinHive集合操作 union装载数据：load 移动数据insert表插入数据1insert表插入数据2hive数据插入文件使用insert语句将数据插入/导出到文件hive数据交换 import/exporthive数据排序order bysort bydistribute bycluster byHive的数据查询select基础select用于映射符合指定查询条件的行Hive s

2020-06-11 23:54:14 167

cdh6.3.2 集成 Phoenix

zeppelin-0.8.1-bin-all.tgz

空空如也