- 博客(50)
- 资源 (2)
- 收藏
- 关注
原创 sql 50题(多种思路和包含优化考虑)更新中
数据准备数据表介绍1.学生表:Student(SId,Sname,Sage,Ssex)字段含义sid学生编号sname学生姓名Sage出生年月Ssex学生性别2.课程表:Course(CId,Cname,TId)字段含义cid学生编号sname课程编号cname课程名称tid教师编号3.教师表:Teacher(TId,Tname)字段含义tid教师编号tname教师
2022-02-21 16:52:31
704
原创 hive 报错 The auxService:mapreduce_shuffle does not exist
报错信息:Diagnostic Messages for this Task:Container launch failed for container_1644976539445_0002_01_000005 : org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:mapreduce_shuffle does not exist at sun.reflect.NativeConstructorAcc
2022-02-21 09:11:00
696
原创 hive 报 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster
在这里解释一下 hive的报错输出报错不够明显,hive的控制台输出报错就是这个错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask但当查看yarn后台日志就不难发现他的真正的错是加载不到主类 如图解决办法:关键需要配置两个配置:mapred-site.xml 和 yarn-site.xml下面配置hadoop classpath。先运行shell命令:hadoop
2022-02-18 16:42:46
2670
1
原创 idea 运行时出错: invalid format :命令行过长
idea运行 ‘test’ 时出错: !invalid format: 命令行过长。要为 {0}{1, choice, 0# 或也为 {2} ''''default'''' 配置|1#} 缩短命令行吗?!运行 ‘test’ 时出错: !invalid format: 命令行过长。要为 {0}{1, choice, 0# 或也为 {2} ''''default'''' 配置|1#} 缩短命令行吗?!解决方法:第一步:第二步:第三步:...
2022-02-18 14:18:25
8874
原创 hive insert into 报Error during job, obtaining debugging information...
Ended Job = job_1644913962386_0020 with errorsError during job, obtaining debugging information...FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskMapReduce Jobs Launched: Stage-Stage-1: HDFS Read: 0 HDFS Write:
2022-02-17 11:37:28
1983
原创 每日sql练习:组合两(多)个表
题目描述要求:编写一个 SQL 查询,满足条件:无论 student是否有地址信息,都需要基于上述两表提供 student的以下信息:FirstName, LastName, City, State已知数据表1: student+-------------+---------+| 列名 | 类型 |+-------------+---------+| StudentId | int || FirstName | varchar || LastNam
2022-02-14 16:15:27
359
原创 面试高频题:多表如何连表查询(left join,right join,inner join)?
【题目】现在有两个表,“学生表”记录了学生的基本信息,有“学号”、“姓名”。“成绩”表记录了学生选修的课程,以及对应课程的成绩。这两个表通过“学号”进行关联。现在要查找出所有学生的学号,姓名,课程和成绩。【解题思路】1.确定查询结果题目要求查询所有学生的姓名,学号,课程和成绩信息select 学号,姓名,课程,成绩查询结果的列名“学号”、“姓名”,在“学生”表里,列名“课程”、“成绩”在“成绩”表里,所以需要进行多表查询。2.哪种联结呢?涉及到多表查询,在之前的课程《从零学会sql:
2022-02-14 15:58:36
1904
1
原创 hive hue 报FAILED: ParseException line 10:41 mismatched input ‘.‘ expecting )
报错原因FAILED: ParseException line 10:41 mismatched input ‘.’ expecting )翻译大意:失败:解析异常行10:41输入不匹配。“”期待)这些基本都是语法解析有错,寻找对应报错的行数,查看语法错误解决方法字段间添加 ,修改后 : t1.dcjldbh, t1.zcbh...
2022-02-11 16:38:12
5800
原创 每日分享 hive hue 报错Error while compiling statement: FAILED: SemanticException Error in parsing
报错原因SemanticException Error in parsing翻译过来大意就是解析中的 SemanticException(语义异常) 错误解决办法应该修改成 a.dcbh 而不是 a,dcbh
2022-02-11 11:30:48
3477
原创 每日分享 环境报错:Exception in thread “main“ java.lang.RuntimeException: Cannot create staging directory
Exception in thread “main” java.lang.RuntimeException: Cannot create staging directory ‘hdfs://192.168.56.110:9000/usr/hive/warehouse/cb_sdss_jl/.hive-staging_hive_2022-02-10_14-25-56_070_6289356312406983760-1’: Permission denied: user=10392, access=WRITE,
2022-02-10 14:40:47
4881
1
原创 记录一次 cdh运维 hue的hive查询处于挂起状态
服务器用的是阿里云。没有任何报错,当时这个问题自己解决很久。后面问同事,为什么hive查询有问题你们不找我呢(其实他们是没问题)?这里说一下,我用的是公司的区域网,他们用的是自己网。说到这里大家应该都知道了,就是给自己电脑换个网...
2022-02-07 16:43:08
1142
1
原创 每日小运维 cdh节点间的数据均衡
场景:对于新加节点需要进行数据均衡很简单的操作:添加节点后,重新分配客户端配置后,选择hdfs服务->操作->重新平衡
2022-01-25 14:51:20
2513
原创 每日cdh小运维 每个节点的磁盘间数据均衡
1.cm页面修改配置dfs.disk.balancer.enabledtrue2.使用hdfs用户su hdfshdfs diskbalancer -plan 110.110.110.110(节点ip)hdfs diskbalancer -execute /system/diskbalancer/2022-Jan-25-14-21-06/110.110.110.110.plan.json等待执行结束查看计划状态hdfs diskbalancer -query 110.110.11
2022-01-25 14:38:44
2348
原创 阿里云 新增磁盘挂载
1。查看磁盘挂载情况以及硬盘格式df -Th 2 。 查看实例是否有数据盘fdisk -l3.运行fdisk -u /dev/vdb命令分区数据盘fdisk -u /dev/vdb4.依次输入“n”,“p”“1”,两次回车,“wq”,分区就开始了,很快就会完成。5.使用“fdisk -l”命令可以看到,新的分区6.格式化新分区, 使用“mkfs.ext4 /dev/vdb1”命令对新分区进行格式化,格式化的时间根据硬盘大小有所不同。mkfs.ext4 /dev/vdb1
2022-01-24 09:28:22
469
原创 cdh6.X整合ES6.X,以及安装IK分词,最全实操避坑以及总结
废话不多说,直接上干货。这里写目录标题一、配置Java1.8、maven以及其环境变量二、制作ES的parcel包和csd文件1.下载cm_ext2.下载ES安装包3.下载制作Parcel包和CSD文件的脚本3.制作ES的parcel包和CSD文件并校验三、在Cloudrea Manager中安装部署Elasticsearch服务1、将Parcel包:ELASTICSEARCH-0.0.5.elasticsearch.p0.5-el7.parcel 和 manifest.json 文件部署到httpd服务
2021-03-07 23:00:17
704
3
原创 云音乐推荐系统(二):推荐系统的核心算法
这里写目录标题一、召回阶段1.1基于热门的召回1.2基于用户分群的召回1.3基于协同过滤的召回二、协同过滤算法(计算相似的一种方式)2.1基于用户(user-based)的协同过滤算法2.2基于物品的(item-based)的协同过滤算法2.3基于模型(model-based)的协同过滤算法三、协同过滤四、基于用户的协同过滤五、ALS(交替最小二乘法)5.1 ALS原理六、协同过滤的“评分策略”一、召回阶段1.1基于热门的召回筛选用户播放歌曲的行为数据,选取播放次数最多的歌曲作为热门歌曲,为每个用户
2020-11-11 23:49:11
1925
原创 云音乐推荐系统(一)
推荐系统的目地时为客户推荐其可能喜欢的,但没有发现的物品这里写目录标题一、核心要素1.1、用户1.2、物品与内容1.3、事件与语境二、推荐系统的主要构成2.1召回模块2.1.1常用召回(基于热门、用户分群等)2.1.2基于内容的召回2.1.3基于协同过滤的召回2.2排序模块2.2.1单点排序2.3过滤模块2.3.1过滤模块通常依赖商业逻辑和业务场景决定三、图解推荐系统的主要构成三、云音乐推荐系统的用户3.1冷启动用户3.2普通用户四、云音乐推荐系统的构成4.1召回模块4.2排序模块4.3过滤模块五、云音乐
2020-11-10 21:04:07
1479
1
原创 window映射linux中hbase报Exception in thread “main“ org.apache.hadoop.hbase.client.RetriesExhaustedExcept
Exception in thread “main” org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=36, exceptions:Tue Sep 15 19:33:40 CST 2020, null, java.net.SocketTimeoutException: callTimeout=60000, callDuration=68084: row ‘exam:analysis,000000
2020-09-16 13:41:20
1776
原创 Hortonworks Docker Sandbox创建连接MySQL(实操)
这里写目录标题docker 连接mysql2122端口2222端口docker 连接mysql2122端口#查看CONTAINER IDdocker ps#删除CONTAINER IDdocker rm -f CONTAINER IDdocker images#进入 cd star_scripts修改start_sandbox.sh,start_sandbox-hdf.sh,start_sandbox-hdp.sh三个文件都添加-p 3306:3306 \执行./start_
2020-09-14 19:49:54
313
原创 Redis:Redis命令大全
文章目录Redis keys命令Redis 字符串命令Redis hash 命令Redis List命令Redis Seq命令Redis keys命令SET key value用于插入key value实例命令可以Tab```shellSET hello redis```1 DEL key该命令用于在 key 存在时删除 key。实例:```DEL hello```2 DUMP key序列化给定 key ,并返回被序列化的值。3 EXISTS key检查给定 ke
2020-08-25 23:09:29
332
原创 Redis:java,scala及python连接Redis
这里写目录标题Java连接redisscala连接rediscpython连接redisJava连接redispom依赖: <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</version> </dependency>pack
2020-08-25 22:43:50
201
原创 Redis:centos7下安装Redis
文章目录一、安装redis一、安装redis1、下载Redis安装包wget http://download.redis.io/releases/redis-4.0.6.tar.gz2、解压压缩包tar -zxvf redis-4.0.6.tar.gz3、yum安装gcc依赖yum install gcc#遇到问题 输入y即可4、跳转到redis解压目录下cd redis-4.0.65、编译安装make MALLOC=libc#进入src,输入make installcd
2020-08-25 22:24:39
96
原创 Spark基础(六):SparkStreaming实操读写kafka(亲测)
启动环境#启动zookeeperzkService.sh start#启动kafkakafka-server-shart.sh /opt/soft/kafka211/config/server.properties配置sources文件flume-kafkacd /opt/flumeconfvi conf_08011_kafka.properties#conf_08011_kafka.propertiess配置a11.channels=c11a11.sources=s11a11.s
2020-08-12 19:56:14
838
原创 Python基础(一):Anaconda3安装以及Jupyter和pyspark集成
文章目录Anaconda3安装以及Jupyter和pyspark集成1.anaconda31、安装包大小不bai同2.安装步骤:Anaconda3安装以及Jupyter和pyspark集成1.anaconda31、安装包大小不bai同(1)python自身缺少numpy、matplotlib、scipy、scikit-learn…等一系列包du,需要安装pip来导入zhi这些包才能进行相应运dao算Anaconda(开源的Python包管理器)是一个python发行版,包含了conda、Python等
2020-08-12 19:30:04
362
原创 Spark(二):Spark基础及架构
文章目录一级目录二级目录三级目录Spark基础及架构一、认识Spark快速易用通用多种运行模式Spark 与Map Reduce 比较Spark 技术栈二、了解 Spark 架构与运行环境spark 环境部署一级目录二级目录三级目录Spark基础及架构一、认识SparkApache Spark 是大数据领域最活跃的项目之一,其活跃度目前远超 Hadoop。特点是快速、易用、通用及多种运行模式。快速 Spark 是面向内存的大数据处理引擎,这使得 Spark 能够为多个不同数据源的数据提供
2020-08-12 08:47:29
569
原创 Spark(一):基本原理与安装
文章目录一级目录二级目录三级目录Spark2.4.3基本原理与安装安装步骤一级目录二级目录三级目录Spark2.4.3基本原理与安装1.spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式,包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算,Spark依然比MapReduce更加高效
2020-08-10 20:17:18
335
原创 Flume(三)之Flume与kafka(kafka简介及安装)
Flume(三)之Flume与kafka(kafka简介及安装)1. 前言 Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副 本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以 实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟 的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务 等等,用scala语言编写,Linkedin于2010年贡献给了Ap
2020-08-10 11:26:06
407
原创 Flume(一):Flume安装及日志收集
Flume(一):Flume安装及日志收集Flume安装下载http://archive.apache.org/dist/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz1)将下载的 flume 包,解压到/home/hadoop 目录中2)修改 flume-env.sh 配置文件,主要是 JAVA_HOME 变量设置。复制 flume-env.sh.template 为 flume-env.sh3)验证是否安装成功./bin/flume-ng versio
2020-08-06 20:16:48
219
原创 Scala入门系列(五):Scala扩展:模式匹配、偏函数、正则表达式、隐式类、异常处理、高级类型
Scala入门系列(五):Scala扩展:模式匹配、偏函数、正则表达式、隐式类、异常处理、高级类型match表达式类似Java switch语句能处理类型所有类型:scala中match表达式类似Java中的switch语句,switch的case语句可以处理int,short,byte,char类似的值,但是不能处理long,String等类型。Scala中任何类型都能当作比较用的样本(case),另外每个备选项最后不需要break,因为break是隐含的,防止因为疏忽从一个选择落入另一个中。
2020-08-03 22:32:28
284
原创 Scala入门系列(四):Scala之OOP面向对象
文章目录Scala面向对象基本概念1、类(class)1.1类成员访问修饰符1.2类的定义1.2类的继承抽像类(abstract class)单列对象(object)特质(trait)样例类(case class)Scala面向对象基本概念1、类(class)类通过class关键字定义类通过new关键词创建实例类拥有成员变量和方法类的成员默认为public,也支持private、protected注意:类中无法定义静态成员和方法类无需明确定义构造方法,通过构造参数列表声明为类的一部分1
2020-07-24 12:22:30
406
原创 Hive的数据倾斜及解决
文章目录一、什么是数据倾斜二、Hadoop框架的特点三、主要表现四、容易数据倾斜情况五、产生数据倾斜的原因六、业务场景1、空值产生的数据倾斜2、不同数据类型关联产生数据倾斜3、大小表关联查询产生数据倾斜一、什么是数据倾斜由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点二、Hadoop框架的特点1、不怕数据大,就怕数据倾斜2、Jobs数比较多的作业运作效率相对比较低,如子查询比较多3、sum、count、max、min等聚集函数,通常不会有数据倾斜问题三、主要表现任务进度长时间维持在
2020-07-24 08:43:56
442
原创 Scala入门系列(三):Scala高阶函数大全之Array
Array数组是一种可变的、可索引的数据集合。在 Scala 中用 Array[T] 的形式来表示 Java 中的数组形式 T[]。示例:val arr = Array(1, 2, 3, 4) // 声明一个数组对象val first = arr(0) // 读取第一个元素arr(3) = 100 // 替换第四个元素为 100val newarr = arr.map(_ * 2) // 所有元素乘 2println(newarr.mkString(",")) // 打印数组,结果为:2,4,
2020-07-16 14:47:56
421
原创 Scala入门系列(二):Scala函数基础介绍
文章目录一、Scala函数1函数定义2参数传递1.2.1传值调用1.2.1 传名调用2、匿名函数3、高阶函数4、函数嵌套5、柯里化6、隐式参数7、命名参数8、参数缺省值一、Scala函数函数是Scala的核心1函数定义def 函数名([参数列表]):[返回值]={函数体return [表达式]}列1:def square(x: Int): Int = { println(x)x * x //return}列2:def sayHello(x:String):Unit={
2020-07-15 17:35:31
371
原创 Scala入门系列(一):Scala基础介绍、开发环境
文章目录一、Scala介绍二、安装Scala编译器三、Scala交互式编程四、Scala开发环境五、Scala概述一、Scala介绍Scala源自JavaScala构建在JVM之上Scala与Java兼容、互通Scala的优势多范式编程:面向对象编程、函数式编程表达能力强、代码精简大数据与ScalaSpack采用Scala语言设计 提供的API更加优雅 基于JVM的语言更融入Hadoop生态圈二、安装Scala编译器下载安装包https://www.scala-lang.o
2020-07-15 15:22:12
548
原创 Hadoop高可用集群搭建(实操、干货)
Hadoop一、HDFS-HA 集群配置1.1 配置 HDFS-HA 集群1.官方地址:http://hadoop.apache.org/2.HDFS 高可用集群规划,请保证 Hadoop 完全分布式和 ZooKeeper 完全分布 式环境已经安装完成。hadoop102 hadoop103JournalNode JournalNode 3.在 hadoop102 配置 core-site.xml<configuration> <!-- 把两个 N
2020-07-07 20:04:03
544
1
原创 Zookeeper分布式环境搭建(实操、干货)
文章目录一、解压安装包二、修改配置文件三、将配置好的文件分发都其他节点上四、在每个节点上的zkData目录下创建一个myid,里面写一个数字,数值不能重复一、解压安装包tar -zxf zookeeper-3.4.5-cdh5.14.2.tar.gz**移动**mv zook..... /opt/soft/zookeeper345二、修改配置文件cd /opt/soft/zookeeper345/confcp zoo_sample.cfg zoo.cfgvi zoo.cfg#数据存放目
2020-07-06 23:47:22
861
原创 Hadoop完全分布式环境搭建(实操)
文章目录1、环境准备1.1配置静态ip1.2修改主机名1.3配置主机映射2、安装jdk3、安装Hadoop4、完全分布式4.1集群准备4.2 设置免密登录4.3修改配置文件五、启动集群启动集群六、时间同步1、环境准备先准备一个纯净的centos7虚拟机,配置好静态ip,主机名,主机映射1.1配置静态ipvi /etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"
2020-07-06 23:19:57
372
原创 HADOOP YARN原理及资源调度
文章目录1、ResourceManager2、NodeManager3、Applicacation Master4、yarn调度方式5、Yarn架构及各角色职责6、Yarn作业执行流程7、特点8、MapReduce在Yarn上的运转1、ResourceManagerReaouceManager(资源管理器RM)常驻守护进程:管理集群资源,负责全局资源的监控、分配和管理;接收来自Nodemanager的心跳信息,进行整体资源的汇总;监控Application Master的开启和创建2、NodeM
2020-07-01 20:13:32
574
原创 HBase安装、环境配置(亲测)
这里写目录标题HBase介绍HBase介绍1、HBase是hadoop领域的数据库2、HBase是面向列存储的列式数据库a)行式数据库优缺点**i.**数据在表中的位置空间是确定的,指针在访问只要知道首地址就可以高效获取其他数据**ii.**但在常用的可能只是所有列中的部分列的数据,可是行式数据库会自动查询所有的列,只是在客户端进行数据的过滤,会浪费大量的带宽和空间b)列式数据库的优缺点**i.**一张不规则的表(人物画像)每行属性有大量的null**ii.**类似于交错数组,只使用在特定
2020-06-25 22:36:13
440
原创 apache hadoop hive高级查询一
文章目录Hive的数据查询select基础cte和嵌套查询进阶语句Hive的数据关联join 关联查询MapjoinHive集合操作 union装载数据:load 移动数据insert表插入数据1insert表插入数据2hive数据插入文件使用insert语句将数据插入/导出到文件hive数据交换 import/exporthive数据排序order bysort bydistribute bycluster byHive的数据查询select基础select用于映射符合指定查询条件的行Hive s
2020-06-11 23:54:14
167
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人