有风微冷-优快云博客

原创 CDH删除脚本

#!/bin/bash# 停止CM服务systemctl stop cloudera-scm-serversystemctl stop cloudera-scm-agent# 卸载CM软件包yum -y remove cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server# 卸载装载点umount cm_processesumount cm_processesumount cm_processes

2021-12-28 10:44:16 226

原创 flink1.13 读取kafka写入hive

代码如下所示：public class KafkaToHive { public static void main(String[] args) { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); //1.12以后默认都是EventTime,这是过期方法,并且不在提IngestionTime //env.setStreamTi

2021-12-09 14:38:26 2493 1

原创 spark常用算子及含义

Action算子动作含义reduce(func)reduce将RDD中元素前两个传给输入函数，产生一个新的return值，新产生的return值与RDD中下一个元素（第三个元素）组成两个元素，再被传给输入函数，直到最后只有一个值为止。collect()在驱动程序中，以数组的形式返回数据集的所有元素count()返回RDD的元素个数first()返回RDD的第一个元素（类似于take(1)）take(n)返回一个由数据集的前n个元素组成的数组tak

2021-10-08 15:59:52 438

原创 IDEA配置使用junit

1.点击“+”号，选择Java2.找到你的idea安装路径3.如下图所示，将这两个jar包引入进来即可4.完成

2021-01-18 23:21:44 769

原创 shell:删除指定文件两行之间的数据

shell知识点：find的使用管道的使用 let的使用 sed的使用代码如下：#! /bin/bash##*删除文件的倒数第1行到倒数第5行的数据#获取文件的名file_name=$1#找到该文件所在的路径file_path=`find ~ -type f -name $file_name`echo '该文件的路径为:'$file_pathline_num=`cat $file_path |wc -l`#wc -l 从0开始计数let line_num++ ..

2020-11-12 18:14:46 1536

原创 shell:监控磁盘使用率，定时删除文件或文件夹

涉及的shell知识点：1.exec的使用；2.for和if的使用；3.函数的使用;4.dh -h和awk的使用2.删除文件和文件夹都是使用rm命令。删除文件夹要加上-rf3.注意点：（（））和 [ ] 中前后都要留空格关于定时任务：使用crontab来执行脚本即可第一种方法（例子为：删除指定文件）：通过使用exec将脚本内产生的输出重定向到指定文件中#!/bin/bash##***脚本功能:##*****1.当磁盘使用率高于94%,删除history_file文件下的..

2020-11-10 15:11:21 918

原创关于SQLLDR-CTL文件的编写和注意事项

LOAD DATACHARACTERSET ZHS16GBK --指定字符集INFILE '/home/fwzlgl/data/W021980401101100.AVL' --指定导入的文件，多个文件的话，相同的语句多写几遍都行TRUNCATE INTO TABLE ODS_DISSATISFIE_CUSTOMER_DETAILS --指定要导入的表，和使用truncate 进行导入FIELDS TERMINATED BY '|' --指定分隔符TRAILING NUL...

2020-10-12 12:03:25 3036 2

原创 linux（centos7）配置yum

1.备份CentOS-Base.repomv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup2.下载新的CentOS-Base.repo 到/etc/yum.repos.d/(以下两种方法二选一)wget -O /etc/yum.repos.d/CentOS-Base.repo http:...

2020-04-19 11:10:11 183

原创 YARN的作业提交机制

Yarn的工作原理见https://blog.youkuaiyun.com/qq_36770189/article/details/100131123（1）作业提交第1步：Client调用job.waitForCompletion方法，向整个集群提交MapReduce作业。第2步：Client向RM申请一个作业id。第3步：RM给Client返回该job资源的提交路径和作业id。第4步：Cli...

2019-08-29 10:06:06 636

原创 Yarn的工作原理

Yarn是在hadoop2.x引入的一个新特性。是一个资源调度调度平台，它也只提供资源调度，这样一来HDFS负责存储，MR负责计算，三者之间互有联系，却又相互独立，耦合性降低。这样一来意味着yarn上可以运行各类的分布式计算程序。YARN的工作原理：（作业提交机制见：https://blog.youkuaiyun.com/qq_36770189/article/details/1001319...

2019-08-29 10:02:38 2521

原创 elasticsearch

ElasticSearch是一个实时分布式开源全文搜索和分析引擎。它可以从RESTful网络服务接口访问，并使用无模式JSON (JavaScript对象符号)文档来存储数据。它建立在Java编程语言之上，使ElasticSearch能够在不同的平台上运行。它使用户能够以非常高的速度浏览非常大量的数据。1.ElasticSearch的特点 ElasticSearch最多可扩展到千兆字...

2019-08-29 09:18:38 186

原创 saprk调优

一、资源调优（内存调优） spark调优的第一点就是为任务分配更多的资源，在一定范围内增加资源跟性能的提升是成正比的。实现资源优化的基础上在考虑后面的性能调优。资源的分配在任务提交的时候指定。调节的原则：尽可能将任务分配的资源调节到可以使用是资源的最大限度。举例：bin/spark-submit \--class com.spark.Test \--num-exe...

2019-08-28 14:21:13 298

原创深入理解spark的工作机制，spark任务提交和执行流程

spark的工作机制：用户在client端提交作业后，会由Driver运行main方法并创建spark context上下文。SparkContext向资源管理器（可以是Standalone，Mesos，Yarn）申请运行Executor资源，并启动StandaloneExecutorbackend， Executor向SparkContext申请Task。SparkContext...

2019-08-27 20:24:35 1354

原创 Linux更换jdk版本

2019-08-20 08:27:54 283

原创 HiveSql习题

1.有一个5000万的用户文件（use_id,name,age），一个2亿记录用户看电影的记录的文件（user_id,url）,根据年龄段观看电影的次数进行排序？select *case agewhen age<18 then '未成年'when age<50 then '成年人'else '老人'endfrom (select user_id,age from tab...

2019-08-19 22:31:25 1359

原创 Hive中order by和sort by的区别？

order by 是对全局进行排序，之后产生一个reduce。默认是asc升序 select * from emp order by sal desc;sort by是在每个reduce内部进行排序，对全局来说，不算排序。默认是asc升序select * from emp sort by empno desc;...

2019-08-19 21:33:18 2142 2

原创 Hive中的元数据存储在Derby和MySql中的区别？

Hive元数据默认保存在内嵌的 Derby 数据库中，但derby数据库只能允许一个会话连接，只适合简单的测试。实际生产环境中不适用，不可能只允许一个会话连接，需要支持多用户会话，通常部署的时候会将hive的元数据修改为保存在mysql中。1、Derby 只支持一个会话连接2、 MySQL 支持多个会话连接，并且可以独立部署...

2019-08-19 21:22:53 4843 2

原创 zookeeper的监听机制

1.首先会有一个main线程。2.在main线程中创建zookeeper的客户端，此时会创建两个线程，connect线程（网络连接通信）和listen线程（负责监听）3.connect将监听到事件发送到zookeeper4.在zookeeper中的监听器列表将监听到的事件注册到列表中5.zookeeper监听到这个数据或者路径发生了变化，就将这个变化的数据或者路径发送给listener...

2019-08-19 21:03:09 511

原创 Zookeeer的选举机制，以及搭建集群时的注意点？

1.zookeeper选举机制是过半机制：集群中只要过半节点存活，集群就可用。2.zookeeper搭建的时候并不需要指定leader和follower，而是通过其内部的选举机制临时产生的。3.举例说明选举机制假设有5台服务器组成了zookeeper集群，他们的ID依次为1~5。（1）假设先启动服务器1，此时只有他启动了，他发出去的报文没有任何回应，此时他的...

2019-08-19 20:36:15 267

原创 HiveSQL中常见的聚合函数，窗口函数有哪些？作用是什么？

1.聚合函数(把多行处理成一行) sum：求和 count：计算总数 max：最大值 min：最小值 avg：平均值。。。2.窗口函数 over（）：指定分析函数工作的窗口的大小。 current row：当前行 n preceding:往前n行数据 n following:往后n行数据 ...

2019-08-19 19:15:49 2945

原创 hive内部表和外部表的区别

1.建表语句不同，外部表建表被external修饰。内部表没有。3.存储位置不同，内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），外部表数据的存储位置由自己制定；3.内部表数据由hive本身管理，外部表数据由HDFS管理，因此删除表的时候不同，内部表会把所有的数据都删除，外部表只会删除掉MySQL中的元数据信...

2019-08-19 18:53:56 847 1

原创 Linux下实现SSH免密登录

ssh-copy-id -i ~/.ssh/id_rsa.pub node4

2019-08-18 16:12:21 111

原创 Hadoop中各阶段优化方法介绍

1.合并小文件在执行MR任务之前，合并小文件。如果有大量的小文件，会产生大量的map任务，map任务的装载次数增大，任务的装载比较耗时，从而导致MR运行较慢。可以使用CombinFileInputFormat来作为输入，解决输入端有大量的小文件2.减少spill次数：调整io.sort.mb和sort.spill.percent参数值，增大触发spill的内存上限，减少磁盘io，...

2019-08-18 16:10:59 192

原创 Hadoop中的序列化和反序列化

1.什么是序列化和反序列化序列化就是把内存中的对象，转换成字节序列或其他数据传输协议，以便于存储和网络传输。反序列化就是将收到的字节序列或其他网络传输协议和硬盘的持久化数据，转换成内存中的对象。2.为什么不使用Java的序列化？因为Java的序列化是一个重量的序列化，一个对象被序列化之后，附带了很多额外的信息（检验码，继承体系等），不便于在网络中高效传输，所...

2019-08-18 15:28:56 359

原创 Hive调优

目录1.fetch抓取（是否使用MapReduce）2.本地模式表的优化：3.小表join大表（新版本已经优化，无明显差别）4.大表Join大表5.MapJoin6.groupByKey7.count(distinct)8.行列过滤（谓词下推）9.动态分区调整10.JVM重用11.并行执行1.fetch抓取（是否使用MapReduce）...

2019-08-16 19:54:24 380

原创查询各科成绩的前三名的学生

利用hiveSQL实现：学生的成绩–数据：小兰语文 87小兰数学 90小兰英语 70大海语文 77大海数学 87大海英语 54小明语文 79小明数学 84小明英语 70小红语文 93小红数学 82小红英语 67建表语句：create table tscore(score string,subject string,mc int)ro...

2019-08-16 11:14:27 6472 1

原创如何免费访问知网万方等网站

话不多说，直接上方法哈哈如下图所示1、进入该图书馆网站点击电子证注册（http://www.gxlib.org.cn/） 2、然后进行实名注册： 3、注册成功，登陆你的账户，搜索你要查找的就行好文要顶关注我收藏该文...

2019-08-10 08:48:26 3641

原创 Hbase架构各组件详解

从图上可以看出HBase由Client，Zookeeper，HMaster,HRegionServer等组成。以下介绍各组件的功能： Zookeeper：保证集群中只有一个HMaster，如果HMaster异常，会通过竞争机制选取新的HMaster。监控RegionServer，当RegionServer 有异常的时候回通知HMaster。通过zookeeper元数...

2019-08-08 19:50:30 1108

原创启动hadoop集群的一个脚本start-hadoop-all.sh

#!/bin/bash#启动ZKfor sxt in node002 node003 node004do ssh $sxt "source ~/.bash_profile; zkServer.sh start"donesleep 2#启动hdfsstart-dfs.shsleep 2#启动yarn ssh node001 "source ~/.bash_profile;...

2019-08-07 17:31:36 1407

原创 Python in worker has different version 3.7 than that in driver 3.6, PySpark cannot run with differe

错误如下：使用Anaconda，默认是python37，下载python36，idea中更换为python3.6,报了如下错误。Exception: Python in worker has different version 3.7 than that in driver 3.6, PySpark cannot run with different minor versions.Pleas...

2019-08-06 19:09:24 3035

原创 azkaban---Missing required property 'azkaban.native.lib'

解决办法：进入到/azkaban-web-server/plugins/jobtypesvim commonprivate.properties加上azkaban.native.lib=false然后拷贝commonprivate.properties到azkaban-exec-server/plugins/jobtypes重启即可（注意一定要azkaban-we...

2019-08-06 12:05:35 1441

原创 Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.rdd.RDD.mapPartitionsWithIn

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.rdd.RDD.mapPartitionsWithIndexInternal(Lscala/Function2;ZLscala/reflect/ClassTag;)Lorg/apache/spark/rdd/RDD; 错误原因：pom.xml文件...

2019-08-01 10:18:20 3060

原创数据库连接池的原理

1、为什么要使用数据库连接池？如果我们使用传统的jdbc连接数据库，每一次java程序要在MySQL中执行一条SQL语句，那么就必须建立一个Connection对象，代表了与MySQL数据库的连接。然后执行SQL语句之后，就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢？因为数据库的连接是一种很重的资源，代表了网络连接、IO等...

2019-07-31 22:30:38 293

原创向hive表导入数据，查看发现有一列为NULL

出现以下的原因是：建表是忘记指定导入数据一行数据字段直接的切割方式row format delimited fields terminated by ‘\t’;

2019-07-31 16:51:56 1964

原创 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category WR

原来的active namenode节点由active转变成standby检查namenode 是否有死掉的，重新启动namenode，如果两个namenode都是standby，检查zkfc,是否启动，如果启动可以从新启动zkfc....

2019-07-31 16:44:14 7554

原创 Redis单节点安装

下载安装包：第一种直接去官网下载在上传http://download.redis.io/releases/redis-2.8.18.tar.gz//也可以访问http://download.redis.io/releases/ 下载其他版本第二种是使用wegt直接在该节点安装wget http://download.redis.io/releases/redis-2.8.18.tar.g...

2019-07-30 22:14:35 131

原创 linux中的make相关用法介绍

make：对于的源码包，是不能直接安装的，需要进行编译，可以通过make命令对源代码编译，make 是 Linux 开发套件里面自动化编译的一个控制程序，他通过借助 Makefile 里面编写的编译规范进行自动化的调用 gcc 、ld 以及运行某些需要的程序进行编译的程序。一般情况下，他所使用的 Makefile 控制代码，由 configure 这个设置脚本根据给定的参数和系统环境生成。mak...

2019-07-30 22:11:01 923

原创 hive的安装，配置与使用

Hive的安装方式采用Hive多用户模式，有服务端和客户端：集群节点Hive服务端HIve客户端mysqlnode1*node2*node3*1.将Hive的安装包上传到node1节点的/software下：#上传到/software/下，解压tar -zxvf ./apache-hive-3.0.0-bin.tar.gz -C /...

2019-07-30 19:14:57 139

原创 kafka2.11相关操作命令

#查看list./kafka-topics.sh --zookeeper node002:2181,node003:2181,node004:2181 --list#查看topic./kafka-topics.sh --describe --zookeeper node002:2181,node003:2181,node004:2181 --topic t729##创建topic./ka...

2019-07-29 21:00:20 661

原创 nohup的使用介绍

nohup( no hang up意思是：不挂断）语法：nohup Command [ Arg … ] [　& ]nohup命令：如果你正在运行一个进程，而且你觉得在退出帐户时该进程还不会结束，那么可以使用nohup命令。该命令可以在你退出帐户/关闭终端之后继续运行相应的进程。简单来说就是：nohup将程序以忽略挂起的方式运行后台启动kafka的命令nohup bin/kafka...

2019-07-29 19:27:24 505

空空如也

空空如也