- 博客(96)
- 资源 (17)
- 收藏
- 关注
原创 关于Clickhouse拒绝远程连接报错的解决方式
最近在新安装ck,使用dbeaver连接的时候,显示拒绝连接,按照以下操作,解决问题1、查询服务器防火墙是否开启,如果开启,请先关闭,查询防火墙是否开启systemctl status firewalld关闭防火墙systemctl stop firewalld2、添加白名单vi /etc/clickhouse-server/users.xml修改为: <networks incl="networks" replace="replace"> .
2021-08-11 08:56:13
6885
3
原创 sparkSQL----读取csv格式创建DataFrame
package sparksql.day01import org.apache.spark.sql.SparkSessionobject scvSQL { def main(args: Array[String]): Unit = { val session = SparkSession.builder() .master("local[*]") .appName("dataframe") .getOrCreate()//不需要创建RDD .
2021-07-03 11:09:41
860
原创 SparkSQL---使用元组创建DataFrame
package sparksql.day01import org.apache.spark.sql.{DataFrame, SparkSession}object tupleDataFrame { def main(args: Array[String]): Unit = { val session = SparkSession.builder() .master("local[*]") .appName("dataframe") .getOrCre.
2021-07-03 00:48:07
733
原创 SparkSQL---使用普通类创建DataFrame
创建一个Man类,package sparksql.day01import scala.beans.BeanPropertyclass Man { @BeanProperty var name: String= _ @BeanProperty var age: String= _ def this(name:String,age:String){ this() this.name = name this.age = age }}M
2021-07-03 00:43:30
393
原创 SparkSQL---使用样例类创建DataFrame
package sparksql.day01/*使用样例类,创建DataFrame对象,df = rdd + schema 信息*/import org.apache.spark.sql.SparkSession//使用case class 类 创建DataFrameobject SparkDataFram { def main(args: Array[String]): Unit = {//构建sparksession对象 val session = SparkSess.
2021-07-03 00:33:21
540
原创 scala 中样例类的应用场景与定义
样例类1、样例类的特性样例类首先是类,除此之外它是为模式匹配而优化的类,样例类用case关键字进行声明。样例类主要是使用在我们后面的sparkSQL当中,通过样例类来映射我们的表当中的对象。首先,我们来说怎么定义样例类: case class Student(name:Stirng,age:Int,city:Sting) 定义这样的类有以下几个特点:1、样例类默认实现了getter方法,当构造方法的成员变量被var修饰时,会重写setter方法。样例类实现了apply方
2021-06-27 11:36:13
972
1
原创 Scala 中伴生类与伴生对象
定义:实现类似 Java中那种既有实例成员又有静态成员的类的功能。为什么会存在伴生类?原因是在scala语法中,去掉了static关键字,不能像JAVA中一样,将成员变量和成员方法使用static修饰,是其成为静态方法和静态成员变量。但是在scala中,又确实需要这样的方式。所以,在scala中,就出现了伴生类的概念。如何定义一个伴生类呢? 1、定义一个 class并在这里面实现所有的实例成员。 2、添加一个 object ,这个 object要与上面的 class同名,然后在这...
2021-06-27 10:50:45
483
原创 Spark 算子----FlatMap 【切分压平算子】
将传进去的数组或者字符串进行切分操作package sparkcoreimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject flatMapDemo { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir","D:\\spark") val conf =
2021-06-24 15:24:02
414
1
原创 如何查看hadoop的resourceManager使用的job调度器
hadoop的job调度器一共有3种,第一种是FIFO调度器、第二种是容量调度器、第三种是公平调度器。可以在resourceManager的web界面查看http://hadoop1.com:8088/cluster/cluster:这里的hadoop 版本是配置job的调度器的参数是在yarn-site.xml文件种配置<property> <name>yarn.resourcemanager.scheduler.class</name>
2021-06-23 12:26:08
387
原创 lzo 压缩文件并且创建索引
lzo 压缩算法压缩比较好,默认的lzo文件是不支持切片操作的,需要手动创建索引文件1、确保服务器内已经安装好lzop命令lzop message.log
2021-06-07 15:34:36
687
原创 [HIVE]中 行转列的相关函数
1、concat 行转列的拼接函数,例如:查询的结果为zhangsa2、concat_ws3、collect_set
2021-06-04 13:55:22
212
原创 【Hive】 order by 、sort by 、distribute by 、cluster by 排序详解
【order by 】:全局排序,并且只有在一个reduce 的情况【sort by 】【distribute by 】【cluster by】
2021-06-03 20:26:59
1999
1
原创 cogroup 算子
package sparkcoreimport org.apache.spark.{SparkConf, SparkContext}/*协分组 通group 相同,group 是作用在单个RDD上,对于cogroup ,将2个rdd 进行协分组的时候,返回的rdd 是一个key 为相同的key ,values 为迭代器,第一个迭代器中的内容为key 在rdd1 中的values 的值第二个迭代器中的内容为key 在rdd2 中的values 的值 */object cogroupDem.
2021-05-23 15:20:39
247
原创 spark groupBy算子解析
对于groupBy算子,传入的参数是可变的,虽然都是在做分组,groupBy 可以在传入的参数中指定使用k-v中的哪一个值进行分组,使得该算子更加的灵活,特殊的,如果使用k 进行分组,相对于groupByKey,有什么区别???1、在效率上,groupByKey 效率更高,在进行shuffle的过程中,传输的数据量小,那么使得该算子的运行效率更高。2、groupBy的返回是一个带有k和k-v的结构,数据重复冗余。综上:在使用分组算子groupBy和groupByKey中选择的时候,根据K分组的时
2021-05-21 01:08:49
1010
原创 Spark core 计算连续登录天数、连续使用次数、连续xxx的案例实操
1、给出以下数据,计算用户连续登录的天数,数据格式为:用户,登录日期user001,2020-03-14user002,2020-03-13user001,2020-03-19user001,2020-03-18user002,2020-03-12user001,2020-03-20user002,2020-03-17user001,2020-03-10user002,2020-03-14user001,2020-03-15user002,2020-03-15思路解析:首
2021-05-04 11:22:10
602
原创 kafka 同一个消费者消费多个主题的多个分区
消费者使用poll拉取数据的时候,返回的是一个records,对于该record,是将所有主题的所有分区的数据全部组成一个集合,返回给消费者,但是当我同一个消费者消费2个不同的topic数据的时候,对于2种topic,数据的格式肯定不一样,做的业务处理也肯定是不一样的,那么我们如何在同一个消费者内,在不同的topic之间做2套不同的业务逻辑。详情见代码package com.kafka;import org.apache.kafka.clients.consumer.ConsumerConf.
2021-03-28 15:20:30
4072
原创 kafka 数据积压的2种解决方式
对于kafka的数据积压,需要搞清楚,到底是在哪里数据积压了对于一般的处理,是以下2种处理方式1、增加分区partitions数,但是partition的数量并不是无限增大的,他是有上限的,一般partition的分区数的数不能大于kafka的broker数,因为我做过测试,当分区数大于broker数的时候,会出现无法消费数据的情况 ./kafka-topics.sh –zookeeper hostname:2181 -alter –partitions 待修改的分区数–topic 主题...
2021-03-28 00:27:50
6774
原创 kafka 生产者订阅主题topic的2种方式以及差异
kafka 消费指定分区数据参考前一篇https://blog.youkuaiyun.com/weixin_38638777/article/details/115242721
2021-03-28 00:20:18
1221
原创 kafka 消费指定分区数据
创建kafka消费者的代码如下:1、构建配置参数 1.1 配置bootstrap.server 参数:hadoop102:9092--------指定kafka集群的地址,可以写多个,防止这个节点宕机无法运行 1.2 配置kafka接受的数据的k-v值的序列化参数 props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); props.put("value...
2021-03-26 14:31:55
1870
原创 大数据-hadoop-Hive 自定义函数
在hive中,自定义的函数可以根据功能的划分为3中:第一种是:1进一出,我们称之为UDF函数,类似的功能有大写转小写;在name字段前加上一个前缀等功能,这种函数的功能是将传入的1个字段进行转换成另外一个字段第二种是:1进多出,我们称之为UDTF函数,类似的函数功能是explode函数,输入一行数据,可以出来多组的数据第三种是:多进一出,我们称之为UDAF函数,类似的函数有sum,avg等聚合函数,输入多行数据,只出来一个结果下面我们来看一下,如何自定义这些函数1、UDF函数1、导
2021-03-22 14:03:02
431
原创 CDH 5.16.2 Kafka启动Kafka MirrorMaker 失败
如图,点击kafka ,配置----KafkaMirrorMaker ,现在Topic Whiltelist白名单重启kafka启动,解决无法启动MirrorMaker 的问题
2021-03-22 00:45:02
921
2
原创 Flume 采集数据到hdfs 小文件优化
众所周知,从flume采集数据到hdfs的时候,需要避免小文件的产生,太多的小文件,在数据处理的过程中,会降低数据处理的性能,那么在日常的flume采集到hdfs的文件,如果避免小文件的产生?在flume的sink操作时,有涉及到3个默认的参数,分别是:a1.sinks.k1.hdfs.rollIntervala1.sinks.k1.hdfs.rollSize a1.sinks.k1.hdfs.rollCount这三个参数分别表示(rollInterval):每次间隔多久往hd.
2021-03-20 13:31:19
783
原创 解决yum 下载的时候 Another app is currently holding the yum lock; waiting for it to exit.
yum 下载的时候,报错如下一直显示被占用,输入命令m -rf /var/run/yum.pid即可搞定
2021-03-16 09:05:59
108
原创 执行hive查询语句报错org.apache.hadoop.security.AccessControlException: Permission denied: user=root...
产生原因:在hdfs的文件系统上,没有root用户,而hive的操作默认使用了root用户,在检查文件的权限的时候,发生报错解决思路:1、关闭hdfs的权限检查在hdfs-site.xml的配置文件中,将dfs.permissions修改为False 默认为开启状态2、默认使用hdfs用户去操作使用hdfs用户(最高权限)hadoop dfs -mkdir -p /user/root(如果路径存在可不执行)hadoop dfs -chown root:hdfs /user/r
2021-03-15 17:04:02
761
原创 redhat 7.x 替换Centos源,使用yum在线更新组件
1、首先卸载redhat本机自带的yum工具rpm -qa | grep yum | xargs rpm -e --nodeps2、下载已经准备好的yum工具centos源https://download.youkuaiyun.com/download/weixin_38638777/156780243、解压并且安装rpm -ivh yum-*4、将Centos-7.repo文件复制到/etc/yum.repos.d/5、执行yum clean allyum makecache.
2021-03-09 11:31:32
229
原创 sparkSQL 自定义UDAF函数(强类型的方式)spark3.x
package sparksql.day01import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.{SparkSession, functions}import org.apache.spark.sql.expressions.Aggregatorobject sparkUDAF1 { def main(args: Array[String.
2021-03-06 23:50:31
379
原创 sparkSQL 自定义UDAF函数(弱类型的方式)spark1.x spark2.x
package sparksql.day01import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.a.
2021-03-06 23:12:49
258
原创 2021-02-21 spark coalesce 算子
算子功能: 减少分区数量,应用场景:ABC 3个分区分别处理10w条原始数据,但是在处理的筛选的过程中,过滤掉了大部分的数据,此时的ABC3个分区的数据量只有1000条,那么此时还使用原始的3个分区去处理这1000条数据,消耗太多,即可使用coaliesce算子,减少分区的数量代码如下: package sparkcore.day01import org.apache.spark.{SparkConf, SparkContext}object dem...
2021-03-06 22:28:52
183
原创 sparkSQL 自定义UDF函数
package sparksql.day01import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject sparkUdf { def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel(Level.ERROR) .
2021-03-06 22:27:38
370
原创 Scala 中的至简原则
1、在scala中,return 可以省略不写,自动默认使用最后一行作为返回值;def function (Int a,Int b ) :Int={ return a+b}简化后:def function (Int a,Int b ) :Int={ a+b}2、如果函数体只有一行代码,可以省略花括号简化后:def function (Int a,Int b ) :Int=a+b...
2021-03-01 22:08:35
441
原创 使用脚本查询集群节点运行情况出现 bash: jps: command not found
1、首先确保远程集群全部安装好了java 的jdk,在本机运行jps ,正常运行2、直接创建软连接ln -s /opt/module/jdk1.8.0_144/bin/jps /usr/local/bin/jps3、在~/.bashrc中添加jdk的路径,添加完之后 记得source ~./bashrc...
2021-02-28 14:55:14
191
原创 IDEA中无法新建scala class 项目
比较诡异的一件事发生了,我本地环境安装好了scala 2.11.7 现在新建好maven项目后,新建无法找到scala class我pom文件里面也引用了scala我的scala-sdk也是安装好的很奇怪的事情,在网上搜了很多解决方法是添加这个scala-sdk,我明明已经有了,为什么还不能创建,索性直接删除这个,重新添加重新创建文件,发现现在已经可以新建scala class文件了可能是idea 没有及时刷新的问题吧,记住,删除,重新添加即可...
2021-02-18 15:20:56
326
1
原创 CentOS7挂载共享文件夹
mkdir /mnt/win/usr/bin/vmhgfs-fuse .host:/ /mnt/win -o subtype=vmhgfs-fuse,allow_other
2021-02-05 11:50:18
360
原创 Java 中 字节数组byte 与String 直接的相互转换
1、String 转byteString str= “123456789”;bytu[] by = str.getBytes();2、byte 转成String 2.1 不指定编码格式 byte[] by = {102,111,112};String str = new String(by); 2.2指定编码格式byte[] by = {102,111,112};String str = new String(by,"UTF-8");...
2020-10-24 02:11:14
959
原创 2020-10-21 auditd: Could not open dir /var/log/audit (Permission denied) 报错解决
auditd 启动报错如下Oct 21 09:36:39 localhost kernel: type=1400 audit(1603244199.591:5): avc: denied { read } for pid=3061 comm="auditd" name=" audit" dev="dm-0" ino=100663367 scontext=system_u:system_r:auditd_t:s0 tcontext=system_u:object_r:dosfs_t:s0 tc
2020-10-21 10:16:14
2583
3
原创 ssh 192.168.3.103 jps 报错 bash: jps: command not found
现象描述:[root@localhost ~]# ssh 192.168.3.103 jpsbash: jps: command not found很奇怪?????首先怀疑192.168.3.102机器上jdk的环境没有安装,所以先去192.168.3.102 机器执行命令jps ,查看是够可以执行成功[root@192 ~]# jps1488 Jps[root@192 ~]#结果是可以执行成功,这个就尴尬了,既然已经安装好了jdk的环境,那么为什么在使用ssh远程连接的时候,
2020-09-18 15:14:58
913
原创 shell for循环的N种写法
1、整数for循环for((i=0;i<10;i++))do echo $idonefor i in {1..10}do echo $idone2.字符的遍历for host in hadoop01 hadoop02 hadoop03do echo $hostdone3、遍历字符数组hostname=(hadoop102 hadoop103 hadoop104)for host in ${hostname[@]}do...
2020-09-18 09:16:51
500
原创 利用OpenSSL将pem格式证书转化为cer格式证书
openssl x509 -inform pem -in 输入的文件【pem格式】 -outform der -out 输出的文件【cer格式】例如openssl x509 -inform pem -in sm2.444.sig.crt.pem -outform der -out sm2.444.sig.crt.cer
2020-07-27 10:56:52
2708
arm-linux-gcc-4.4.3.tar 交叉编译工具链
2018-03-26
软件工程 原书第9版 pdf 高清版
2018-03-12
Visual Assis 番茄助手 2212 vs2010 ---2017
2017-10-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人