- 博客(204)
- 资源 (5)
- 收藏
- 关注
原创 kafka性能优化策略
生产者生产者的发送流程简述是 生产者发送数据要经过 拦截器->序列化->分区器->缓冲区->再到sender集群 由kafka的Sender线程 读取消费设置设置批次设置batch.size,linger.ms将延长数据被消费的时间,但能显著地提升生产者的效率ack机制ack不同设置的区别不同的ack机制可能产生的问题ack为-1时吞吐量吞吐最低,数据最安全,可能发生重复ack为1时吞吐量,安全性最均衡ack..
2022-02-27 17:14:08
1475
3
原创 sql数据练习
---组内排名select *from (select brank,keyword,sum(price) as `营业额` ,dense_rank() over (partition by keyword order by sum(price) desc) as `排名`from CityRecord group by brank,keyword )t1where `排名`<=10--if匹配语句select item_id, sum(if(flag==1,1,0)) as `.
2022-02-24 15:25:59
386
原创 flink打包运行的clickhouse的jar无法识别问题
问题Caused by: java.sql.SQLException: No suitable driver found for jdbc:ch://t1:8123/alibaba解决策略修改pom,添加scope,设置属性为provided <dependency> <!-- will stop using ru.yandex.clickhouse starting from 0.4.0 --> <gro
2022-02-20 20:24:14
1262
原创 win10开启卓越性能
powercfg -s 8c5e7fda-e8bf-4a96-9a85-a6e23a8c635c在powershell输入后会显示
2022-02-19 11:58:49
241
原创 Mavn打包插件以及打包命令
<build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-assembly-plugin</artifactId> <version>3.0.0</ve.
2022-02-18 23:20:40
148
原创 flinksql的初始化
Mavn的依赖 <properties> <java.version>1.8</java.version> <maven.compiler.source>${java.version}</maven.compiler.source> <maven.compiler.target>${java.version}</maven.compiler.target>
2022-02-17 19:35:23
743
原创 redis的几种并发场景的问题及解决策略
简介redis作为应用与数据库的中间缓存,用户访问数据源会首先访问redis,查询无数据则直接查询数据库,查询到后,返回的数据会加载到redis里面。在使用的过程中,redis在并发场景,存在缓存穿透,缓存击穿和缓存雪崩等问题。缓存穿透问题当访问key不存在时候,请求会一直打在数据库上,增加了数据库的压力。解决策略一 可以先缓存空值key二 过滤不正常请求缓存击穿问题当key过期后,大量请求直接压在数据库上,可能导致数据库崩溃解决策略一 预加载
2022-02-13 17:22:32
814
原创 redis事务
redis事务不支持完整的acid机制,redis事务的流程分为组队和执行的流程,组队的过程某条命令发生错误,则全部报错,执行过程发生错误,仍继续执行,除了执行失败的命令之外,继续执行,没有事务隔离级别的概念锁机制这里是以redis的单个服务器为基础介绍的,锁分为乐观锁和悲观锁乐观锁乐观锁是以版本号先后以区别的,redis事务监听key,当发现key前后的版本号发生改变,则事务执行失败,而redis的事务的锁就是乐观锁悲观锁没啥说的,全阻塞,原生的redis不能实现...
2022-02-13 13:42:59
655
原创 redis事务
redis事务不支持完整的acid机制,redis事务的流程分为组队和执行的流程,组队的过程某条命令发生错误,则全部报错,执行过程发生错误,仍继续执行,除了执行失败的命令之外,继续执行,没有隔离级别的概念...
2022-02-12 23:25:11
649
原创 xcall和xsync命令
xcall命令#!/bin/bashparams=$@i=1for (( i=1 ; i <= 3 ; i = $i + 1 )) ; do echo ============= hadoop0$i $params ============= ssh hadoop10$i "$params"donexsync命令需要先安装rsync#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if [ $pcount -lt 1
2022-02-12 09:07:02
345
原创 Mysql的锁机制
Mysql的锁机制是除了Mysql的MVCC机制外,解决并发过程的幻读等问题的另外的方案,当然性能比mvcc机制较低,因为不允许读写操作并列执行,但是一些特殊机制,必须使用Mysql的锁方案
2022-02-07 13:18:57
959
原创 Mysql事务
事务的基本概念谈到事务,首先要谈到事务的ACID机制 ,ACID包括原子性,一致性,隔离性和永久性.原子性,分别概述一下这四个概念原子性要么全部成功,要么全部失败一致性一致性是指事务执行前后的状态是相同的,指的是事务执行的前后状态符合现实世界的合法性状态隔离性事务不被外部并发的事务干扰永久性一旦事务执行完毕,即永久保存事务的状态事务的状态: 活动的(正在进行),部分提交(没有刷写到磁盘里面),失败的,中止的,提交的(数据的安全性由事务日志保障)...
2022-01-27 15:16:54
1146
原创 kafka可视化工具-kafkaUI-lite
在网上找到一个kafka的可视化的工具(gitee地址),在这个界面可以直接查看kafka的主题,消费者组和偏移量,配置也非常简单,gitee上有非常完善的教程
2022-01-23 22:05:19
2768
1
原创 json与对象的序列化和反序列化
json的序列化和反序列化需要用到alibaba的fastjson依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.66</version> </dependency>反序列化将json字符串转化
2022-01-23 20:41:25
401
原创 es获取basic license
#获取临时licensecurl -XPOST "http://elasticsearch:9200/_license/start_basic?acknowledge=true"#查看license是否注册curl -XGET -u user:password 'http://hadoop101:9200/_license'
2022-01-20 17:26:27
1691
原创 Mysql索引优化
以s1为例,表的结果如下索引如下表的数据如下1选择自增主键主键有序可以发挥索引的作用,同时在新的数据插入时,避免索引的大的改动造成的性能损耗,只需要直接插入即可2避免类型转换类型转化无法走索引,如key1是字符串类型,如果用where使用非字符串类型过滤查找的话,无法发挥索引优势3避免对索引列使用函数使用函数的会使索引失效,如以下语句避免使用左模糊和全文模糊查询使用左模糊和全文模糊查询会让索引失效,右模糊查询下,索引仍然有效4避免进行计算sql的列进行计算的话,索引将无法
2022-01-19 15:21:44
648
原创 Mysql的explain性能分析工具(待补充)
exlain工具的妙用注意 explain分析工具在Mysql5.7之前只能分析select语法,Mysql5.7之后能分析select,update和delete语法explain语法的执行截图(我在name上添加索引)expalin各个字段的说明缺陷
2022-01-18 16:23:04
730
原创 Mysql的InnodB和Myisam比较
Mysql8支持的引擎其中用得比较多的InnodB和Myisam引擎,其中InnodB引擎用得较多,是默认引擎,下图是两者的比较InnodB比起其他引擎具有支持事务(分布式事务)和检查点功能,而Myisam引擎在小数据量和增查环境下更具有优势,但若无特殊要求默认使用InnodB引擎...
2022-01-14 16:50:59
426
原创 Mysql8用户,角色及权限管理
用户及密码管理#创建用户及密码create user 'lin' identified by '123';#修改用户名update mysql.user set user='lin1' where user='lin';#删除用户名drop user 'lin1'#修改当前密码alter user user() identified by 'root';set password='123';#修改其他用户的密码(已取消password函数)set password for 'long
2022-01-13 18:16:10
733
原创 Mysql8的ibd文件简述
mysql8.0的inndb引擎开始将表相关的信息保留在.ibd文件里面,使用mysql集成的软件读取ibdibd2sdi --dump-file=pro.txt pro.ibd如包含数据类型等
2022-01-13 14:46:03
1203
原创 基于pyspark的随机森林
import findsparkfrom numpy import frompyfuncfrom pyspark.ml import classificationfrom pyspark.sql.functions import spark_partition_idfindspark.init()from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('test1').getOrCreate()df =
2021-12-29 23:07:54
1203
原创 kafka的压测
写测试bin/kafka-producer-perf-test.sh --topic test_perf --num-records 1000000 --record-size 100 --throughput 5000 --producer-props bootstrap.servers=hadoop101:9092以 发送100w条数据,每条数据100个字节,每秒发送5000条为例,结果为测试解析一共发送100w条 每秒写入0.48m信息,每条信息 平均延迟1.07ms,最大延迟573.m
2021-11-13 15:55:16
1285
原创 Hadoop3的lzo的jar包
Hadoop默认不支持lzo压缩,需要配置hadoop配置lzo压缩lzo的jar链接:https://pan.baidu.com/s/1l1Qc69WebN1HCf1VlQeOXQ提取码:h295
2021-11-05 09:52:03
1258
原创 Hadoop的压测
#测试写能力 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -write -nrFiles 1 -fileSize 128MB#写速度hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -read -nrFiles 1
2021-11-04 16:35:36
1186
原创 awk命令
#过滤输出第一列数字who |awk '{print $1}'检索文件为例#切割txt文件,提取前500行,获取第一列和第五列cat -n 500 touch.txt |awk -F ',' '{print $1,$5}'#过滤提取含有广东省的字段cat -n 500 touch.txt |awk -F ',' '/广东省/ {print $1,$5}'#读取文件提取字段大于356290的指定字段cat touch.txt |awk -F ',' '$1>356
2021-11-04 13:03:18
110
原创 Hadoop文件切分的源码
Hadoop文件的切分原则:一 按每个文件切分二 文件大小/分片大小《=1.1则划分为一个文件,否则切分为2个文件三 一个切片一个Maptask,一个Maptask代表一个并行度分片默认设置分片切分的核心源码public List<InputSplit> getSplits(JobContext job) throws IOException { StopWatch sw = new StopWatch().start(); long minSize = Math.max(
2021-11-01 18:32:23
750
原创 Hadoop的任务提交流程
Job提交流程的图一 判定job的状态判定job的状态二兼容新旧Api三判定集群环境四 提交核心源码生成切片信息和配置job.xml (配置),job.split(切片信息),jar包(本地模式不提交jar包)提交完毕 删除缓存信息JobStatus submitJobInternal(Job job, Cluster cluster) throws ClassNotFoundException, InterruptedException, IOException {
2021-11-01 16:32:42
515
原创 hive的Caused by: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-572947236
早上起来去跑个hive的sql,稍微复杂点sql,就会报错如 Caused by: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-572947236 等,经过一个一个小时的排查,我觉得可能是我虚拟机的配置不行,刚好有一台华为鲲鹏的学生机,把配置导进去,sql跑起来丝滑的不行,好吧,是我不配,心累。...
2021-10-29 14:28:48
885
原创 Hive提取小时内,分组排名前3的sql
表的结构是这样的,时间的范围我是提取了几个小时内的数据create table `alibaba.user_bea` (user_id bigint, item_id bigint, cate_id bigint, times string, bea int )PARTITIONED BY (dt STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS orc;提
2021-10-29 14:01:23
617
原创 Hive的schematool: command not found
切换到bin目录下,让schematool拥有可执行权限chmod 777 schematool
2021-10-29 09:45:12
2516
原创 Hive的分区和分桶
为了避免全表扫描,优化查询性能,我们可以使用分区和分桶表将数据细化,分桶表是分区表的进阶阶段,分桶表是使用表的字段进行进一步细分数据,分区则是指定外部的字段来分区分区表create table `alibaba.orders` ( order_id bigint, user_id bigint, item_id bigint, times string, name string, address string, phone string, key
2021-10-25 17:09:41
182
原创 centos7配置ssh免密
设定有三台虚拟机,生成密钥后,将密钥保存到hadoop101,再由hadoop101,分发给另外两台虚拟机#查看是否安转sudo yum list installed |grep openssh#z输入回车生成密钥ssh-keygen -t rsa#传递密钥ssh-copy-id hadoop101#密钥的分发scp authorized_keys hadoop103:~/.ssh/...
2021-10-24 11:19:37
1943
Hive的表数据,一共1165w条数据
2021-10-29
SpringCloud的整合尝试,版本为idea
2020-07-19
springmvc的idea版本的开发
2020-03-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人