- 博客(107)
- 资源 (7)
- 收藏
- 关注
原创 spring boot redis缓存实现
另外,可以设置 allEntries 属性为 true,以移除指定缓存名称下的所有缓存项,例如在 clearCache 方法中。当调用 getFromCache 方法时,Spring 会自动将结果缓存到 Redis 中,并在下一次调用时从缓存中返回结果。在上述示例中,创建了一个 RedisCacheManager 实例,并设置了缓存项的过期时间为 30 分钟,使用了 GenericJackson2JsonRedisSerializer 序列化器序列化缓存值。也可以使用其他序列化器来序列化缓存值。
2023-04-21 16:17:49
949
原创 代码量统计- 主要针对java python 和vue
统计文件夹下以[‘.py’, ‘.java’, ‘.scss’, ‘.css’, ‘.js’, ‘.vue’, ‘.ts’, ‘.json’, ‘.xml’, ‘yaml’, ‘.pom’] 结尾的代码行数。结果: 最终会形成一个excel文件文件中的内容如下。
2023-04-12 15:56:02
275
原创 python将py文件打包成exe可执行文件
这将生成一个名为 main.exe 的可执行文件,并在当前目录下创建一个 dist 文件夹,其中包含 exe 文件及其所需的其他文件。创建一个 Python 脚本(例如 main.py),编写需要执行的代码。在命令行中运行 main.exe 文件即可启动应用程序。
2023-04-12 11:14:04
353
原创 Git clone error: unable to create file xxx: Filename too long
在使用 git 时,提示error: unable to create file xxx: Filename too longerror: unable to create file xxx: Filename too longerror: unable to create file xxx: Filename too longerror: unable to create file xxx: Filename too longerror: unable to create file xxxx:
2022-02-16 12:36:44
1054
1
原创 海豚调度(DolphinSchedulerDolphinScheduler)2.0的下载及安装(单机版)
海豚调度(DolphinSchedulerDolphinScheduler)2.0的下载及安装(单机版)
2021-12-07 10:40:17
5600
原创 kafka面试
1. Kafka 分布式的情况下,如何保证消息的顺序?1. kafka的单个分区partition中的数据是有序的可以将相同的key发送到一个分区中Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。同一个 Partition 用一个 write ahead log 组织,所以可以保证 FIFO 的顺序。不同 Partition 之间不能保证顺序。但是绝大多数用户都可以通过 message key 来定义,因为同一个 key 的 message 可以保证只发
2021-11-05 16:37:20
163
原创 spark 面试题
1. spark 数据倾斜2. spark shuffer过程3. spark join的策略解析1. spark 数据倾斜Spark 数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义 Partitioner,使用 Map 侧 Join 代替 Reduce 侧 Join(内存表合并),给倾斜 Key 加上随机前缀等。什么是数据倾斜 对 Spark/Hadoop 这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。数据倾斜指的是,并行处理的数据集中,某一部分(如
2021-11-05 16:36:38
1137
原创 Flink面试总结`持续更新中........
以前都是自己往小本本上总结, 后来小本本没了, 写到这里吧! 有问题请留言, 先谢过了1. Flink 侧流输出我们结合实际案例说明一下flink侧输出的用法,假设我们的需求是实时的从kafka接收生产数据,我们需要对迟到超过一定时长的数据或者不符合业务的数据另行处理:第一步:定义OutputTag// 定义 OutputTag 侧输出的数据格式可以不应和主流的数据格式一样val delayOutputTag = OutputTag[String]("delay-side-output")
2021-10-29 15:54:21
433
原创 jvm 堆内存使用和占用情况_查询
1.查看进程idjps2. 查看堆内存的使用情况, 查看的是当前时间节点的jmap -heap 进程idjconsole可以查看图形界面式的堆内存 占用 cpu 等也可以查看
2021-08-10 16:18:36
841
原创 jvm内存占用查询_问题
使用 top 命令查询那个进程占用CPU占用过高ps -H -eo pid,tid,%cpu | grep 进程id (用ps命令查看那个线程占用cpu过高)jstack 进程id可以查找到有问题的线程和代码 线程id是十进制的 需要换算为2进制...
2021-08-10 15:55:19
159
原创 spark structured打通kafka与tablestore 的连接
spark 连接kafka数据sink到tablestore中直接上代码, 有不明白的可以留言pom<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven
2021-07-29 16:56:04
197
原创 spark streaming-sql tablestore统计数据
spark数据源为ots 或者叫tablestoreDROP TABLE IF EXISTS source;CREATE TABLE group_chat_source (targetId STRING,targetType LONG, sendTime LONG COMMENT "group_chat_source")USING tablestoreOPTIONS(endpoint='${source_endpoint}',access.key.id='${source_access_ke
2021-07-26 18:01:41
153
原创 spark tablestore数据读写
直接上代码: 内容自己看<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apa
2021-07-26 17:56:18
353
原创 pyspark window安装和初始化
今天开始搞pyspark为了方便以后少走弯路直接下载 hadoop2.7.1 spark选择2.x即可具体上一个博客! 注意可以先考率winutils.exe的版本在选择性下载请点击这里
2021-07-15 17:48:53
108
原创 pyspark报错 py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.isEncryptionEnabled does
在执行一个程序的时候conf = SparkConf().setAppName("miniProject").setMaster("local[1]")报错内容Traceback (most recent call last): File "D:/py_data/py_spark/demo_pyspark.py", line 9, in <module> sc = SparkContext.getOrCreate(conf) File "D:\py_data..
2021-07-15 17:44:56
1702
1
原创 PG权限管理
创建用户CREATE USER app_user WITH PASSWORD ‘xxxxxx’;创建schema app模式create schema app authorization app_user;用户授权grant all on schema app to app_user;grant select, insert on all tables in schema app to app_user;永久授权–上边的方法赋值权限之后只能在现有的表上加上权限, 如果新增表之后还需要在执行
2021-03-26 14:39:29
577
1
原创 blink接入kafka数据 sink到postgre中
blink是阿里的开源组件可以接入的数据源, 和目标源可以https://help.aliyun.com/knowledge_list/62516.html?spm=a2c4g.11186623.6.750.5f7e7c842qR66N废话不多说直接上代码登录阿里子账号右键->新建作业要在pg数据库中创建要sink的数据表```sql-- 注意这里五个参数不能变CREATE TABLE kafka_demo( messageKey VARBINARY, `message`
2021-03-17 13:53:48
603
原创 win 安装配置kafka&zookeeper
安装zookeeper以下是安装包链接: https://pan.baidu.com/s/1_gdkRZ0Ka66D1B95n1Jyew 提取码: xx6b1. 解压文件2. 配置环境变量 java_home&zookeeper_home安装完成后需要添加以下的环境变量(右键点击“我的电脑” -> “高级系统设置” -> “环境变量” ):JAVA_HOME: D:\worksoft\jdk1.8" (jdk的安装路径)Path: 在现有的值后面添加"; %JAVA_HOM
2021-03-04 11:48:58
730
1
原创 PGbench压测工具, 对postgre进行压测
首先 创建要执行的sql文件, 登录服务器到…/bin/pgbench 同目录工具下载安装有两种方式对pgbench工具进行安装:源码安装:下载开源数据库PostgreSQL源码,然后到pgbench对应的目录中单独对pgbench进行编译生成可执行的二进制文件。二进制安装:可以先直接yum install postgresql-server来安装PostgreSQL程序,此过程会自动安装pgbench工具。创建要执行的sql文件all.sql\set scale 11424\set nb
2021-02-25 16:36:03
1063
1
原创 postgreSQL常用语法_表结构
查看表结构信息select col.table_schema, col.table_name, col.ordinal_position, col.column_name, col.data_type, col.character_maximum_length, col.numeric_precision, col.numeric_scale, col.is_nullable, col.column_default, des.descriptionfrom.
2021-02-04 11:24:06
321
原创 kafka_消息积压_消费能力不足_有序性
消息积压处理如果是Kafka消费能力不足,则可以考虑增加Topic的分区数,并且同时提升消费组的消费者数量,消费者数=分区数。(两者缺一不可)消费能力不足处理如果是下游的数据处理不及时:提高每批次拉取的数量。批次拉取数据过少(拉取数据/处理时间<生产速度),使处理的数据小于生产的数据,也会造成数据积压有序性kafka 中的每个 partition 中的消息在写入时都是有序的,而且单独一个 partition 只能由一个消费者去消费,可以在里面保证消息的顺序性。但是分区之间的消息是不保证有序的
2020-12-15 11:42:53
1197
原创 数据仓库三层架构设计
简介作为一名数据的规划者,我们肯定希望自己的数据能够有秩序地流转,数据的整个生命周期能够清晰明确被设计者和使用者感知到。直观来讲就是如下的左图这般层次清晰、依赖关系直观。但是,大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。如下的右图,在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系。因此,我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。数据分层并不能解决所有的数据问题,但是,数据分层却可以给我们带来如下的好处:清晰
2020-12-15 11:30:22
7873
1
原创 JAVA_创建多线程的几种方式
1.线程是什么? 线程被称为轻量级进程,是程序执行的最小单位,它是指在程序执行过程中,能够执行代码的一个执行单位。每个程序程序都至少有一个线程,也即是程序本身。2.线程状态 Java语言定义了5种线程状态,在任意一个时间点,一个线程只能有且只有其中一个状态。,这5种状态如下:(1)新建(New):创建后尚未启动的线程处于这种状态(2)运行(Runable):Runable包括了操作系统线程状态的Running和Ready,也就是处于此状态的线程有可能正在执行,也有可能正在等待着CP
2020-12-14 17:46:58
106
原创 sqoop import/export参数说明
一.先创建一个小表(test_01)进行测试(主节点IP:169.254.109.130/oracle服务器IP:169.254.109.100)1.测试连接oracle;sqoop list-tables --connect jdbc:oracle:thin:@169.254.109.100/库名 --username XX --password XX2.创建HDFS目录;sudo -u hdfs hdfs dfs -mkdir /oracle3.先将oracle中的数据导入HDFS;sudo
2020-10-22 10:47:12
823
翻译 hive开窗函数
普通的聚合函数聚合的行集是组,开窗函数聚合的行集是窗口。因此,普通的聚合函数每组(Group by)只返回一个值,而开窗函数则可为窗口中的每行都返回一个值。简单理解,就是对查询的结果多出一列,这一列可以是聚合值,也可以是排序值。开窗函数一般分为两类,聚合开窗函数和排序开窗函数。点击查看详细内容hive开窗函数...
2020-10-22 10:19:36
123
原创 Linux导出csv文件到window上中文乱码
data1.csv是转义之后的文件 :iconv -f UTF-8 -t GBK ./data.csv -o ./data1.csv
2020-10-11 16:39:06
947
原创 logstash的filter的使用
Logstash filter 的使用原文地址:http://techlog.cn/article/list/10182917概述logstash 之所以强大和流行,与其丰富的过滤器插件是分不开的过滤器提供的并不单单是过滤的功能,还可以对进入过滤器的原始数据进行复杂的逻辑处理,甚至添加独特的新事件到后续流程中强大的文本解析工具 – Grokgrok 是一个十分强大的 logstash ...
2020-09-19 10:59:16
1214
1
原创 spark 文档
这个是spark在线文档地址, 其中有涉及到使用java, Scala,和Python三种语言的开发:spark在线文档 地址如果英文看不懂的可以在google浏览器中安装一个翻译插件, 直接翻译成中文,欢迎关注!
2020-09-19 10:58:11
141
原创 使用Navicat 连接oracle出现 “ORA-03135: Connection Lost Contact”
我使用的是navicat premium版本,之所以用这个是为了能导出数据库表,在连接数据库时候,出现了 “ORA-03135: Connection Lost Contact”,这个是因为navicat通常会在自己的安装路径下包含某个版本的OCI,如果使用navicat连接Oracle服务器时出现ORA-03135错误,大部分是因为navicat本地的OCI版本与Oracle服务器器不符造成的。解决方法就是去OCI的下载页面http://www.oracle.com/technetwork/databa
2020-09-19 10:57:29
2409
原创 Java_23种设计模式
一、设计模式的分类总体来说设计模式分为三大类:创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。其实还有两类:并发型模式和线程池模式。 这里就不说了二、设计模式的六大原则总原则:开闭原则(Open Close Princip
2020-09-19 10:56:46
134
原创 Spark中RDD、DataFrame和DataSet的区别
RDD、DataFrame和DataSet的定义在开始Spark RDD与DataFrame与Dataset之间的比较之前,先让我们看一下Spark中的RDD,DataFrame和Datasets的定义:Spark RDDRDD代表弹性分布式数据集。它是记录的只读分区集合。 RDD是Spark的基本数据结构。它允许程序员以容错方式在大型集群上执行内存计算。Spark Dataframe与...
2020-03-30 16:23:43
295
原创 Informatica组件使用
路由器分发使用sql连接查询\两个表关联查询(join同构)与文件数据关联,(join异构)连接类型注释::这是master信息等级函数rank排名使用数据合并union使用存储过程行专列连接器使用取工资大于员工所在职位的平均工资的员工信息增量数据抽取...
2020-03-26 09:00:13
1030
1
原创 informatica9.6安装之后的服务配置
别以为安装完之后就可以用了,其实还需要进行配置一下: 很简单1. 再服务端启动2.访问ui地址进行配置3.创建存储库服务4. 创建集成服务5. 启动集成服务6. 这里就配置完成了, 一般只需配置一次后续就可以持续使用了...
2020-03-20 23:04:32
511
原创 Informatica的服务器安装
今天在家没事干就在本地电脑上安装了ETL工具informatica我的环境是 win10 , Oracle 11G, informatica9.61. 解压之后直接点击安装即可2. 点击下一步3. 指定许可证4. 下一步5. 指定oracle的用户ID , 我再本地连接时(使用计算机名不行)连不上数据库, 可以尝试localhost6. 这里可以自己...
2020-03-20 16:03:51
690
原创 HIVE-小文件合并
HDFS非常容易存储大数据文件,如果Hive中存在过多的小文件会给namecode带来巨大的性能压力。同时小文件过多会影响JOB的执行,hadoop会将一个job转换成多个task,即使对于每个小文件也需要一个task去单独处理,task作为一个独立的jvm实例,其开启和停止的开销可能会大大超过实际的任务处理时间。同时我们知道hive输出最终是mr的输出,即reducer(或mapper)的输出...
2020-02-26 09:44:19
927
转载 Hadoop实战项目:小文件合并
https://blog.youkuaiyun.com/py_123456/article/details/79762937
2020-02-25 16:32:20
279
原创 二分法插入和查找
直接上代码实现: int[] arr = {49, 38, 65, 97, 76, 13, 27, 49, 78, 34, 12, 64, 1}; for (int i = 1; i < arr.length; i++) { int temp = arr[i]; //要插入的第i个元素 int low = 0;...
2020-02-25 11:16:29
321
代码量统计-包含python java vue
2023-04-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人