- 博客(151)
- 收藏
- 关注
原创 vscode快速接入deepseek 实践操作
快速火爆的情况下,也想自己体验一把。看看在vscode中集成进来,方便平时的脚本开发。对于年纪大的人还是非常方便的。在创建的apikey会弹出显示,要记得保存在自己的小笔记上,方便查找,切记这个只显示一次。其中apiKey需要在deepssek官网注册,新建获取。安装完成就是上面的样子,会在本地已经安装的列表中。打开vscode进入扩展市场,搜索安装。按耐不住激动的❤️,快速试试。如上图所示,修改配置参数。
2025-02-07 22:54:26
370
原创 Jvm GC 参数总结「二」
可与CMS收集同时使用。JDK 5.0以上版本,JVM根据系统配置自行设置,无需再设置此值。用于输出GC时间戳(JVM启动到当前日期的总时长的时间戳形式)。配置并行收集器的线程数,即同时多少个线程一起进行垃圾回收。用于输出GC时间戳(日期形式)。另外建议与处理器的数保持一致。设置年轻代为并行收集。
2023-12-20 23:24:52
696
原创 Hudi 表类型和查询类型
数据湖hudi的表类型定义了数据在DFS上如何组织布局,同时实现一些timeline等操作(表类型定定义数据是如何写入的);查询类型则是定义如何读取DFS上的数据。快照查询;增量查询;增量CDC;时间旅行;快照查询;增量查询;读取优化查询;时间旅行;
2023-12-20 23:05:08
628
原创 Hudi Clustering
在异步模式下,由于发起计划和提交之间没有必然的协同关系,所以在发起计划时,Timeline 中可能尚未积累到足够数量的提交,或者提交数量已经超过了规定阈值,如果是前者,不会产生计划计划,如果是后者,计划计划会将所有累积的提交涵盖进来,在这一点上,Clustering 和 Compaction 的处理方式是一致的。Clustering 在排期和执行上都有可插拔的策略,以及在执行期间如何应对数据更新也有相应的更新策略,执行策略和更新策略较为简单,使用默认配置即可,本文不再赘述,详情可参考官方文档。
2023-12-19 19:14:00
1473
原创 Hudi cleaning-异步操作
由于全量更新第一次的所有数据文件,更新后添加对应的一组 file 信息。执行完成后,会生成一个clean 的时间线。同时删除历史版本的数据。由于数据全量更新第一次的所有数据文件。第二步 update数据。第四步 Cleaning。
2023-12-17 17:46:53
554
1
原创 Hudi cleaning
随着用户向表中写入的数据越多,对于每一次的更新,hudi都会产生一个版本的数据文件保存更新后的记录(COPY_ON_WRITE)或者是将这些增量更新的数据文件写入日志文件以避免重写更新版本的数据文件(MERGE-ON_READ)。在这个情况下,随着更新频率的增加,数据版本文件无限增长。当知道在任何给定时间想要保留多少个 MAX 版本的文件时,此策略很有用,为了实现与以前相同的防止长时间运行的查询失败的行为,应该根据数据模式进行计算,或者如果用户只想维护文件的 1 个最新版本,此策略也很有用。
2023-12-17 14:27:00
967
原创 hive on spark亲自编译,详细教程
编译的spark目录下面的jars文件全部copy到hive/lib下面,将所有的hive/lib jar上传到hdfs目录:hdfs://master:9000/spark-jars/。2、下载spark-2.0.0的源码. https://archive.apache.org/dist/spark/spark-2.1.0/ 这个下载spark各个版本。需要把这个文件拷贝的机器的安装目录下面,解压配置安装。1、安装hadoop不说了。4、执行hive查询操作。3、编译spark源码。
2023-06-09 11:08:12
1177
原创 maven 项目中引入第三方jar,并且打包到项目的运行jar包中
1.在官网下载jar包,https://www.kingbase.com.cn/zxwd/index.htm 下载地址。mvn打包测试:java -jar就成功了。然后利用maven进行打包,发现java -jar 在运行jar的时候会提示找不到jdbc的驱动类。直接将下载的jar包安装到本地的maven仓库中。项目中遇到了人大金仓数据库的jar连接驱动,需要在maven中引入依赖信息。:是jar没有打到到打包的项目jar中。-Dfile:指定jar所在的文件路径。-Dpackaging: jar包。
2023-05-31 10:38:14
1807
原创 FLink 里面的时间语义说明
在进过map的操作之后,map1的watermark为29,map2的watermark为17,在window1中操作,map1和map2的数据都会进入window1 的窗口,最终在窗口中会以最小的watermark来触发计算。使用事件时间窗口时,可能会发生元素迟到的情况,即Flink 用来跟踪事件时间进度的水印已经超过元素所属窗口的结束时间戳。基于现实世界的情况,数据流出现迟到的现象存在,那么在flink代码中允许设置迟到时间,这样在触发窗口的计算时需要加上延迟时间才可以触发窗口的计算。
2023-04-26 17:52:18
826
原创 idea里面,flink local模式的相关配置案例
我们在本地进行flink datastream api的java代码开发的时候,需要方便我们在web页面端进行监控job的运行情况。需要在本地的idea里面做出相关的参数配置.通过在Configuration 对象中配置相关的参数,然后我们在idea里面run main函数,这样在本地浏览器打开:localhost://8081。这个页面就是flink的web监控页面。上面可以试试监控job执行中task上的运行健康情况。上面的代码是从配置文件中读取flink的配置参数。- web端配置参数。
2023-04-26 10:46:30
326
原创 FLink中火焰图的说明
rrest.flamegraph.delay-between-samples 默认值:50 ms 说明:构建 FlameGraph 的单个堆栈跟踪样本之间的延迟。火焰图主要是用来跟踪堆栈线程重复多次采样而生成的,每个方法的调用表示为一个长方形,长方形的长度和在采样中出现的次数成正比。x轴: 表示的是抽样数,如果一个函数在x轴占据的函数宽度越宽,表示该函数在抽样到的次数就是越多,既是执行时间长。ON-CPU:基于线程在CPu上执行消耗的时间采样,查看线程在CPu上花费的时间,
2023-04-21 09:50:09
1740
原创 FLink cli报错org.apache.flinkutil.FlinkException: Mo cluster id was specified. please specify a cluste
Flink作业提交yarn-session模式。启动job之后,定期手动做savepoint。最后完美解决这个问题。已经向社区反应了这个问题。在savepoint的时候,去掉HA的配置。
2023-04-13 11:28:44
356
原创 maven打jar在服务器上执行报错
在执行java -jar 操作之后还是报错找不到程序主类或者属性。很奇怪,执行操作的打包按这种方式是没有问题的。执行maven complie,maven package之后,执行java -jar xxx.jar包。发现还是报同样的错误。在进过compie, maven package之后,在执行java -jar发现成功了,就很疑惑。基于上面的配置,在执行了maven package操作 之后,执行java -jar 报错。首先判断是maven的pom文件配置有问题。
2023-03-30 14:36:29
1006
原创 HttpPost请求中绕开ssl证书
在httpPost发送请求是时候发现报如下错:执行代码CloseableHttpClient client = HttpClients.createDefault();try { CloseableHttpResponse httpResponse = client.execute(httpPost); HttpEntity entity = httpResponse.getEntity(); String body = Enti
2022-04-20 16:33:45
2010
1
原创 前端页面开发的时候遇到一个表单处理按钮的情况
当遇到一个表单处理两个按钮的时候。Thymeleaf一种形式的多个提交按钮<form action="#" data-th-action="@{/action/edit}" data-th-object="${model}" method="post"> <button type="submit" name="action" value="save">save</button> <button type="submit" name="action"
2022-04-12 00:45:30
758
原创 python提取word文档里面的个人照片信息
背景需要分析一批高层次人才简历数据环境python 3.6 pip install docx案例代码def parse(): path = "xx简历.docx" doc = docx.Document(path) dict_rel = doc.part._rels for rel in dict_rel: rel = dict_rel[rel] if "image" in rel.target_ref: # 这里内容中会包含Im
2022-04-07 10:22:55
695
原创 centos7 离线安装python3教程
1 、下载相关依赖2、安装rpm包rpm -ivh * --nodeps --force3、安装python3.6.9解压mkdir -p /usr/local/Python3./configure --prefix=/usr/local/python3make && make install4、报错解决在按python3编译时出现zipimport.ZipImportError: can’t decompress data; zlib not availableMa
2022-04-01 15:18:44
2378
原创 Flink自定义sink端SinkFunction的应用
场景说明从kafka里面读取数据,经过处理写入到mysql里面。在flink里面就是从source到sink的过程,那么本篇文章说明一下,mysqlsink的单条数据插入和批量数据插入操作。1、先说明一下SinkFunction的继承关系通过API我们可以看到sinkFunction接口的实现类有很多。比如常用的RichSinkFunction。2、mysql单条数据插入public class SinkToMysql extends RichSinkFunction<Tuple2<
2021-12-21 21:58:11
4316
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人