- 博客(88)
- 资源 (1)
- 收藏
- 关注
原创 【AI时代】一起了解一下大模型训练过程中,数据集处理的Tokenizer和chat_template
最近在对DeepSeek-R1-Distill-Qwen-14B模型做SFT训练,期间遇到一个问题:我使用R1蒸馏之后的数据去微调模型时,反而使模型丧失了推理能力,这让我百思不得其解,猜测肯定是数据集在处理过程中出现了什么问题,所以决定详细了解下数据集处理过程。
2025-03-08 16:53:17
737
原创 【MySQL】使用LOAD DATA INFILE导入数据时报错:Errcode: 2 - No such file or directory
有一个将7G的csv数据文件需要导入到MySQL中,通过Navicat客户端导入的话会爆内存,所以考虑使用命令:LOAD DATA INFILE来操作。本文记录过程中遇到的两个小问题。
2025-03-03 16:50:59
437
原创 【AI时代】使用unsloth对deepseek-r1-1.5b进行微调
本文主要是基于开源的COT数据集,验证deepseek-r1的微调可行性,使用的是unsloth框架,unsloth目前不支持多卡并行训练,只适合简单的测试和验证,如果需要多卡训练,可以试试LLaMA-Factory和ColossAI。
2025-02-21 16:20:55
2549
10
原创 【AI时代】使用ollama私有化部署deepseek-r1系列模型的过程及问题记录
对于DeepSeek的私有化部署,现在网上已经有很全面的资料了,本文主要记录部署以及部署过程中遇到的问题。目前对于这些问题,网上的资料比较少,我也会持续更新在此过程中遇到的各种问题。
2025-02-08 20:23:39
2257
原创 【个人成长】记录一次PR提交,顺便介绍一下向开源社区提交PR的流程
最近在使用ColossalAI项目,目前提交了两次PR,已合并到官方main分支,简单说明一下提交PR流程
2024-08-05 15:53:19
315
原创 【LLM】使用ColossalAI-0.4.0对llama3-8B-Instruct进行全参数微调
目的:掌握训练手段,使用2000+QA数据集,对llama3-8B做SFT,使模型能完全按数据集中的问题进行回答,保证准确性。本文记录了全部过程和训练过程中遇到的所有问题。
2024-07-25 17:45:18
1644
4
原创 【LLM】基于ColossalAI-0.3.6对llama2-7B-Chat做全参数微调
本文介绍了使用ColossalAI对Llama2-7B-Chat做SFT的全部过程,包括原始数据集的格式、数据集预处理、训练等等。
2024-07-18 18:37:28
974
原创 【Kafka】Kafka生产者开启幂等性后报错:Cluster authorization failed.
1. 用户业务需求,需要开启生产者的幂等性,生产者加了配置:enable.idempotence = true2. 用户使用的集群开启了ACL认证:SASL_PLAINTEXT/SCRAM-SHA-5123. 用户生产消息时报错:org.apache.kafka.common.errors.ClusterAuthorizationException: Cluster authorization failed.
2024-07-03 20:18:42
1703
原创 【RocketMQ】记录一次RocketMQ消费延迟问题排查思路
业务团队反馈使用我提供的RocketMQ集群,上游生产的消息,部分消息,消费程序需要等1分钟,甚至几分钟后,才能收到。
2024-07-03 19:14:17
1823
2
原创 【RocketMQ】Console页面报错:rocketmq remote exception,connect to xxx failed.
console报错,无法连接该节点,经排查,该节点为slave,把该节点杀掉,还是继续报错,重启之后,报错的端口变成11911。
2023-12-25 16:02:36
903
原创 【Kafka】Kafka客户端认证失败:Cluster authorization failed.
1. kafka客户端是公司内部基于spring-kafka封装的2. spring-boot版本:3.x3. spring-kafka版本:2.1.11.RELEASE4. 集群认证方式:SASL_PLAINTEXT/SCRAM-SHA-5125. 经过多年的经验,以及实际验证,配置是没问题的,但是业务方反馈用相同的问题,还是报错!
2023-12-25 15:42:14
3734
原创 【AIGC】如何在使用stable-diffusion-webui生成图片时看到完整请求参数
通过代码调用Stable Diffusion的txt2img、img2img接口时,很多时候都不知道应该怎么传参,比如如何指定模型、如何开启并使用Controlnet、如何开启面部修复等等,在sd-webui上F12看到的请求也不是正式调用SD的请求,所以当引入新插件或需要使用新功能时,怎么传参成了一个大问题,网上关于接口传参的资料也很少,接下来就介绍一下,如何在每次通过sd-webui点击生成图片时,获取到完整的请求参数。
2023-10-09 15:20:27
2031
1
原创 【Java】将Base64格式的图片等比/非等比伸缩至目标尺寸代码实现
# 需求前端页面上传的图片是Base64字符串,需要根据目标尺寸进行伸缩,不能改变图片的比例
2023-09-27 19:45:09
727
原创 【Redis】记录一次K8S存储故障导致Redis集群拓扑异常的修复过程
集群部署在K8S环境内,存储使用的localpv,有一台K8S主机节点磁盘故障,导致在该节点上的redis节点均出现故障,主要表现为持久化失败、集群拓扑异常,持久化失败可以临时关闭RDB和AOF持久化、等挂载好新的硬盘后,重新创建pvc进行恢复,经过观察,这些redis节点恢复后,operator并不能完成集群自愈,需要手动干预,主要表现为:集群拓扑异常:故障的节点没有被清理掉、新的节点没有以正常的角色加入到集群中。
2023-09-25 14:25:46
674
原创 【Java】使用Apache POI识别PPT中的图片和文字,以及对应的大小、坐标、颜色、字体等
本文介绍如何使用Apache POI识别PPT中的图片和文字,获取图片的数据、大小、尺寸、坐标,以及获取文字的字体、大小、颜色、坐标
2023-08-17 09:14:28
2855
6
原创 【Java】对Minio指定Bucket大量文件的批量下载与本地文件夹的批量上传
需要批量下载一个bucket下的内容,bucket下文件有19GB+,且文件夹结构复杂,使用官方的Console无法完成这么大量文件的下载,而且也不支持文件夹的分享,所以自己写个工具下载,顺便把上传的也写了。
2023-07-21 15:02:00
6826
2
原创 【Milvus】记录一次基于milvus-backup做的Milvus备份与恢复
milvus:v2.2.4go:1.20.2 darwin/amd64milvus-backup:v0.2.2
2023-07-21 14:56:56
2530
9
原创 【ChatGLM】使用ChatGLM-6B-INT4模型进行P-Tunning训练记录及参数讲解
pre_seq_len的取值范围一般是1到512,它表示自然语言指令的长度,即输入序列中的前pre_seq_len个token,具体的值需要根据自然语言指令的长度和复杂度来确定。一种可能的方法是,根据不同的指令类型设置不同的pre_seq_len值,例如,对于简单的指令,如“生成一个笑话”,可以设置pre_seq_len为4;不完全是的,pre_seq_len和max_source_length的含义是不同的,但是它们之间有一定的关系。因此,需要根据具体的任务和数据集来调整这个参数,以达到最佳的效果。
2023-06-09 11:52:09
8349
18
原创 【ChatGLM】记录一次Windows部署ChatGLM-6B流程及遇到的问题
系统版本:Windows 10 企业版版本号:20H2系统类型:64 位操作系统, 基于 x64 的处理器处理器:Intel(R) Core(TM) i7-8700 CPU @ 3.20GHz 3.19 GHz机带 RAM:16.0 GB显卡:NVIDIA RTX 2070(8G)Python版本:3.10.11
2023-06-09 11:43:09
4837
原创 【SpringBoot】SpringBoot 纯后端项目如何自定义异常页面(Whitelabel Error Page)
一个纯后端项目,针对不同错误,可以跳转到不同的页面。
2023-05-18 19:19:09
2358
原创 【Kafka】SASL认证的Kafka客户端代码示例(spring-kafka和原生客户端)
最近需要写个小demo测试做测试,整合spring时遇到个配置不知道怎么配,查了一下资料,大部分写的敷衍了事,驴唇不对马嘴,一怒之下,自己写一篇,记录一下,方便以后查看。
2023-04-17 18:28:03
1891
原创 【RocketMQ】RocketMQ 5.1.0版本Proxy集群模式部署实践
为了支持长远的云原生发展,RocketMQ引入了一个全新的模块:Proxy,官方对RocketMQ客户端提供了独立的开源项目:https://github.com/apache/rocketmq-clients,如果要使用这个新的客户端,必须要使用Proxy作为endpoint。
2023-03-28 16:02:31
8718
3
原创 【RocketMQ】基于RocketMQ 5.1.0版本的自动故障恢复集群实践(Controller内嵌方式)
搭建一个3主3从的集群,RocketMQ版本为5.1.0;采用交叉部署(避免两台机器互为主从),节省机器资源;3个nameserver、1个exporter、1个dashboard;支持自动故障恢复,controller采用内嵌在nameserver中的方式部署;异步刷盘;主从切换时,不能丢消息
2023-03-23 19:58:05
1750
原创 【RocketMQ】基于 RocketMQ 5.1.0 版本的定时消息实践
基于5.1.0版本,做定时消息的功能测试和简单的性能测试,也有一些有用的Tips
2023-03-23 19:23:07
2542
7
原创 【Kafka】MM2同步Kafka集群时如何自定义复制策略(ReplicationPolicy)
使用MM2同步集群数据,默认的复制策略为:DefaultReplicationPolicy,这个策略会把同步至目标集群的topic都加上一个源集群别名的前缀,比如源集群别名为A,topic为:bi-log,该topic同步到目标集群后会变成:A.bi-log,为啥这么做呢,就是为了避免双向同步的场景出现死循环。官方也给出了解释:这是 MirrorMaker 2.0 中的默认行为,以避免在复杂的镜像拓扑中重写数据。 需要在复制流设计和主题管理方面小心自定义此项,以避免数据丢失。
2023-03-10 20:14:14
2712
3
原创 【Kubernetes】K8S内Java应用如何开启远程JMX端口
Djava.rmi.server.hostname需要获取Pod的真实IP,也可以通过环境变量的方式添加。获取真实IP是根据k8s集群内的运行时状态得到的,不同的k8s集群配置,可能获取方式不一样。重新build镜像,并更新至Deployment中,在本地就可以进行可视化调试了。修改Dockerfile,读取对应的环境变量。
2023-03-10 20:07:17
1204
原创 【Kafka】记录一次基于connect-mirror-maker做的Kafka集群迁移完整过程
一个测试环境的kafka集群,Topic有360+,Partition有2000+,部署在虚拟机上,由于多方面原因,要求迁移至k8s容器内(全量迁移),正好可以拿来练一下手。本文主要记录对MM1和MM2的实际操作过程,以及使用过程中遇到的问题及解决方案。
2023-03-10 20:05:10
4643
3
原创 【RocketMQ】RocketMQ 5.0版本任意时刻延迟消息的实现原理浅析
RocketMQ对任意时刻延迟消息的支持,是基于主流的方案——时间轮做的,使用需要升级至5.X版本,客户端也需要使用最新的rocketmq-client-java
2023-02-28 17:30:00
4670
9
原创 【Kubernetes】记录一次K8S容器内程序OOM排查过程:unable to create new native thread
项目背景:基于k8s的容器化kafka PaaS管理平台,业务团队申请kafka,通过一系列操作,封装crd,调用operator创建集群,当然还包括其他功能、topic管理、group管理、监控告警、集群扩容、分区管理等等。后台会对每个集群启动定时任务,扫描kafka的元数据变化,主要是使用zk客户端Curator。
2023-02-03 20:04:11
1753
原创 【Python】使用Python完成AES加解密(AES_CBC + PKCS5Padding)
使用Python完成AES加解密,并对结果进行Base64编码
2023-02-03 19:17:17
2932
原创 【RocketMQ】如何快速检查RocketMQ集群延迟情况
checkMsgSendRT是以生产者的角度,检查发送消息的延迟情况,而clusterRT更关注的是集群中每组主从节点的延迟情况,后面可以根据每个命令的参数来做了解。
2022-11-08 14:05:58
2473
原创 【Java】记录一次使用 Springboot + Liquibase 做数据库的变更同步、回滚
本次项目中Liquibase主要用来做以下工作:1. 基于开发环境数据库,同步数据表结构至测试环境和线上环境2. 数据库变更同步、回滚官方地址:https://docs.liquibase.com/home.html
2022-11-04 11:43:41
2884
原创 【Redis】K8S内基于Prometheus的Redis告警规则整理
数据发送到接口后,可以直接用JSON或者Map解析,再根据数据获取指定的标签作为告警信息,也可根据告警级别,选择不同的告警方式。
2022-11-03 19:27:50
1886
原创 【Java】给定执行周期和首次执行时间,生成Cron表达式工具类
页面通过配置执行周期和初次执行时间,后台根据这两个参数,生成对应的Cron表达式,定期生成执行任务的Task,当然,这里也可以直接使用Cron表达式插件,但是对使用者有一定的理解成本。
2022-10-24 15:21:53
2337
3
原创 【Redis】基于Redis6的数据类型以及相关命令、应用场景整理
本文基于Redis 6 整理,涵盖了所有数据类型的介绍、常用命令介绍、以及使用场景介绍。
2022-08-30 17:58:00
929
原创 【Python】记录一次 Linux + Python + RocketMQ 辛酸历程
这是记录一次辛酸的Linux + Python + RocketMQ使用历程,需求背景是需要验证线上一个RocketMQ服务和里面的Topic,如果使用Java,还得打包,上传,太麻烦,使用脚本语言会方便很多,遇到的问题比较多,但是又不想省略其中的过程,就全记录下来了。
2022-08-19 19:48:00
1237
2
原创 【Kubernetes】记录一次基于ucloud/redis-cluster-operator的可行性测试
该集群使用了calico vxlan网络模式,每个node上面都有calicoctlo工具,可用于管理网络配置;master节点没有设置污点,所以master节点也可以分配pod;集群中redis集群使用的ip池数量改为256,模拟ip池紧张的情况。.........
2022-07-08 18:12:37
916
MM2自定义复制策略相关jar文件.zip
2023-12-21
connect-mirror-client-2.6.0.jar
2023-12-21
connect-mirror-2.6.0.jar
2023-12-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人