自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

知本知至的博客

Know this and know the best

  • 博客(145)
  • 收藏
  • 关注

原创 docker compose部署minio报错

部分服务使用docker-compose单节点编排,其中对象存储服务使用minio,在minio中配置了aksk后报错。minio如果配置了aksk等iam类的配置则需要持久化存储到etcd。在minio的部署文件中新增etcd配置。

2025-03-21 11:32:37 201

原创 git pull报错

开发人员 A 先将自己的提交推送到了远程master分支,当开发人员 B 想要git pull远程master分支的最新代码时,就会出现本地master分支和远程master分支的分歧,因为开发人员 B 的本地分支有自己的提交,而远程分支也有开发人员 A 的提交,Git 不知道该如何合并这些不同的提交。将拉取操作的合并策略设置为默认的merge方式。当执行git pull时,Git 会自动进行合并操作,将远程分支的内容合并到本地分支,可能会产生一个新的合并提交,保留两个分支的提交历史。

2025-03-11 13:41:22 335

原创 Centos8部署mongodb报错记录

经过在ecs上更换操作不同版本操作系统得出:mms agent不支持 centos stream系列,操作系统版本换成centos 8.x系列即可。在ecs上更换不同的mms agent测试。

2025-03-07 11:42:09 328

原创 ansible-playbook执行报错

大概意思是本地python版本和ansible的语法的版本不匹配,或者和远程的python版本相差太大。由于使用conda管理虚拟环境,直接使用conda重新安装base虚拟环境python版本即可。使用ansible对centos8.3执行安装MongoDB初始化时报错。再次执行ansible-playbook命令无报错。

2025-03-07 11:21:47 182

原创 kubuntu24.04配置vmware17.5.1

博通官网下载vmware workstation pro 17.5.1版本,注意一个新注册的账号只能下载一个win版本的vmware和一个linux版本的vmware。官网下载appimage包后,配置desktop文件并取消缩放参数,加入开机自启即可。使用root用户运行vmware即可配置raw device。开机自启在设置-》开机与关机-》自动启动中配置。丝滑上网前提:singbox实践。一张桥接网卡,一张nat网卡。个人主机的最后一次折腾吧。snipaste截屏闪屏。安装vmware整体参考。

2025-01-16 19:43:31 630

原创 singbox配置文件实践

singbox入门最难的可能是配置文件的生成了。我主要在linux下使用,win下是用生成的统一一份配置文件直接丢到hiddify中就可以正常使用。整体思路:使用sub-store抽取node list,再使用sing-box-subscribe项目生成sing-box配置文件。这里只介绍一种配置文件生成的方法,其它的部署搭建类请自行翻阅文档,也尝试了其它的配置文件生成方法,个人觉得这种最好用。目前使用下来还是很流畅的,尤其是强大的路由规则。使用singbox的tun模式dns解析需要停止ubuntu上。

2025-01-16 19:33:16 2118

原创 dockerhub上一些镜像

【代码】dockerhub上一些镜像。

2025-01-16 14:05:53 418

原创 ubuntu20升级至22后不兼容ssh-rsa加密算法

1月 10 19:10:01 k8s-master03 sshd[21093]: userauth_pubkey: key type ssh-rsa not in PubkeyAcceptedAlgorithms [preauth]1月 10 19:10:04 k8s-master03 sshd[21093]: error: Received disconnect from xxxxx port 57752:0: [preauth]查看sshd服务有报错。更改sshd配置文件。

2025-01-14 10:06:58 522

原创 ubuntu18升级至ubuntu20

机房有套老k8s集群,上面的比较重要的服务迁移走了。使用的是ubuntu18的系统,升级至ubuntu20再到ubuntu22,然后升级上面的k8s集群,方便后期维护。移除第三方软件源&将软件源换为ubuntu官方源,不然升级到最后有可能重启的时候会出现kernel panic等诸多问题。后面发现好像还是不能mark hold,还是需要将包升级完成才行。在使用了gnome环境的桌面中,大概需要下载1500个包。第一步骤配置路由略,配置私有dns。升级完毕,提示是否执行重启。过程中出现的一些提示。

2025-01-07 18:25:47 634

原创 istio配置重复的svc报错

duplicate domain from service

2024-12-20 16:59:23 438

原创 etcd的dbsize引起的集群故障

通过endpoints status -w table看到的字段中的RAFT INDEX和RAFT APPLIED INDEX字段集群中的节点是相同的,但 -w json才能看到每个节点上同步到的最新的reversion是多少。查看etcd启动日志发现虽然开启了auto-compaction-mode和auto-compaction-retention,但retention的值为0,代表不生效,三个节点都要启用。当 --auto-compaction-mode=revision。可以愉快的访问集群了。

2024-12-09 16:23:22 1237

原创 比rsync更强大的文件同步工具rclone

多个复制,拷贝,同步文件场景,最大规模的是每次几千万规模的小文件需要从云上对象存储中拉取到本地。其他的诸如定期数据备份,单次性数据备份。建议将日志等级-vv 调整为一个v,在执行千万级别文件复制时,日志文件高达20G。基本上使用这些参数可以更好的利用现有的40g专线带宽,ib网络,U2硬盘 等资源。rsync是单线程的,开源的mrsync是多线程的,但适用范围没有rclone广。rclone几乎支持市面上所有的S3协议的存储,诸如各家云厂商的对象存储。更多参数诸如限制带宽等,可以参阅文档。

2024-11-18 19:28:04 1119

原创 ext4文件系统调整索引结构限制

根据场景是将文件拷贝到一个目录下,没有二级目录,发现有可能是ext4文件系统的HTree索引限制了,需要启用ext4文件系统的特性large dirextory。从bos对象存储中拷贝数据到硬盘中时提示No space left on device,但。HTree索引提高目录的性能,最大深度为2层,超过这个深度时触发index full错误,查看文件系统信息,存储和inode并没有满。又可以愉快的拷贝数据了。

2024-11-08 18:29:35 381

原创 intel XL710 40g网卡报错

翻阅了一下像是ubuntu的kernel某个版本bug导致,不使用内核中自带的驱动,从官网重新下载驱动安装。新到的intel 40ge网卡用于传输数据,报错。再次使用多进程上传数据,未出现报错。使用ethtool软重置网卡。会断网一下,因为删除了模块,

2024-11-06 18:02:20 971

原创 arm架构部署nexus配置ssl&containerd

首先要解决掉机器的网络问题,需要拉取registry.access.redhat.com的镜像,和从download.sonatype.com下载tag包,下载包可以本地下载,改动dockerfile复制进去,合作伙伴私有云的机器架构是arm的,使用registry做为镜像仓库,可以满足基础功能,权限管理等功能无法实现。翻看dockerhub上没看到有编译好的arm架构的nexus,从github找到源码仓库的dockerfile在arm架构的机器上重新构建arm架构的镜像实现。

2024-10-31 19:42:18 545

原创 使用ceph-csi把ceph-fs做为k8s的storageclass使用

ceph-fs有两种两种挂载方式,根据源码里面的信息来看,一种是用户空间下的挂载方式fuse,另一种是内核空间下的mount挂载方式。整体实现参考ceph官方的ceph csi实现,这套环境是arm架构的,即ceph和k8s都是在arm上实现。node节点上的csi-cephfsplugin容器日志。附上各个部署文件的配置(按照部署执行顺序)

2024-10-23 17:37:08 1554

原创 ceph rgw使用sts Security Token Service

一些服务需要使用对象存储的sts策略,这点在云上都有现成的文档。验证可行性:搜了一下ceph文档,也支持sts策略,支持两种。外部的oidc提供和radosgw提供的鉴权来认证s3用户。python调用报错access denied参考。启用sts支持,写配置文件也行。assumeRole说明。aws的sts鉴权方式。示例,仅展示基本实现。

2024-10-22 14:56:16 785

原创 arm架构ceph pacific部署

合作伙伴实验室的华为私有云原来使用单点的nfs做为存储设备,现有两方面考量,业务需要使用oss了,k8s集群及其他机器也需要一套可扩展的分布式文件系统。添加osd,数据data 元数据block wal日志block-wal都放在一起。初始化存储节点,也就是用来存储数据的节点,ceph集群中拥有最多osd的机器。部署ceph-mgr节点,后续将node02和node03都添加进来。节点上的硬盘需要做ceph osd的需要需要取消挂载。ceph集群添加ceph-mon服务,mon初始化。

2024-10-14 19:53:11 747

原创 istio代理集群外部的gitlab

原因是:外部client使用https请求到istio的gw后进行tls终止/卸载,使用http请求后端同样是只有http协议的gitlab服务,gitlab根据external_url返回重定向到http链接再返回给外部client导致外部client访问从https变成http。在vs里面添加headers告诉gitlab客户端是来自https的请求,服务端gitlab在收到istio的请求后,重定向至https上,需要实现:通过gitlab.aa.bb.cc.cn来访问集群外的gitlab服务。

2024-09-19 11:54:15 1072

原创 kubeadm使用命令行更新apiserver的certSANs

私有云上有一个LB资源,考虑将扩容后的master节点上的apiserver服务绑定至lb上,做高可用。需要把apiserver得ca证书中的X509v3 Subject Alternative Name即SAN字段中添加lb的IP地址。由于集群中安装了kubesphere后,由kubeadm生成的cr被kubesphere的ks-install覆盖了,不能使用网上的传统的kubeadm导出配置文件,添加ip,重新应用至集群这种方法失效。先查看单节点中的apiserver的证书中是不包含lb的IP地址的。

2024-09-18 16:04:04 540 2

原创 基于open-gpu-kernel-modules的p2p vram映射bar1提高通信效率

bar1 Base Address Register 1 用于内存映射的寄存器,定义了设备的内存映射区域,BAR1专门分配给gpu的一部分内存区域,允许cpu通过pcie总线直接访问显存VRAM中的数据。但bar1的大小是有限的,在常规的4090上,bar1只有256M,基于nvidia开源的open-gpu-kernel-modules模块通过将bar1的寄存器地址增大至32G来提高计算效率。因为机器上的CC和编译内核使用的gcc不是同一个版本,所以这里手工指定make使用哪个gcc。

2024-09-18 14:50:28 1076 6

原创 基于RDMA的nfs服务

nfs rdma 配置

2024-08-29 11:01:40 1250

原创 ubuntu22配置ib网卡驱动&ib交换机配置

ib网卡驱动配置和ib交换机端配置

2024-08-29 09:43:50 2449 1

原创 各种杂项笔记

密码管理工具top200弱密码。

2024-08-22 19:12:51 154

原创 LSI-9361阵列卡笔记

注意的点是要先将raid模式调整为JBOD之后重启机器,即可。要将raid0更改为JBOD直通模式。备注:转换过程中硬盘中的数据未丢失。

2024-08-21 20:06:33 704

原创 kaggle使用api下载数据集

kaggle使用api下载数据集,kaggle使用代理下载

2024-07-29 19:42:06 774

原创 ubuntu2204掉驱动

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

2024-07-29 16:46:46 606

原创 nvidia笔记链接

nccl通信库https://blog.youkuaiyun.com/qq_43219379/article/details/123436895https://developer.nvidia.cn/nccl

2024-07-24 12:02:21 138

原创 pve配置显卡直通&硬盘直通

一个思路:可以将控制台输出从default改为串口输出serial0口,但应该要配置宿主机的grub,备注:由于宿主机上存在多台短期不可停机的虚拟机,所以上述思路未经过测试。pve配置显卡直通到虚拟机后,控制台无法显示。

2024-07-24 11:53:00 2100

原创 ubuntu2204配置anaconda&cuda&4090nvidia驱动

ubuntu2204配置anaconda&cuda&4090nvidia驱动

2024-07-18 11:44:51 1386

原创 kubesphere自定义流水线基础镜像

refer注意点是要在最下面的中添加自定义的基础镜像,直接复制粘贴更改name和image和label字段即可,注意containers的name字段。args: ""volumes:yaml: |spec:affinity:values:- ciresources:requests:limits:volumes:configMap:items:这点有个小技巧,可以通过ks的图形化界面那里选择node的时候,有个下拉框里面看看是否有自定义的label名字pipeline {

2024-07-01 18:41:53 587

原创 gitlab升级16.11.3-ee

gitlab两种https实现,一种是买第三方的https证书手工配置到nginx上,一种是使用gitlab内置的acme一个证书签发管理工具生成https证书实现加密。pg数据库报错token设置不符合约束,是gitlab配置的token有效期不能设置为永不过期。根据官网给的升级路径工具指出要跨多个版本 需要先升级至中间版本状态,再升级至目标版本。gitlab版本为14.6.2-ee升级至16.11.3-ee。升级至14.9.5过程中的问题。解决:升级pg到指定版本13。继续升级,后续升级无报错。

2024-06-18 09:29:28 1444

原创 k8s更改master节点IP

搭建集群的同事未规划网络,导致其中有一台master ip是192.168.7.173,和其他集群节点的IP192.168.0.x或192.168.1.x相隔太远,现在需要对网络做整改,方便管理配置诸如绑定限速等操作。解决:在活着的master上更改kube-system ns下的kubeadm-config这个cm。使用etcdctl命令将要更改IP的master节点踢出集群。master节点是3节点的。

2024-06-04 17:02:48 1348

原创 pve cluster&k8s cluster重建

pve集群&k8s日常操作

2024-05-14 17:50:57 650 1

原创 k8s中修复mongodb启动失败

file:WiredTiger.wt, connection: __wt_btree_tree_open, 577: WiredTiger has failed to open its metadata Raw: [1712915546:365392][1:0x7fc65c8f1080], file:WiredTiger.wt, connection: __wt_btree_tree_open, 577: WiredTiger has failed to open its metadata

2024-04-15 11:45:59 712

原创 systemd监听服务配置文件更新自动重启服务

需要频繁更改一个服务的配置文件进行测试。用来监听服务配置文件是否有变化。

2024-04-03 17:05:58 381

原创 Istio蓝绿升级

还有其他的升级方法:使用operator执行蓝绿升级,原地升级。或者istioctl原地升级其他可能会用到的命令。

2024-01-25 14:02:42 583

原创 流水线报错

给项目A指定了一条流水线,后面发版是项目同事自己发,这个项目中的服务越来越多,导致这个串行流水线越来越长。at hudson.model.Executor.run(Executor.java:432)报错。临时解决方法,先注释掉一些本次发版不用的stage,之后改为并行流水线。大概意思就是流水线写的太长了。

2024-01-22 17:33:52 638

原创 一些k8s的小的报错记录

将导出的yaml文件中的如下字段删除。

2024-01-04 18:12:01 1796

原创 debian&ubuntu的nvidia驱动升级

nvidia驱动问题

2023-11-30 10:35:37 1634

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除