- 博客(566)
- 资源 (6)
- 收藏
- 关注
原创 k8s kubeadm init 失败
contianerd 2.x.x 和 containerd 1.x.x 相比,配置文件。这部分配置是因为我安装 nvidia-device-plugin 需要的,参考官网。只有 containerd 2.1.5-1 及之上的版本有这个问题,执行。将节点加入k8s 集群,但是报错,报错如下。k8s + containerd 运行时。我通过更改为以下配置解决了这个问题。然后再跳转到的文档处找到如下部分配置。,具体参考本文灵感来源部分。命令可查看可用的版本号。问题出在配置的这一部分。
2025-11-21 14:36:35
72
原创 k8s cri-docker
cri-docker 和 docker 版本不兼容导致的(docker 版本太高,cri-dockerd 版本太低)k8s 环境 docker 运行时,安装 cri-dockerd 查看 cri-docker 无法启动。升级下 cri-dockerd 版本即可,本文验证过的版本对应你如下。cri-dockerd 版本。
2025-11-20 18:46:59
115
原创 k8s calico 网络知识点及配置
Calico 支持两种封装方式:VXLAN 和 IP in IP。VXLAN 在某些不支持 IP in IP 的环境中可用(例如 Azure)。VXLAN 的数据包开销略高,因为其头部更大,但除非您运行的是网络密集型工作负载,否则通常不会注意到这种差异。这两种封装方式的另一个细微差别是,Calico 的 VXLAN 实现不使用 BGP,而 Calico 的 IP in IP 实现则在 Calico 节点之间使用 BGP。的 helm chart 部署的 calico 在values.yaml 配置部分的。
2025-11-20 12:11:40
82
原创 k8s kubeadm 初始化报错 invalid bearer token
执行 curl -v xx.xx.xx.xx:6443 查看网络以及服务是否可用。从输出可以看出,走了代理,问题就明确了,是因为走了代理导致的网络问题。新建立的集群,第一次初始化,初始化报错,执行。直接说结论:本文这个报错并不是证书问题。查看kubelet 日志发现如下错误。
2025-11-18 10:46:16
43
原创 grafana 切换 org 导致的页面跳转不可访问处理
grafana 界面,添加多个组织 Organizations 后,在不同的组织 Organizations 之间切换会跳转到 http(s)😕/doamin:3000/xxxxx 的url。
2025-11-14 12:36:45
140
原创 grafana Update Org ID in Grafana
如果我创建一个名为“测试”的组织,假设 Grafana 给出的组织 ID 为 2。语句解释:sqlite_sequence 是 SQLite 内置的表,用于记录每个 autoincrement 表的当前 ID 序号。如果是 k8s 环境,就先把 grafana.db 文件复制到有 sqlite3 命令的机器上,然后修改。如果某个组织被删除,那么 Grafana 永远不会将该组织 ID 提供给将来创建的任何其他组织。3、把修改好的 grafana.db 文件复制回 grafana pod。
2025-11-14 11:24:18
175
原创 grafana 通过 provider 导入的 dashboard 报错
关于这个问题,是因为这个 导入的 dashboard jison 文件对于数据源的定义部分发生了变化,如下。鼠标移动到任意一个图标的红色⚠️图标处,会出现详情。点击任意一个图标的红色⚠️图标处,会出现。这种 json 格式的数据源对应的配置。不报错的数据源定义为。
2025-11-11 13:29:37
242
原创 为什么微调使用的数据集有格式和模版,训练的时候的数据集没有这些
预训练靠语言分布学习语法与语义;微调靠模板数据学习“人类交互格式”和任务映射。如果你愿意,我可以帮你画一个图:展示“预训练→指令微调→RLHF” 三个阶段的数据流和结构差异,一眼看懂数据为什么变复杂。要我画吗?
2025-11-08 12:06:48
282
原创 k8s kubelet Nameserver limits exceeded
查看 /run/systemd/resolve/resolv.conf 文件中DNS条目,可知有四条,多了一条。删除多的那一条即可,如果愿意,把重复的删除了也行。执行 journalctl -u kubelet -f 发现有如下报错。查看 kubelet 配置文件,看其指向了宿主机上哪个 DNS 文件。
2025-11-06 14:12:26
83
原创 linux 内存 top 看到的内存使用和 free -h 对不上的问题
执行 top 命令切换到按照内存使用多少排列,发现进程并没有使用多少内存。即便把 buff/cache 算上也不可能使用 651Gi内存。服务器执行 free -h 查看内存使用情况发现和 top 的对不上。
2025-11-05 14:25:15
175
原创 k8s calico pod 无法启动 cni-installer/install.go 499: Unable to create token for CNI kubeconfig
由于导致 calico-node pod 启动失败是因为 kube-proxy pod 拉取不到镜像启动失败导致的,所以解决 kube-proxy 拉取镜像的问题即可。结果可知是因为 kube-proxy 没启动导致的 calico-node pod 启动失败。由以上输出可知,可能是网络问题导致的无法启动,而网络问题可能是由于 kube-proxy pod 问题导致的。添加一个节点,但是 calico-node 和 csi-node-driver pod 无法启动。删除这个目录,然后再执行。
2025-11-05 11:34:28
28
原创 ceph mgr 开启 telegraf 模块监控(influxdb+telegraf)
配置,避免权限问题,因为我的 rook-ceph asok 文件属主和属组都是167,所以这里也写 167。说明:本文使用的是 influxdata/influxdb 4.12.5。添加 chart 仓库,和 influxdb 是一个仓库,这段不执行也行。下载离线包,解压后找到 value.yaml 文件,修改配置。下载离线包,解压后找到 value.yaml 文件,修改配置。更改values.yaml 文件配置后执行。更改values.yaml 文件配置后执行。部分,这里需要修改的地方包括。
2025-10-30 18:31:14
62
原创 prometheus 页面无法访问
访问 prometheus 页面的时候跳转到。chart 部署的 prometheus。使用如下配置,浏览器输入。
2025-10-28 19:21:59
223
原创 ceph rgw 用户限额配置
命令查看,输出如下,输出即为用户的 uid。1、直接关闭配额检查(推荐)说明:user-id 使用。设置用户不限额有两种方法。
2025-10-28 11:09:58
47
原创 grafana dashboard 监控 json 文件 uid 长度限制
应用,但是 grafana dashoboard 界面并没有这个新增的自定义监控,查看 grafana 日志如下。的dashboard 监控。但是该监控有些无图,经过修改后将其保存为。的 helm chart 部署的 prometheus。从 grafana 官网找了 一个ID 为。从日志可以看出是因为 uid 太长了。将 uid 部分改为如下,然后执行。的 configmap 文件。
2025-10-27 12:12:59
318
原创 conda 管理 python 版本和虚拟环境
操作命令创建环境并指定 Python激活环境查看环境删除环境修改 Python 版本是否希望我给你补一个「在已有文件里指定 Python 版本」的写法?那种方式更适合团队部署。
2025-10-23 17:01:46
968
原创 ceph scrub errors pgs inconsistent 问题修复
⚠️警告:如果执行方法2后使用 ceph pg 3.391 query 查询到的 pg 状态。然后停止 osd.39 一段时间,等待ceph 认为这个 osd 下线,然后再启动 osd.39。字段中如下输出,从输出中可以获取一些对修复有用的信息,从。输出可知 pg 主 osd 为 osd.39 ,从。输出可知有完整信息的是 osd.50。查看 3.391 pg 详细信息。查看 ceph 集群状态。说明:我这个环境执行。
2025-10-23 12:13:31
57
原创 loki loki-promtail pod 频繁刷新 received file watcher event
然后查看监控,该pod 的cpu 利用率一直很高。编辑 docker 配置文件。
2025-10-21 18:33:29
182
原创 prometheus PromQL
以及右边 ceph_pool_metadata 里对应 pool_id 的 name 标签。结果只是把 pool_id:name 拼成 pool_label,并不涉及另一个指标。原本 ceph_pool_percent_used 的值;允许把右侧指标的标签(比如 name)合并到左侧。它只能在单个指标内操作标签。
2025-10-20 11:46:18
149
原创 ceph CephObjectStoreUser 创建 user 失败 ReconcileFailed
使用如下配置创建 rgw user。⚠️说明:Ready 表示成功。⚠️说明:输出中有一样的提示。查看创建的用户是否成功。⚠️说明:输出中有提示。
2025-10-16 18:36:38
47
原创 ceph 手动编辑 crush 规则
对于大多数安装, CRUSH 更改可以通过 Ceph CLI 实现,无需手动编辑 CRUSH 映射。如果您发现在最近的 Ceph 版本中存在需要手动编辑的用例,请考虑联系 Ceph 开发者(邮箱: dev@ceph.io )。Ceph 会将已编译的 CRUSH 地图输出 ( -o ) 到您指定的文件名。由于 CRUSH 地图是已编译格式,因此您必须先对其进行反编译,然后才能编辑。编辑以下部分中的至少一个: 设备 、 存储桶和 规则。Ceph 从您指定的文件名加载( -i )已编译的 CRUSH 映射。
2025-10-15 18:23:40
49
原创 k8s cert-manager cert-manager-webhook-xxx pod 证书过期问题处理
CA 是 cert-manager 自己生成的内部 CA,一般通过 Helm 或 YAML 安装时自动创建。“CA certificate has expired” —— 用来签发证书的根 CA 证书已经过期。日志应恢复正常,不再有 “CA certificate has expired” 错误。cert-manager 会检测并自动重新创建新的 CA 及 Webhook 证书。当这个 CA 自身过期后,任何基于它的签发操作都会失败,从而引发该错误。查看 pod 日志报错。
2025-10-13 17:28:51
80
原创 ceph 动态平衡子树
但是,平衡器在效率和性能方面存在问题,因此默认情况下它是关闭的。这是为了避免管理员通过增加max_mds设置来“打开multids”,然后发现均衡器会使集群性能变得一团糟(恢复很简单,但可能需要时间)。cepfs长期以来一直有一个动态元数据平衡器(有时称为“默认平衡器”),它可以拆分或合并子树,同时将它们放在“较冷”的MDS排名上。Ceph fs set <fs_name> balance_automated true #这是 reef (18)版本才有的设置选项,低版本关闭动态子树分区使用。
2025-09-29 11:10:15
92
原创 nvidia pro6000 error visiting device: error creating MIG profile: invalid GPU Instance Profile ID:10
nvidia-device-plugin helm chart 版本从 1.17.3 升级到 1.17.4 即可。⚠️注意:本文遇到的问题与这个无关。
2025-09-26 19:35:42
35
原创 ceph 断电后两个osd 共用一个磁盘导致 pgs down mds 异常问题处理
继续排查,发现 osd-51 和 osd-1 在用一个磁盘。断电后 osd 有一个无法启动,看日志发现如下。任选一个 down 状态的 pg 查询。确保 osd-1 上无 pg。发现有 pgs down。
2025-09-15 12:07:03
83
原创 transformer 相对位置编码详解
如果只用词向量,模型分不清「I like apples」和「apples like I」,因为它们的向量集合是一样的。:注意力计算时,不关心 token 的绝对位置,而是关心 query 和 key 的。这样在打分时,模型同时考虑了内容 (content) 和位置 (position)。这样模型能区分「I」在第1个位置 vs 第3个位置,但还是死记绝对坐标。不直接依赖 token 的绝对坐标,而是利用 query-key 的。,分别展示「无位置编码 / 绝对位置编码 / 相对位置编码」的区别?
2025-09-12 18:55:06
882
原创 ceph 恢复卡在 deleting 状态的 rook-ceph crds
由于 Kubernetes 不允许恢复已删除的资源,因此以下命令可以修复 CR,甚至不必担心集群停机。例如,如果有多个 CephFilesystem 卡在删除状态,则可以恢复特定的文件系统: restore-deleted cephfilesystems filesystem-2。当 Rook CR 被删除时,Rook 运算符将响应删除事件,尝试清理集群资源。如果集群中仍有数据,Rook 将拒绝删除该 CR,以确保数据不丢失。如果集群中有多个已删除的资源,且未提及具体资源,则将恢复第一个资源。
2025-09-11 11:42:34
60
原创 ceph 备份数据
如果挂载的时候不指定连接 mon 信息和密钥等,需要单独写配置文件如下。挂载方式 ceph-fuse 和 mount 任选其一。
2025-09-09 10:47:30
71
原创 引力场能量为负,物质能量为正,这是在存在物质的空间中说的,如果是空无一物的空间呢,引力场能量还是负吗(或者说引力场还存在吗)
牛顿框架:没物质 → 没引力场 → 引力能量为零。广义相对论:空时空 → 只有几何(平直或(反)德西特),没有“负引力能量”。宇宙学语境:所谓“引力能量为负”,是相对于物质存在时的势能定义,并不是空无一物时仍然存在的背景属性。要不要我给你举个更直观的比喻:像一张橡皮膜(时空),放上质量才会被拉下去(才有负势能),如果膜上什么也没有,就是平的 → 不存在“负能量”背景。要不要我把“宇宙总能量可能为零”这个说法的物理逻辑也展开给你?“纯时空零能量”是一个整体守恒的描述,并不等于“绝对无”。
2025-08-29 15:19:12
1365
原创 Ubuntu linux ssd 硬盘分区对齐配置
好的 👍 我给你整理一个完整流程(假设你要用整个盘 ,并挂载到 ):⚠️ 注意:以下操作会清空磁盘上所有数据,请确认 没有需要保留的数据!这样会创建一个 GPT 分区表,并新建一个对齐到 1MiB 的分区 。你可以用 查看结果。3. 创建挂载点4. 获取分区的 UUID输出类似:5. 配置 自动挂载编辑 :在最后加一行:6. 挂载生效确认挂载:这样 就会对齐分区、格式化成 XFS,并挂载到 ,重启后也会自动挂载。要不要我帮你写成一段 Ansible playb
2025-08-28 11:14:56
750
原创 k8s pod 启动失败 Failed to create pod sandbox
再次查看没有都有的沙箱容器了,并且沙箱容器已经启动,这时候相应的 pod 启动就不会失败。由 describe 输出信息可知,是有残留的沙箱容器存在导致的。根据 pod 名字顾虑残留的沙箱容器,注意使用。k8s + docker 运行时。k8s pod 无法启动,
2025-08-26 19:20:48
204
原创 大模型 transformer 步骤
好,明白了。我们用逐词、逐元素、一步步展开的数值示例来讲解 Transformer 自注意力(Q/K/V)是怎么从输入到输出的。你要求不要省略元素,所以我会用小维度,保证完整展示计算。一句话:我们把每个词表示为 3 维向量(为了示例简单,真实模型是 512/1024 维):x1=我=[1,0,1]x_1 = \text{我} = [1,0,1]x1=我=[1,0,1]x2=去=[0,1,0]x_2 = \text{去} = [0,1,0]x2=去=[0,1,0]x3=银行=[1,1,0]x_
2025-08-25 16:33:02
714
原创 大模型知识点之矩阵乘以向量
2、当矩阵的行数不等于向量的维度的时候(列数必须等于向量的维度),相当于做了升维(矩阵行数大于向量维度)或者降维(矩阵行数小于向量维度),另外也做了拉伸(非单位矩阵)等操作。1、矩阵乘以向量的的前提是列数必须等于向量的维度。3、当矩阵的行数等于向量的维度的时候(列数必须等于向量的维度),相当于只做了拉伸(非单位矩阵)等操作。蓝色网格:矩阵作用后的坐标系(整个平面被拉伸+错切)👉 所以:矩阵乘以向量 = 向量在空间中被线性变换。绿色箭头:矩阵变换后的向量。矩阵乘以向量的几何意义。灰色网格:原始坐标系。
2025-08-25 12:03:08
438
原创 为什么矩阵乘以向量要求矩阵列数等于向量维度
矩阵乘向量yWxy = W xyWxyi∑j1nwijxjyij1∑nwijxjW∈Rm×nW∈Rm×nx∈Rnx∈Rny∈Rmy∈Rm要求列数nnn= 向量维度nnn,否则求和无法对应每个输入分量。换句话说,每一列代表输入向量的一个维度,如果列数不匹配,就无法把输入的每个分量“拉到输出空间”的每个分量上。
2025-08-25 12:02:22
753
原创 那我现在有3个输入 9层神经元 每层神经元数为 3 9 3 5 6 2 3 9 8 请给出我所有的权重矩阵
输入向量→矩阵乘法线性变换→加偏置仿射变换→激活函数非线性映射\text{输入向量} \xrightarrow{\text{矩阵乘法}} \text{线性变换} \xrightarrow{\text{加偏置}} \text{仿射变换} \xrightarrow{\text{激活函数}} \text{非线性映射}输入向量矩阵乘法线性变换加偏置仿射变换激活函数非线性映射没有激活函数时:每层就是纯线性仿射变换加上激活函数:把线性变换堆叠成非线性映射。
2025-08-25 11:53:42
520
Tunneling wave function of the universe
2025-06-24
宇宙学德西特极小超空间中隧穿波函数的量子场反作用问题研究:精确计算与路径积分方法比较了在德西
2025-05-20
【量子宇宙学】不同宇宙波函数提案分析:隧穿边界条件与路径积分方法在量子宇宙学中的等价性探讨
2025-05-20
宇宙学评析Krauss“无中生有”理论:广义相对论与量子场论视角下的宇宙起源争议分析要求,具体解析
2025-05-20
宇宙学基于量子隧穿的宇宙创生模型:从无到有的宇宙生成机制与膨胀理论探讨
2025-04-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅