- 博客(47)
- 收藏
- 关注
原创 搭建k8s集群的可观测体系(log和metric)(已踩完坑)
Loki是日志聚合系统,属于云原生技术,由Grafana Labs开发。它专注于轻量级和高效的日志管理,特别是适合Kubernetes环境。而Prometheus-operator则是用来管理Prometheus监控系统的,简化部署和配置,处理监控数据,尤其是指标(metrics)的收集和告警。参考:https://github.com/grafana/helm-charts/tree/main/charts/loki-stack预期输出:显示控制平面和CoreDNS服务地址,无报错。在Kubernet
2025-03-25 23:15:42
1125
原创 k8s集群添加一个新GPU节点
现在是已经搭建好一个GPU集群,需要添加一个新的节点(3090卡),用来分担工作,大致可以分为以下几个部分:- 1,安装GPU驱动- 2,安装docker- 3,安装cri-dockerd- 4,离线安装Nvidia-container-toolkit- 5,二进制安装k8s组件以及密钥
2025-03-24 11:38:46
455
原创 k8s集群中部署dcgm-exporter收集GPU指标
部署dcgm-exporter的DaemonSet和Service,确保Service有正确的标签和端口。创建ServiceMonitor,选择dcgm-exporter的Service,并指定端口。检查Prometheus的targets页面,确认dcgm-exporter是否被正确发现和抓取。可能需要调整Prometheus的RBAC或网络策略,确保访问权限。
2025-03-10 17:37:22
515
原创 如何使用Ray和PyTorch训练模型
用户编写训练函数 → 定义单机训练逻辑。通过扩缩容配置 → 指定需要多少资源(Worker 数量、CPU/GPU)。训练器整合训练函数和配置 → 自动将训练函数分发到多个 Worker 上并行执行。Worker 运行训练函数 → 在分布式环境中完成模型训练。通过这种模式,Ray Train 实现了对分布式训练的抽象,用户只需关注单机训练逻辑,无需手动管理分布式通信和资源分配。
2025-03-09 16:24:27
548
原创 docker.service job docker.service/start failed with result ‘dependency‘
docker.service job docker.service/start failed with result 'dependency'
2025-02-11 17:45:57
498
原创 ubuntu20.04离线安装Nvidia-container-toolkit
【代码】ubuntu20.04离线安装Nvidia-container-toolkit。
2025-02-08 09:39:23
455
原创 ubuntu20.04离线安装docker和docker-compose
【代码】ubuntu20.04离线安装docker和docker-compose。
2025-02-07 14:13:17
640
原创 mac上如何安装指定版本的python
在macOS上安装指定版本的Python,可以使用pyenv。以上步骤将在你的macOS系统上安装并设置指定版本的Python。将3.x.x替换为你想安装的Python版本号。
2024-11-09 23:29:09
817
原创 在python中如何使用LSTM模型进行预测
在Python中使用LSTM(长短期记忆网络)通常涉及使用深度学习库,如TensorFlow或PyTorch。这些库提供了构建、训练和评估LSTM模型的必要工具和函数。以下是一个使用TensorFlow中的Keras API来实现LSTM模型的基本示例。
2024-09-11 14:46:32
632
原创 redhat系统中,如何在指定目录下安装特定版本的splunk
替换为你下载的特定版本的 Splunk 软件包的文件名。安装完成后,你可以按照之前提供的步骤继续配置和使用 Splunk。如果安装过程中遇到任何问题,请参考 Splunk 官方文档或联系 Splunk 支持团队以获取帮助。例如,如果你希望将特定版本的 Splunk 安装到。为你希望安装 Splunk 的路径,并将。
2024-08-05 11:31:21
376
原创 git 查看本地和远程分支
通过查看分支,你可以了解当前仓库中存在的所有分支,并确定你所在的分支以及其他分支的状态。执行该命令后,Git 会列出当前仓库中的所有分支,并在当前所在的分支前加上一个。请注意,分支列表中,本地分支会以纯文本形式显示,而远程分支会以。如果你想查看所有本地分支和远程分支,可以使用。如果你想查看远程仓库的分支,可以添加。这将列出所有本地分支和远程分支。这将列出所有远程分支。
2024-06-26 12:06:37
942
原创 git删除分支
在执行删除分支操作之前,确保你选择了正确的分支,并且你不再需要该分支上的任何更改。删除分支后,相关的提交历史和更改将不再在该分支上可见。如果要删除的分支还没有合并到其他分支,Git 会给出警告并拒绝删除。如果你确定要删除该分支而不合并更改,可以使用。你不能在当前所在的分支上删除该分支。如果你在要删除的分支上,需要先切换到其他分支。这会将分支的删除操作推送到远程仓库,从而删除远程分支。是你要删除的分支的名称。
2024-06-13 15:51:39
764
原创 git创建新分支
的新分支,但它将仍然停留在当前分支上。是你要推送的分支的名称。这将在远程仓库中创建一个与本地分支同名的分支。应替换为你想要使用的实际分支名称。请注意,以上命令中的。
2024-06-13 11:20:44
824
原创 自回归模型(Autoregressive Models)
时间序列是随时间变化的同一变量(或变量集合)的一系列测量结果。通常情况下,这些测量是在均匀间隔的时间点上进行的,例如每月或每年。让我们首先考虑一个问题,我们有一个作为时间序列测量的y变量。例如,我们可能有y作为全球温度的测量结果,每年进行一次观测。为了强调我们对时间内测量值的存在,我们使用下标"t"代替通常的"i",即表示在t时间段内进行的测量。自回归模型是指将时间序列中的一个值回归到该时间序列的先前值上。
2024-05-22 14:31:11
9327
原创 文献综述:Machine Unlearning: A Survey
近年来,机器学习在人工智能(AI)的各个领域取得了显著的进展和广泛的探索[1]。然而,随着AI变得越来越依赖数据,越来越多的因素,如隐私问题、法规和法律,导致了一种新的需求——删除信息。具体而言,相关方要求从训练数据集中删除特定样本,并从已经训练的模型中删除这些样本的影响[2-4]。这是因为成员推断攻击[5]和模型逆推攻击[6]可以揭示关于训练数据集具体内容的信息。更重要的是,全球各地的立法者明智地颁布了授予用户被遗忘权的法律[7, 8]。
2024-05-21 16:05:34
956
原创 机器学习的反向过程:机器遗忘技术的崛起(machine unlearning)
机器遗忘技术是指通过一系列方法和算法,使机器学习模型从其先前学习到的数据中删除或遗忘特定的信息。这种技术的出现是为了解决机器学习模型可能在处理敏感数据或过期数据时引发的隐私和安全问题。机器遗忘技术的目标是使机器学习模型能够忘记与特定任务或个人身份相关的信息,从而保护用户的隐私和数据安全。
2024-05-21 15:34:14
1541
原创 知识图谱:加速智能推理的关键
知识图谱是一种以图形结构表示和组织知识的方法,用于描述实体之间的关系和属性。它是一种语义网络,将现实世界的实体、概念、事件等抽象为节点,并通过边表示它们之间的关联。知识图谱是一个结构化的知识库,它以图形的形式表示现实世界中的实体、概念、关系和属性,以及它们之间的语义联系。它是对知识进行模型化和组织的方式,旨在提供机器可理解的知识表示。
2024-05-20 16:55:32
768
原创 如何合并 Git 提交到上一次提交
在使用 Git 进行版本控制时,我们有时会意识到前一次提交存在一些小问题或遗漏。幸运的是,Git 提供了一种简单的方法来合并当前提交到上一次提交,以便修复这些问题或添加遗漏的内容。在本文中,我们将学习如何使用 git commit --amend 命令来实现这一目标。如何合并 Git 提交到上一次提交。
2024-05-14 17:32:49
1356
原创 Git合并多个commit为一个
准备将分支merge到主分支,发现很多个commit,非常影响以后track代码,因此需要将多个commit合并到一个commit
2024-03-08 11:13:27
2154
原创 jenkins添加节点
出现以上错误主要原因是java版本不匹配,最快的解决办法是将添加的节点的java版本设置成和jenkins节点一样的。java安装到remot root directory目录下,要不然系统找不到java。
2024-03-05 11:06:20
700
1
原创 expect远程登陆机器命令详解
expect 是基于tcl 演变而来的,所以很多语法和tcl 类似,Expect是用来进行自动化控制和测试的工具。主要解决shelI脚本中不可交互的问题。对于大规模的linux运维很有帮助在linux运维和开发中,我们经常需要远程登录服务器进行操作,登录的过程是一个交互的过程,可能会需要输入yes/no,password等信息。为了模拟这种输入,可以使用Expect脚本有时候机器比较多,登陆起来比较麻烦,本篇博客给了一个例子,根据role比如hostname来登陆对应的机器。
2023-03-30 16:03:41
888
原创 linux中脚本退出状态码的使用
退出状态 码是一个0~255的整数值,在命令结束运行时由命令传给shell。可以捕获这个值并在脚本中使用以上总结了linux中状态码的使用,实际编写脚本时,可以通过判断$?的值来判断是否命令是否成功执行。
2023-03-16 13:27:33
765
原创 Kubernetes(k8s)中什么是service
Kubernetes 中 Pod 是随时可以消亡的(节点故障、容器内应用程序错误等原因)。如果使用 Deployment 运行应用程序,Deployment 将会在 Pod 消亡后再创建一个新的 Pod 以维持所需要的副本数。每一个 Pod 有自己的 IP 地址,因此pod的IP地址往往动态变化,因此该如何解决这个问题呢?解决方法:通过Service可以获得稳定的IP地址,且在Service的生命周期有效,与Pod的IP地址变化与否无关。例如一个无状态图像处理的后端部署了三个副本。
2023-03-10 10:43:05
236
原创 【python自然语言处理】规则分词(最大匹配法)
基于规则的分词,主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词逐一匹配,找到则切分,否则不切分。以上主要总结了三种规则匹配方法,正向最大匹配法,逆向最大匹配法,和双向最大匹配算法,并给出了相应的代码实现,以上代码都可以直接运行出结果。
2023-03-09 10:06:50
1423
原创 【python自然语言处理】正则表达式
正则表达式主要用于字符串的模式匹配,或者是字符的匹配。正则表达式还可以将一些非结构化的文档内容转化为结构化。另外一个作用是去除噪声,可以将无关的文本内容去除掉。
2023-03-08 14:48:18
297
原创 kubernetes(k8s)部署应用
在日常的工作中经常需要在k8s集群中部署应用,并创建service,步骤虽然简单,但是缺经常忘记,因此总结了下具体的过程,以ngnix为例子。
2023-03-08 13:38:54
858
原创 K8s中使用nfs实现文件共享
通常情况下,容器运行起来之后,写入到其文件系统的文件是暂时性的。当容器崩溃后或者人为杀死后,如果kubelet重启该容器,此时原容器运行时写入的文件将丢失,因为容器将重新从镜像创建。etcd技术正好可以满足k8s数据共享的需求
2023-03-07 16:58:27
1113
Nvidia-container-toolkit,系统ubuntu20.04,x86架构,Nvidia-container-toolkit版本:1.17.4(最新)
2025-02-07
使用python处理视频格式转化脚本
2023-03-08
使用kubernetes(k8s)部署区块链(hyperledger fabric)
2023-03-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人