- 博客(447)
- 资源 (3)
- 收藏
- 关注
原创 Linux 查看磁盘、文件系统与磁盘占用率
文件系统(Filesystem)是用于存储、组织和管理文件的结构和规则集合。在 Linux 中,所有东西都是文件,所有存储设备最终都会被挂载到某个目录下。挂载点(Mount Point)是文件系统在目录结构中的入口,它表示某个文件系统(磁盘、分区、远程存储)被挂载到哪个目录下。在 Linux 里,所有存储设备(硬盘、U 盘、网络存储)都必须挂载(mount)到某个目录后才能使用。例如:/ 代表根目录,所有文件和目录的起点。/boot 存储 Linux 内核和启动相关的文件。
2025-08-16 10:40:22
708
原创 git branch -a无法查看最新的分支
虽然说git branch -a命令可以查看远程仓库的分支,但是我理解它也是有缓存的,当我们新建了分支,有时它不能立即同步,所以需要我们手动去更新一下。git fetch 的作用是从远程仓库获取最新的元数据和提交历史,但不会将这些更改合并到本地分支中。都是用于从远程仓库获取更新的 Git 命令,但它们的用途和行为有显著区别。别人在项目中上新建了分支,但是当我使用git branch -a命令时找不到新建的分支。再使用git branch -a命令,新建的分支出现了。
2025-08-07 16:57:54
479
原创 Vscode 解决 git插件Failed to connect to github.com port 443 connection timed out
【代码】Vscode 解决 git插件Failed to connect to github.com port 443 connection timed out。
2025-08-06 20:40:09
425
原创 Vscode渲染出错
使用 Vscode 突然出现以上的问题重新安装 python 插件与 Pylance 插件后均无作用。最后通过知乎发现原来是安装了两个插件,一个插件是 Python,一个是Python for VSCode。两者造成了冲突Python for VSCode 已经不再维护更新了,卸载这个插件,渲染就恢复正常了。
2025-08-04 14:12:44
296
原创 find命令解析
find是 Linux/Unix 系统中功能强大的文件搜索命令,用于在指定目录下查找符合条件的文件或目录。它支持复杂的条件筛选,常被用于文件搜索、批量处理等场景。
2025-08-04 11:46:07
751
原创 word公式显示不全
在Word文档中,若遇到公式显示不全的问题,可以通过调整段落格式来解决。首先,点击需要调整的段落,然后选择“中文板式”选项,接着在“文本对齐方式”中选择“居中”。这样操作后,公式通常会完整显示。此外,还可以参考相关技术文章,如知乎上的《Word公式显示不全》一文,获取更多详细解决方案。通过这些步骤,可以有效解决Word中公式显示不全的常见问题。
2025-05-12 17:17:22
555
原创 张量并行优质博客
《必读图解系列》提供了关于大模型训练的深入解析,特别是张量模型并行(TP)技术。其中,Megatron-LM的图解详细介绍了如何通过行列切分算子实现高效的模型并行,从而加速大规模AI模型的训练过程。相关文献总结博客进一步探讨了张量并行的应用场景和优化策略,为研究者和开发者提供了宝贵的参考。这些资源对于理解和应用分布式AI模型训练技术具有重要意义。
2025-05-11 22:52:28
307
原创 数据并行基础概念知识
本文总结了深度学习中的并行训练架构和方法,主要分为PS(参数服务器)和ring-allreduce两种架构,以及zero系列优化方法,包括zeroDP123、ZeroR、Zero-offerload、Zero-Infinite和Zero++。相关博客提供了详细的图解和动图链接,帮助读者更直观地理解这些技术。此外,文章还涉及混合精度训练、Ring All-reduce的数学推导,以及对checkout技术的补充说明。整体内容通俗易懂,适合对深度学习并行训练技术感兴趣的读者参考。
2025-05-11 20:05:34
233
原创 Zotero文献管理
在Zotero中,条目可以通过分类进行管理,类似于标签。要移动条目到新分类并移除旧分类,需在拖动时按住Cmd键(Mac)或Shift键(Windows/Linux)。需要注意的是,条目无法从【我的文库】中移出。此外,在Windows系统中,查看条目所属分类的方法是选中文献后按住Ctrl键,相关分类文件夹会高亮显示。更多详细操作可参考相关文档。
2025-05-11 17:16:23
253
原创 GPU架构
以下为GPU的内部结构图,图片来自于GPU由多个GPU处理集群(GPC)构成,每个GPC由纹理处理集群(TPC)构成,每个TPC由多个流多处理(SM)构成.GPU的最基本的处理单元位于SM中。SM的结构如下:英文架构图一个SM中可以并行多个线程。通过线程束调度器进行软件层面控制,通过分配单元将线程分配到具体的计算单元中。计算单元分为int、FP32、FP64以及Tensor Core。对应的功能结构如下:详细的内容可以查看视频。
2025-05-06 09:32:46
635
原创 1GB与1MB的数值换算关系
为避免混淆,IEC在1998年定义了二进制单位GiB(Gibibyte),明确1GiB = 1024MiB。在中国移动等电信运营商的宣传中,1GB(吉字节)通常等于1000MB(兆字节),这是基于国际单位制(SI)的十进制定义。硬盘、U盘、SD卡等存储设备的标称容量也使用十进制(1GB = 1000MB),目的是让产品参数看起来更大(实际可用容量会因二进制计算略低)。计算机存储与软件:1GB ≈ 1024MB(二进制,严格应为1GiB)网络速率/流量(如中国移动):1GB = 1000MB(十进制)
2025-04-25 11:12:55
1233
原创 凸函数与凹函数
在数学中,凸函数(Convex Function)和凹函数(Concave Function)的命名源于其几何性质,而非单纯依赖视觉上的“凸起”或“凹陷”。为凸函数一直 不理解,因为形状是凹的;后面才发现有特定的解释。
2025-04-16 11:19:09
1192
原创 git仓库中.git文件夹过大的问题
由于git仓库中存放了较大的文件,之后即使在gitignore中添加,也不会导致.git文件夹变小。git remote add 远程地址。如果还有不需要的内容,重复以上过程。可能处理完找不到远程仓库,需要。查看git缓存中较大的文件。之后使用git命令处理垃圾。.git下没有太多内容了。
2025-04-11 22:54:03
704
原创 github fatal Authentication failed for解决
则将“令牌”@插入github之前。常用的生成令牌方式不多介绍,参考。得到令牌后替换url。
2025-04-11 16:04:44
368
原创 tmux窗口存在点点
看起来是由于不同电脑或者应用同时打开了这个tmux才会出现的,这导致分辨率存在冲突,方法就是ctrl b +shift D 一直选择最小的那个,
2025-04-09 14:45:59
159
原创 apt-get与apt的区别
针对用户apt是为终端用户设计的,提供更好的用户体验和简洁的命令。针对脚本apt-get更适合用在脚本和自动化任务中,因为它的命令更明确,不会影响脚本流,因为没有额外的用户交互。尽管apt提供了更好的用户体验,但apt-get仍然是一个稳定可靠的工具,尤其是在需要精细控制包管理过程的情况下。一般来说,用户可以根据自己的需求选择使用哪个工具。
2025-03-31 10:53:20
966
原创 大模型训练过程中KVCache与MLA
那么,一个token对应的qv的数量为2*64*80=10240;根据Transformer中注意力公式,每个token的q需要和之前所有的k计算注意力,然后经过Softmax函数后乘以之前所有token的V,得到最终的结果。注意的是,只有自注意力层进行KVcache的交互,其他部分不需要(position embedding、Laynorm、Feedforward 不需要)由于生成第一个token前没有KVcache,所以延迟较高,需要为提示中每一个token计算KV矩阵。为K计算新列,为V增加新行。
2025-03-28 17:35:52
501
原创 docker文件夹迁移
多人使用一台服务器,每个人新建一个docker,而docker默认挂载在根目录下,久而久之,根目录所在的磁盘就撑爆了。因此最好的方式或者说不得不做的方式就是修改docker挂载的磁盘。在此过程中踩了不少坑,提示一些需要注意的地方。一开始参考的内容是博客,该博客提供三种方式。其中用软链接的方式即可。这主要是因为其余两种方式会涉及到修改配置文件,根据。
2025-03-27 10:44:23
753
原创 mv过程中断会发生什么
在 Linux 或 macOS 终端中执行mv(移动文件)操作时,如果过程被中断(例如,按Ctrl + Cmvmv/home/mnt/usbmvmvmv。
2025-03-20 10:09:15
555
原创 conda commandNotFoundError Your shell has not been properly configured to use ‘conda activate‘.
激活环境后未使用退出环境就关闭终端参考https://blog.youkuaiyun.com/qq_33825817/article/details/88959785
2025-03-19 14:03:46
201
原创 Linux修改conda默认环境位置
package为缓存路径,envs为虚拟环境路径。以Ubuntu系统为例,默认情况下 /.conda路径排在第一位,表示默认环境安装路径。附:vim输入i进入编辑模式,输入esc退出编辑模式,输入 :wq 或者 :wq!退出保存修改文件condarc文件是 Conda 配置文件,其名称的含义如下:- conda:指的是 Conda 这个包管理和环境管理工具。- rc:是 “run commands” 的缩写,通常用于指代配置文件(类似于.bashrc.vimrc等)。因此,
2025-03-13 10:52:56
717
原创 PyTorch 和 Python关系
深度学习框架是一种软件库,旨在简化深度学习模型的开发、训练和部署过程。它提供了一套高层次的接口和工具,使得研究人员和开发者可以更有效地构建复杂的神经网络模型,而不需要深入了解底层的数学细节和硬件实现。PyTorch 和 Python 是两个不同但相互关联的工具,主要用于机器学习和深度学习领域。
2025-03-12 14:44:32
3432
原创 Find查找某个文件或者文件夹
在 Linux 中,find命令既可以查找文件,也可以查找目录。关键区别在于-type-type f-type d示例:查找/home目录下名为myfolder的目录。
2025-03-12 11:06:33
406
原创 DualPipe代码库解析
我们来重新整理和渲染这个表格,以便更清晰地展示每个 GPU 在不同步骤中的执行情况。文件是 Python 包中的一个特殊文件,它的作用是定义包的初始化行为。函数和类主要用于支持分布式训练场景下的权重梯度管理、张量分割与合并等操作。文件中写入代码时,这些代码会在导入包时自动执行。
2025-03-12 09:44:38
879
原创 conda 环境重命名
1.查询当前存在的虚拟环境及其信息2.虚拟环境更名如我这边需要对detectron2进行更名,那么找到detectron2对应的文件夹,直接将文件夹名称修改为任意你想要修改的名字即可!
2025-03-06 11:37:39
732
原创 conda的作用
这篇论文提出了KLOTSKI,一种高效的混合专家(MoE)推理引擎,旨在通过专家感知的多批次管道范式来减少推理过程中的气泡,从而提高推理效率。MoE (Mixture-of-Experts) 模型凭借其稀疏结构,使得语言模型可以扩展至万亿级参数,同时避免了计算成本的大幅增长。最近,基于 MoE 结构的模型备受关注,例如,近日火爆的DeepSeek V3和R1均采用MoE 架构,以较低的成本实现了更强的能力。然而,庞大的参数规模给推理带来了挑战,尤其是 GPU 内存增长速度难以匹配参数的增长。
2025-03-06 11:25:31
1393
原创 Klotski_ Efficient Mixture-of-Expert Inference via Expert-Aware Multi-Batch Pipeline
这篇论文提出了KLOTSKI,一种高效的混合专家(MoE)推理引擎,旨在通过专家感知的多批次管道范式来减少推理过程中的气泡,从而提高推理效率。MoE (Mixture-of-Experts) 模型凭借其稀疏结构,使得语言模型可以扩展至万亿级参数,同时避免了计算成本的大幅增长。最近,基于 MoE 结构的模型备受关注,例如,近日火爆的DeepSeek V3和R1均采用MoE 架构,以较低的成本实现了更强的能力。然而,庞大的参数规模给推理带来了挑战,尤其是 GPU 内存增长速度难以匹配参数的增长。
2025-03-05 23:05:36
1068
原创 INA(In-Network Aggregation)技术
In-Network Aggregation 通过“传输即计算”的方式,将计算任务卸载到网络设备,是突破分布式训练通信瓶颈的关键技术之一,尤其适用于大模型场景。
2025-03-03 22:10:44
394
原创 SFT与RLHF的关系
关系:SFT是RLHF的必要前置阶段,RLHF是SFT的深化和补充。是否替代:❌ 不可替代,需分阶段使用。RLHF需SFT提供初始化模型,SFT需RLHF解决复杂对齐问题。实践意义:两者结合能显著提升模型的安全性、有用性和可控性,是当前大模型对齐的主流方案(如InstructGPT、Claude)。
2025-03-03 22:01:28
494
原创 deepseek、腾讯元宝deepseek R1、百度deepseekR1关系
服务质量高低需分场景:C端实时交互:腾讯元宝满血版可能更优(低延迟、社交集成)。企业级数据处理:百度满血版或更具优势(结合百度AI平台)。通用性与灵活性:官网R1版本更适合技术开发者或需要自主定制的用户。建议选择依据:若追求与腾讯/百度生态无缝整合,选择对应合作版本。若需技术透明度和长期迭代保障,官网版本更可靠。实际决策前,建议参考官方白皮书、第三方评测(如MLPerf榜单)及试用体验。
2025-03-03 17:08:01
4757
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人