- 博客(121)
- 资源 (11)
- 收藏
- 关注
原创 docker容器内运行pytorch多gpu报错 RuntimeError: NCCL Error 2: unhandled system error
尝试了多种方法不行比如。最终解决该问题的方法是。
2025-03-13 17:34:53
220
原创 DeepSeek-R1:大模型训练技术分析
DeepSeek-R1的论文介绍中不仅描述了比较完整的技术实现路径,同时也提供了一些失败的实验尝试,这给其他厂商提供了完整的复现方式。先看一下大模型的效果。通过上图可以看到DeepSeek-R1大模型的实验结果几乎与OpenAi-o1-1217结果持平,在一些测试数据上(AIME 2024、MATH-500)评测结果甚至超过了后者。
2025-02-11 11:53:00
997
原创 wget: unable to resolve host address解决方案
解决该问题的方法是:修改/etc/resolv.conf文件,添加nameserver信息就可以,下面给出的是两个通用的谷歌域名服务器,也可以换成自己的服务器。当使用wget进行下载资源的时候,比如执行下面的命令。
2025-02-08 10:42:45
361
原创 进行领域大模型的训练技巧介绍
答:如果仅仅使用领域数据集进行模型训练,模型很容易出现灾难性遗忘现象,为了解决这个问题通常在领域训练的过程中加入通用数据集。主要与领域数据量有关系,当数据量没有那么多时,一般领域数据与通用数据的比例在1:5到1:10之间是比较合适的。答:通过分析发现现有的开源大模型进行预训练的过程中会加入书籍、论文等数据。主要是因为这些数据的数据质量较高,领域相关性比较强,知识覆盖率(密度)较大,可以让模型更适应考试。答:在进行SFT实验的时候,大模型选用Chat还是Base作为基座,需要根据SFT的数据量进行决定。
2024-12-06 16:27:44
326
原创 I cannot connect to ssh with vscode ( channel 4: open failed: administratively prohibited: open fail
在国产化大模型适配的时,遇到的环境问题。
2024-07-08 15:54:31
164
原创 解决linux终端输入clear无效的问题
linux 终端clear命令无效,并返回:terminals database is inaccessible。step1: vim ~/.bashrc 在里面添加如下信心。
2024-02-20 16:09:13
647
原创 scp通过跳板机向服务器传文件的方法
在实际情况下如果目标服务器无法通过ssh直接连接,需要跳板机才能连接,如何使用scp呢?目标服务器host2: 192.168.42.9 user:admin2。跳板机host1:192.168.32.7 user:admin1。通过如下命令用scp命令进行传输。
2023-10-23 15:21:51
3805
原创 visual-studio-code通过跳板机连接远程服务器的配置操作
把本机生成的rsa_id.pub公钥上传至服务器中,并追加(cat命令) 写入到~/.ssh目录下的authorized_keys文件中。如果~/.ssh目录下没有authorized_keys文件,则需要我们手动创建一个。step5:visual studio code 连接服务器不需要密码的操作。生成的两个默认文件中,id_rsa.pub是公钥,id_rsa是私钥。打开下图中的配置文件,并输入跳板机和服务器的配置信息。step3:将本机生成的私钥和公钥上传服务器上。step1:在本机上生成私钥和公钥。
2023-10-10 11:36:22
788
原创 bash: /usr/bin/mv: Argument list too long
【代码】bash: /usr/bin/mv: Argument list too long。
2023-08-14 10:54:18
404
原创 Visual Studio Code 设置文件头部添加作者、日期和函数注释
step2:左下角选择管理—设置—输入"fileheader"—点击"在setting.json中编辑"step1:安装插件KoroFileHeader。step3:添加下面的代码到json文件中。
2023-07-31 16:56:19
1905
原创 How to resolve “RuntimeError: CUDA out of memory”?
【代码】How to resolve “RuntimeError: CUDA out of memory”?
2023-07-14 16:22:32
630
原创 GitClone报错:GnuTLS recv error (-110): The TLS connection was non-properly terminated.解决方法
尝试了下面这种解决办法,没有解决。最终使用下面的方法解决的。
2023-07-12 14:03:19
517
2
原创 ubuntu系统linux下安装指定版本的gcc方法
1:查看当前linux系统的gcc版本。2:查看和cuda版本对应的gcc版本。3:安装和cuda对应版本的gcc。4:建立gcc和cuda的软链接。
2023-07-05 10:17:00
2369
原创 E: Unmet dependencies. Try ‘apt --fix-broken install‘ with no packages (or specify a solution) libre
遇到这个错误的解决方法。
2023-06-21 14:49:04
449
原创 Tar Argument list too long 参数列表过长的解决办法
当对一个目录里面的文件进行压缩(tar)时,而这个文件数量超过三万个,就会遇到标题中的问题。
2023-03-29 10:19:43
579
原创 vscode connect server not use input password
visual studio code 连接远程 linux 服务器,不用每次都输入密码
2022-11-05 15:28:15
209
原创 Brief Review — Improving Neural Machine Translation Models with Monolingual Data
the nlp domain machine translation
2022-09-14 19:13:26
340
原创 TypeError: can‘t convert cuda:0 device type tensor to numpy. Use Tensor.cpu() to copy the tensor to
AttributeError: 'list' object has no attribute 'cpu'
2022-06-10 09:54:19
356
原创 “bernoulli_scalar_cpu_“ not implemented for ‘Half‘
CPU 不支持半精度计算,重新安装成GPU版本的pytorch 就可以查看安装的pytorch是否能使用CUDA进行加速计算import torchtorch.cuda.is_available()
2022-04-21 12:02:38
4741
原创 vim debug python use pdb
pdb Python自带的一种debug工具pdb 的两种用法1: 非侵入式方法python -m pdb filename.py2: 侵入式方法Import pdbpdb.set_trace()3: 常用命令l:查看当前位置前后11行源代码ll:查看当前函数或框架的所有源代码n: 执行下一行不会进入函数体c:持续执行下去,直到遇到一个断点n:执行下一行(不会进入函数体)s:执行下一行(能够进入函数体)p:打印变量,相当于print()函数q:退出调式器referen
2022-04-19 17:54:49
1135
原创 create virtual environment
for linux and windowswget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.shFor OSXwget https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-x86_64.shInstall minicondash Miniconda3-latest-*-x86_64.sh -bRun conda init~ /
2022-04-15 11:42:53
412
原创 Tf中指定GPU的使用和配置
1:在终端执行程序指定GPUCUDA_VISIBLE_DEVICES=0 python demo.py其他可用的形式CUDA_VISIBLE_DEVICES=0,1CUDA_VISIBLE_DEVICES=“0,1,2”2:在python代码中指定GPUimport osos.environ["CUDA_VISIBLE_DEVICES"]="0,1"3:设置定量的GPU使用量import tensorflow as tfconfig = tf.ConfigProto()confi
2022-04-12 17:05:31
2498
原创 server certificate verification failed. CAfile: /etc/ssl/certs/ca-certificates.crt CRLfile: none
出现以上问题如何解决git config --global http.sslverify false
2022-02-10 15:35:23
1131
原创 Python常用的几个函数解析
1:yield一个带有yield的函数就是一个generator, 它和普通的函数不同,生成一个generator看起来像函数调用,但不会执行任何函数代码,直到对其调用next()才开始执行。虽然执行流程仍按照函数的流程执行,但每执行到一个yield语句就会中断,并返回一个迭代值,下次执行的时候从yield的下一个语句继续执行。看起来就如同一个函数在正常执行的过程中被yield中断了数次,每次中断都会从当前的yield返回当前的迭代值。yield的好处是显而易见的,把一个函数改写成一个generator
2022-01-21 14:57:10
384
原创 深度学习的基本概念介绍
Tensor概念介绍可以把Tensor理解为多维数组,可以具有任意多的维度,不同的Tensor可以有不同的数据类型(dtype)和形状(shape)同一Tensor中的所有元素的dtype均相同。不同维度的Tensor可视化表示为如下图所示。模型和层的概念模型是深度学习中比较重要的概念,模型的核心功能是将一组输入变量经过一系列的计算,映射到另一组输出变量,用到的映射函数就是一种深度学习算法。模型主要包含两方面的内容。(1)一系列层的组合用于进行映射。(2)一些参数变量在训练的过程中实时更新.
2022-01-20 10:38:26
1144
原创 2022年预训练的下一步发展
1:基于数据驱动存在的问题长尾效应:现实中的数据分布就是长尾的,在学习的过程中,模型容易出现过拟合,泛化性差。数据噪声:对于有标签的数据,在标注过程中就不可避免的存在噪声。尤其是多人在标注一份数据集的时候,由于每个人的知识背景都不一样,对于问题的理解也就不一样,因此对同一份数据集的标注结果就会存在误差。也就是说,标注规范难以确定,无法统一大家的知识库。2:基于预训练语言模型存在的问题预训练模型的方式归根结底仍然属于数据驱动的任务,其通过在大规模数据上学习,推断未知数据的概率。如果数据中存在表述不
2022-01-12 10:42:35
80
原创 快速高效的阅读一篇AI论文方法
1 发现有趣AI论文的地方Papers With Code.RedditMedium2 掌握论文背景信息论文解决什么问题使用什么方法,该方法有什么优缺点3 把握主要观点先看一下各个章节和小节的标题,把它们与文章所介绍的模型架构联系起来4 客观看待实验结果检查比较基准:作者对比的是否全面检查Ablation:文章给出的pipeline方案中每个组成部分对实验结果的贡献上,贡献大小是否都被检验检查数据:用于论文所处理任务的开源主流数据是否提到了5实验结果整理论文中提到的实
2021-12-24 18:05:56
1251
原创 github pages +hexo 搭建个人博客
搭建个人的博客https://blog.youkuaiyun.com/weixin_43664418/article/details/103542206?spm=1001.2101.3001.6650.7&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-7.highlightwordscore&depth_1-utm_source=distribute.pc_relevant.none-t
2021-12-16 15:12:44
191
原创 XLNet和Bert语言模型的对比
1.XLNet和Bert的对比分析1.1 自回归语言模型(Autoregressive LM)就是从左向右依次计算某个词出现的概率或者从右向左计算某个词出现的概率,典型代表就是GPT1.2 自编码语言模型(Autoencoder LM)把句子中的某个词用【MASK】替换掉,然后根据该单词的上下文来预测该单词,典型代表就是BERT1.3 两种模型的优缺点自回归语言模型没有能自然的同时获取单词的上下文信息,而自编码语言模型能很自然的把上下文信息融合到模型中,Bert中的每个Transformer都能
2021-10-28 11:33:22
412
Pytorch 中文官方教程
2020-10-14
GoogleAndroidSDK开发范例大全
2014-09-03
Android应用开发详解pdf和源代码
2014-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人