凌漪_-优快云博客

原创温度虽寒，其道犹变：OpenAI接口之温度参数设置为0，为何每次回复仍有不确定性？

在文本生成的过程中，可以通过设置采样温度值，控制文本生成的多样性。语言模型首先根据已有文本，计算生成词汇表中每个词所对应的负对数概率。比如：在生成下一个词时，模型可能会给出以下对数概率：Token A: -1.2将这些负对数概率除以温度值：log_prob_scaled = log_prob / temperature比如：当温度值为0.5时，概率分布变为：Token A: -1.2/0.5 = -2.4可以发现，通过除以一个小于0的温度值，使得概率分布变得更加极端。

2024-11-11 19:05:37 4096

原创 [已解决] flash-attn报错flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol

最后使用pip install whl路径,下载好flash-attn,大功告成!返回如下结果,可知torch版本为2.3.1。cuda版本为V12.5.40。

2024-09-10 14:14:48 37768 18

原创【文本去重】通俗易懂理解Minhash算法

minhash算法直观理解

2024-08-28 14:53:34 5143 3

原创如何在vscode中对在服务器上多卡运行的bash脚本进行debug?

使用vscode可以很方便地添加断点，进行代码调试。在使用服务器时，我们的python代码通常是通过bash脚本来执行的，那么如何进行debug呢？

2024-07-24 16:27:32 1039

原创 wandb: - 0.099 MB of 0.129 MB uploaded (0.030 MB deduped) wandb一直uploaded终极解决方案

命令行里一直显示wandb: - 0.099 MB of 0.129 MB uploaded (0.030 MB deduped)，并且会无限刷新，不管怎么弄都会显示，切换了vpn也无用。

2024-07-09 18:15:07 626 1

原创【wandb】在同一服务器上多用户登录

可以在运行的sh脚本前，添加export WANDB_API_KEY=‘xxxx’ （自己的wandb key），比如。如果有别人在服务器上登录了wandb，很容易把日志存到他的wandb里。

2024-07-01 15:50:35 1531 2

原创 vllm报错out of memory解决

通过调低–gpu-memory-utilization的比例（默认为0.9），可以避免此问题。

2024-06-12 16:22:55 6439

原创【plt保存图片的坑】python中为什么使用plt.savefig()保存图片为空白

plt.show()会创建一个新的空白图形窗口,用于显示当前的图形。因此,在plt.show()之后调用plt.savefig(),实际上是在保存这个新创建的空白图形窗口,而不是之前绘制的图形。检查一下，你是不是把plt.savefig()指令放在plt.show()之后了？所以把plt.savefig()指令放在plt.show()之前即可解决。

2024-06-05 02:52:16 646 1

原创如何在huggingface上申请下载使用llama2/3模型

huggingface-cli download --resume-download 模型名称 --local-dir 存放模型的位置 --local-dir-use-symlinks False --resume-download --token token序列号xxxxxxx。登录huggingface，在模型详情页面上，找到这个表单，填写内容，提交申请。需要使用梯子，country填写梯子的位置吧(比如美国）等待一小时左右，会有邮件通知。

2024-05-12 19:14:31 14286 19

原创【报错解决】使用openai的api时出现APIConnectionError: Connection error.错误

openai包一直更新，升级之后很多接口变了。直接运行上面代码的话，会报错APIConnectionError: Connection error.另外，我们可以通过设置 API_BASE 参数,访问其他需要通过api访问的模型。因为API需要代理才能访问，要指定HTTP和HTTPS请求的代理服务器。添加上下面的代码即可。（7890端口号可以随便设置）

2024-04-18 16:40:56 20681 8

原创 mobaXterm使用密钥免密登录服务器，并且在Vscode中使用ppk密钥进行远程连接

本文介绍在mobaXterm上免密登录的过程，并且在vscode中也免密登录服务器。

2024-04-11 16:08:07 1578

原创 InternLM2论文笔记

规则处理：随机爬的网页很多脏数据，针对标点符号的异常断行、异常字符出现频率、标点符号分布情况等设计了一系列启发式过滤规则。安全过滤：采用“域名屏蔽”、“词屏蔽”、“色情分类”和“毒性分类”相结合的综合安全策略对数据进行过滤。对模型中的权重矩阵如Wk, Wq, Wv进行了调整，以支持不同的张量并行转换，并提高训练速度。质量过滤：互联网来源的数据包含大量低质量的内容，人工按照一些维度标注，然后训练模型二次过滤。激活函数选择了SwiGLU之类的激活函数，提升了模型的性能。数据格式化：爬的网页提取正文和检测语言。

2024-03-31 19:53:21 471 1

原创服务器上虚拟环境里的jupyter notebook连接不上kernal，显示not connection to kernel

在服务器上新建了一个虚拟环境，下载了相关的包后，使用以下代码新建了kernal然后输入jupyter notebook启动，却显示not connection to kernel。

2024-03-25 02:48:34 942

原创移动硬盘分区打不开，显示函数不正确

如果你的是装在硬盘壳里的，没有装在电脑里，可以打开硬盘壳看看，卡是不是松了。某天移动硬盘突然打不开文件了，显示函数不正确，以为硬盘被我硬插拔弄坏了。如果松了就重新插回去就好啦！

2024-03-21 22:53:40 1945

原创 pycharm里test connection连接成功，但是无法同步服务器文件，deployment变灰

如果能正常显示服务器文件夹，再点击tools-deployment，就会发现不是灰色的了，可以同步文件了。点击tools-deployment-browse remonte host，选择要连接的服务器的文件夹。如果服务器test connection连接成功，但是无法同步文件。

2024-03-18 02:22:48 996 1

原创【疑难杂症】conda虚拟环境里使用which python 与虚拟环境名称对应不上的问题

把.bashrc里的这行删除，重新指定export PATH="/home/xxx/anaconda3/bin:$PATH"即可，这样就不会每次都默认使用其他环境里的编译器了。：检查.bashrc里的export PATH，看是否指向了其他环境里的python作为默认路径，比如我的就指定了。启动的是vllm-env虚拟环境，结果使用的编译器是open-instruct-env环境里的。：是因为之前在A环境里conda activate启动了B环境，导致使用的还是A环境里的编译器。

2024-03-01 17:28:08 3507 2

原创【linux】执行bash文件后如何记录终端打印出来的输出和错误信息

在命令行中执行sh文件后，终端里会显示打印出来的信息，但需要一点点翻动来看很麻烦。以下命令帮助我们将标准输出和标准错误显示在终端上，并且保存到文件中。

2024-01-10 01:16:25 2452

原创如何把服务器代码上传至github

本教程适用于已经在服务器上下载好了git并和github账号进行关联，如果没有请先移步至。

2024-01-04 04:50:41 1357 1

原创 [通俗易懂]float32、float16、bfloat16之间的差异

qlora一般用bfloat16的精度类型进行训练，然而支持bfloat16精度往往需要V100以上的卡（不包括V100）。可惜本人服务器上只有V100类型的卡，想要使用qlora进行训练需要把精度改为float16。指的是使用FP32作为主权重，而在进行前向和后向传播时使用FP16/BF16来提升训练速度，最后在梯度更新阶段再使用FP16/BF16梯度更新FP32主权重。不同的浮点数据类型：float32、float16、bfloat16等，可以称之为精度，而模型大小 = 模型参数量x精度。

2024-01-03 19:03:26 19450

原创【常用bsub指令介绍】使用bsub命令提交作业、开启交互式窗口，在集群服务器上用pdb进行代码调试

在一个服务器集群中，有很多的人要使用，却只有很少的GPU。LSF作业调度系统则是对每个用户提交的作业和需要使用的GPU进行调度。一般使用bsub命令来将待运行的作业提交到集群上。用bsub < run.sh提交了作业，一般是作业已经可以成功跑起来，提交了作业后直接等作业运行结束就行。但更多时候我们的代码可能会出现报错，需要进行调试。一般情况下，我们会用pychram/ vscode等软件对代码打断点，进行调试。但使用的是本地的CPU资源，而不是服务器上的GPU。

2023-12-27 05:51:10 13072

原创【baichuan2模型部署经验】手把手教你在linux服务器上安装和使用baichuan2-7b-chat模型（模型下载+环境配置+报错分析）

因为需要测试baichuan2模型在给定数据集性能，因此开启了在Linux系统上部署baichuan2模型之旅。

2023-12-10 04:20:07 2852 1

原创【超简易安装】在linux集群服务器上使用conda安装高版本cuda(cuda-11.8)和pytorch2.0

由于项目代码要求pytorch2.0版本，而pytorch2.0版本需要cuda11.8，高于我之前的11.0的cuda版本。因此考虑使用conda新建一个虚拟环境，在里面使用高版本的cuda和pytorch。

2023-12-10 03:41:25 6180 8

原创【已解决】如何在服务器中下载huggingface模型，解决huggingface无法连接

在服务器上使用huggingface模型时，如果直接指定模型名称，用AutoTokenizer.from_pretrained(“model_name”)，可能会由于网络原因会报错 Failed to connect to huggingface.co port 443 after 75018 ms: Operation time out因此我们需要下载模型到服务器上，得到模型本地的路径model_dir，再通过AutoTokenizer.from_pretrained(model_dir)方式来使用。

2023-12-08 21:49:26 44916 48

原创【nvidia-smi：command not found】如何在集群服务器上使用nvidia-smi查看GPU信息

nvidia-smi报错command not found，如何在集群服务器上查看gpu信息

2023-07-19 02:00:54 11572 4

原创【疑难杂症】pandas将dataframe导出为csv文件，用excel打开出现乱码字符/有多余列/行数不对

使用pandas导出csv文件后用excel打开，出现乱码，列数也增加了。但是在pandas中读取csv文件，dataframe中显示正常。

2023-06-20 00:29:45 2885

原创【已解决】conda install报错 An HTTP error occurred when trying to retrieve this URL. 更换清华源也无效

如果添加清华源之后，conda install依然报网络问题，可以选择把默认源删除。

2023-04-25 21:02:01 1658

原创 Perplexity：深入理解语言模型评价指标——困惑度

对于困惑度指标的理解

2023-04-20 02:08:03 1741

原创【疑难杂症】overleaf公式显示异常并且被重复添加至正文内，正文内$符号消失，编译报错Missing $ inserted.inserted text。

overleaf公式编译失败就失败了，正文内容被修改，禁用latex实时渲染插件可解决。

2023-04-10 02:20:33 2304 13

原创 **Linux安装包下载磁盘空间不足[ERROR: Could not install packages due to an OSError: [Errno 28] No space left on

近日下载pytorch包，出现了[Errno 28] No space left on device]这个错误，照理来说就是磁盘空间不足需要清理。但是照网上说的其他方法，如在根目录里新建一个/tmp目录、更新pip等方法都不行。最后使用了查找各目录所占用的空间，再删除不需要的文件就可以了。du -sh * 查找当前目录下各文件及文件夹占用大小rm -rf +文件夹/文件路径删除文件或文件夹里的所有东西经查看发现后，大文件基本上都是所保存模型的checpoint。将其删除后就能成功下载安

2022-03-14 21:46:33 7991

原创在服务器上git clone github项目的过程

在服务器上与本地clone项目对比还是有点区别的，主要在于git安装下载的权限不足，还有生成SSH key的步骤。一安装git1.作为服务器上的非root用户，下载git安装包。（这里的版本是2.24.1，可以参考官网更换为更高版本号的git wget https://github.com/git/git/archive/v2.24.1.tar.gz -O git.tar.gz2.解压tar -zxvf git.tar.gz3.接着运行下面这些代码./configure cd gi

2021-12-30 02:22:58 10481 2

原创在服务器上下载anaconda，配置pytorch的过程 [CUDA11.4]，以及使用pychram连接服务器

服务器上anaconda下载及pytorch配置过程本文介绍利用mobaXterm连接服务器，再下载anaconda，配置Pytorch的过程，下载过程中经常有报错，踩了一些坑。本文是回忆文，可能有些步骤忘记了，可以再看看。1. 登录服务器，下载anaconda先打开mobaXterm，打开session连接服务器。如果是第一次登录的话，可以点击左上角的session - SSH，输入端口号，用户名，在命令行中输入密码。（1）下载anaconda先在[清华镜像源][https://mirr

2021-11-20 15:12:09 10745 11

原创 Anaconda下的pytorch环境配置及pycharm导入（win10+CPU)

Anaconda下的pytorch环境配置及pycharm导入（win10+CPU)首先下载Anaconda与pycharm两个软件，可移步至各教程。注意pycharm专业版的需要破解，否则无法远程连接服务器调试。1.创建Pytorch环境。我们首先使用anaconda来创建一个Pytorchd的工作环境。打开Anaconda Prompt命令行，切换到D盘的根目录下，使用以下语句来创建。环境名称为 pyTorchEnv ,其中Python版本根据自己电脑设置。conda create -n pyT

2021-11-01 14:31:24 2940

a61022706的博客