
安装教程&bug解决
搞不完的bug,日积月累,不再重复犯错!
山顶夕景
互联网大厂AI算法工程师。实践出真知。
展开
-
解决报错RuntimeError: r.nvmlDeviceGetNvLinkRemoteDeviceType_ INTERNAL ASSERT FAILED at “../c10/cuda/driv
# 一、问题描述报错如下,大部分报错解决贴都是说torch和cuda版本不一致会出现这个错误:```pythonRuntimeError: r.nvmlDeviceGetNvLinkRemoteDeviceType_ INTERNAL ASSERT FAILED at "../c10/cuda/driver_api.cpp":27, please report a bug to PyTorch. Can't find nvmlDeviceGetNvLinkRemoteDeviceType: /home原创 2025-03-22 16:34:53 · 429 阅读 · 0 评论 -
【工作技能】Git简洁实用教程
场景:修改work dir中的两个文件a和b后(同时也添加到),又对a文件修改,想把a还原为中的a文件。方法:;如果很多被修改的文件很多,且都需要还原,可以使用,该命令不会删除后来在work dir中新添加的文件。场景:写了几个代码文件后一股脑使用添加到中,突然想起没写完 想从中移除 写完再提交。方法:;这样后面就不会把a文件提交到区了。场景:从github上了一个项目,乱改一通后跑不通,后悔就想改回最初状态方法:;work dir和stage中所有的「修改」都会被撤销,恢复成H原创 2022-12-07 17:43:03 · 783 阅读 · 0 评论 -
处理DecompressionBombWarning: Image size (101896752 pixels) exceeds limit of 89478485 pixels
# 一、问题描述有如下的警告。这是因为Pillow默认设置了一个最大图像处理像素限制,目的是防止巨大图像的处理消耗过多的内存,可能导致拒绝服务攻击(DOS)。```python# warning如下:DecompressionBombWarning: Image size (101896752 pixels) exceeds limit of 89478485 pixels, could be decompression bomb DOS attack.```# 二、解决方案方法一:增加像原创 2024-05-09 00:15:18 · 770 阅读 · 1 评论 -
解决报错OSError: cannot write mode RGBA as JPEG
# 一、问题描述如题:解决报错OSError: cannot write mode RGBA as JPEG,这个错误是在下面代码中出现的:```pythonfrom PIL import Image# 打开图片root_path = "xx"this_image_path = root_path + "example3/4.png"img = Image.open(this_image_path) # .convert('RGB')this_save_path = root_path +原创 2024-04-08 21:13:28 · 2593 阅读 · 0 评论 -
解决nvidia-smi无进程,但GPU显存被占用的情况
# 一、问题描述如题,解决nvidia-smi无进程,但GPU显存被占用的情况。# 二、解决方案```python# 查看没有显示出来的进程fuser -v /dev/nvidia*# Kill掉sudo kill -9 pid```如果要`kill`的进程特别多,可以用以下的python脚本:```pythonimport ospid = list(set(os.popen('fuser -v /dev/nvidia*').read().split()))kill_cmd =原创 2024-03-24 10:35:44 · 1467 阅读 · 1 评论 -
终端启动jupyter notebook更换端口
一、问题描述如果尝试在端口 8889 上启动 Jupyter Notebook 但最终启动在了 8890 端口,这通常意味着 8889 端口已经被占用。要解决这个问题,可以尝试以下几种方法来关闭占用 8889 端口的进程。1. 查找并终止占用端口的进程首先,需要找出哪个进程正在占用 8889 端口。打开终端或命令行界面,然后根据操作系统使用以下命令:对于 macOS 和 Linux:lsof -i :8889这将列出所有占用端口 8889 的进程。会看到一些列,其中包含进程的 ID(PID原创 2024-02-24 11:51:57 · 2955 阅读 · 0 评论 -
【Python】单元测试unittest框架
使用unittest框架进行单元测试是Python标准库的一部分,提供了编写测试用例、测试套件以及运行测试的能力。测试用例是继承自unittest.TestCase的类。在这个类中,你可以定义一系列的方法来测试不同的行为。每个测试方法都应该以test开头。下面代码是一个简单的测试用例# test-单元测试import unittest# 子类必须继承unittest.TestCase类class TestMethod(unittest.TestCase): # 每个测试方法都需要以tes原创 2024-02-12 12:00:31 · 1345 阅读 · 1 评论 -
解决ERROR 1290 (HY000): The MySQL server is running with the --secure-file-priv option
一、问题描述一个很简单的步骤:在datagrip中mysql数据库中建表后想导入本地csv数据文件到该表中,发现报错:ERROR 1290 (HY000): The MySQL server is running with the --secure-file-priv option。二、解决方法在mysql环境中使用show variables like "secure_file_priv";查看变量参数,如果参数值是null则说明没有设置该选项,如果该参数是个特定文件路径,则需要将文件放在该文件中原创 2024-02-12 10:48:45 · 1437 阅读 · 1 评论 -
【工具】tmux简单用法
tmux 是一个终端复用工具,允许你在单个终端窗口中运行多个终端会话,并在它们之间切换。它提供了分割窗格、多窗口和会话管理等功能,使得在终端中更加高效地工作。以下是一些 tmux 的基本概念和简单应用:会话 (Session):一个 tmux 会话是一个独立的工作环境,可以包含多个窗口。你可以创建、关闭、切换会话,以便在不同的工作环境之间切换。窗口 (Window):一个 tmux 窗口是一个终端界面,可以包含一个或多个面板。你可以在一个会话中创建多个窗口,以便在它们之间进行切换。面原创 2024-01-14 14:10:31 · 503 阅读 · 0 评论 -
解决报错RuntimeError: [1] is setting up NCCL communicator and retrieving ncclUniqueId from [0] via c10d
一、问题描述二、解决方法一、问题描述在集群上使用deepspeed训练大模型报错:RuntimeError: [1] is setting up NCCL communicator and retrieving ncclUniqueId from [0] via c10d key-value store by key ‘0’, but store->get(‘0’) got error: Connection reset by peer二、解决方法可能是由于网络问题或节点之间的通信中断引起的。可原创 2024-01-06 22:00:32 · 5596 阅读 · 1 评论 -
解决error: cannot overwrite multiple values with a single value Use a regexp, --add or --replac
一、问题描述一开始是用git时遇到报错:fatal: unable to access 'https://github.com/modelscope/modelscope-agent.git/': Could not resolve host: socks5显示是和git代理设置有关,因为想着是使用SOCKS5代理,所以可以使用以下命令来设置代理:git config --global http.proxy 'socks5://127.0.0.1:xxxx'git config --globa原创 2023-12-17 19:50:30 · 1985 阅读 · 0 评论 -
【git】取消git代理
如果你已经设置了 Git 代理,并且想要取消代理以解决连接问题,你可以按照以下步骤进行操作:1. **查看当前的 Git 代理设置**:在终端或命令行中运行以下命令,查看当前的 Git 代理设置: ```` git config --global --get http.proxy git config --global --get https.proxy ``` 如果输出显示了代理设置的 URL,说明你已经设置了代理。2. **取消 Git 代理设置**:如果你需要取原创 2023-10-13 00:22:46 · 7561 阅读 · 0 评论 -
解决OSError: You seem to have cloned a repository without having git-lfs installed. Please install git
一、问题描述报错如题:OSError: You seem to have cloned a repository without having git-lfs installed. Please install git二、解决方法比如下载huggingface上的某些较大的模型权重时,使用该模型可能会报这个错git lfs可以管理大型的文件,到git lfs官网下载:https://git-lfs.com/,如果是有mac上可以直接使用brew下载:brew install git-lfs再gi原创 2023-08-20 13:08:20 · 6518 阅读 · 0 评论 -
解决“topk_cpu“ not implemented for ‘Half‘
# 一、问题描述如题报错:"topk_cpu" not implemented for 'Half'是在使用`transformers`库时本地导入某个模型,完整报错如下:```python File "/Users/guomiansheng/anaconda3/envs/ep1/lib/python3.8/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context return func(*args,原创 2023-08-19 12:30:47 · 1053 阅读 · 0 评论 -
【容器】docker基础使用 | 常用命令
docker attach :附加到正在运行的容器的标准输入、输出和错误流。网络和端口相关命令:docker network ls:列出 Docker 网络。docker network create :创建一个自定义网络。docker port :查看容器的端口映射。运行 docker --help 或查阅 Docker 官方文档来获取更详细的命令信息和使用说明。二、注意事项镜像可视为软件包(包括程序运行所需的代码、环境、库文件原创 2023-08-05 22:22:47 · 872 阅读 · 3 评论 -
【小白篇】Vscode配置Python和C++环境 | 远程连接服务器
之前用pycharm写的python,vscode略显轻量级,操作:Ctrl+Shift+P 或者 View > Command Palette,输入Python: Select Interpreter,选择python解释器(可以使用anaconda的环境)安装插件:在这里插入图片描述可以在terminal交互/运行代码:terminal->new terminal二、配置C++环境之前学习C++都是在VS上跑代码,也可以使用更轻量级的vscode,vscode只是一个文本编辑器,仅需要安原创 2023-08-02 14:34:56 · 3120 阅读 · 2 评论 -
解决wandb: Network error (ReadTimeout), entering retry loop.
# 一、问题描述```pythonwandb: W&B API key is configured (use `wandb login --relogin` to force relogin)wandb: Network error (ReadTimeout), entering retry loop.wandb: Network error (ReadTimeout), entering retry loop```出现上面的原因:使用wandb在线模式运行代码,服务器是一边运行我们的代码一边向原创 2023-07-28 19:03:54 · 6442 阅读 · 4 评论 -
解决pycharm.app/contents/plugins/python/helpers/pydev/pydevd_attach_to_process
# 一、问题描述记录一个小问题,mac mini本地pycharm调试代码突然报错如题:`applications/pycharm.app/contents/plugins/python/helpers/pydev/pydevd_attach_to_process`# 二、解决方案dubug调试库有文件缺失导致如题报错,虽然是warn警告,但看着不方便,只需要下载下面的库就能解决问题。```pythonpip install -U pydevd-pycharm```原创 2023-07-13 14:49:58 · 5017 阅读 · 0 评论 -
解决openai.error.APIConnectionError: Error communicating with OpenAI
# 一、问题描述可以fanqiang,但是使用openai的接口还是报错如下的openai.error.APIConnectionError: Error communicating with OpenAI问题:```cpp File "D:\Anaconda3\envs\gms\lib\site-packages\openai\api_resources\abstract\engine_api_resource.py", line 153, in create response, _, a原创 2023-07-04 16:02:36 · 5414 阅读 · 6 评论 -
解决无法打开Microsoft store和WslRegisterDistribution failed with error: 0x800701bc问题
1、问题描述迫不得已最近用回win,发现无法打开Microsoft store2、解决方法开始菜单-搜索栏,搜索「Internet 选项」选择【高级】,勾选「使用 TLS 1.2」和「使用 TLS 1.3」在同窗口中-[连接]-[局域网设置]-取消勾选[代理服务器]相关选项原创 2023-06-24 16:25:41 · 1082 阅读 · 0 评论 -
解决conda install报错Solving environment: failed with initial frozen solve. Retrying with flexible solve
# 一、问题描述如题,在`conda install annoy`时报错找不到对应包:```pythonCollecting package metadata (repodata.json): doneSolving environment: failed with initial frozen solve. Retrying with flexible solve.PackagesNotFoundError: The following packages are not available f原创 2023-06-15 20:44:51 · 3271 阅读 · 0 评论 -
【解决】sklearn-LabelEncoder遇到没在编码规则里的新值
一、问题描述问题:sklearn-LabelEncoder 遇到没在编码规则里的新值。打通线上线下配置:线下生成训练样本时,用户先定义特征MFDL配置文件,在模型训练后,通过平台一键打包功能,将MFDL配置文件以及训练输出的模型文件,打包、上传到模型管理平台,通过一定的版本管理及加载策略,将模型动态加载到线上服务,从而实现线上、线下配置一体化。提供一致性特征样本:通过实时收集在线Serving输出的特征快照,经过一定的规则处理,将结果数据输出到Hive表,作为离线训练样本的基础数据源,提供一致性特征样本原创 2023-05-28 18:50:27 · 1571 阅读 · 1 评论 -
解决‘NoneType‘ object has no attribute ‘message_types_by_name‘
AttributeError: 'NoneType' object has no attribute 'message_types_by_name'与protobuf库版本不匹配有关。在较旧的protobuf版本中,没有message_types_by_name属性,而在较新的版本中有。可以更新protobuf库,或者降低代码中所使用的protobuf库的版本。pip install --upgrade protobuf跑torchserve或tf serving时也容易出现这个问题,可以更新对应库原创 2023-05-21 15:34:52 · 6170 阅读 · 1 评论 -
ssh免密登陆远程服务器
场景:有时需要使用`rsync`等命令上传本地文件到远程服务器,每次都要输入远程服务器的密码很麻烦,可以使用以下方法。方法:(1)在本地环境生成ssh秘钥对,`ssh-keygen -t rsa`生成公钥(默认保存在`~/.ssh/id_rsa.pub`)(2)将公钥上传到远程服务器的`~/.ssh/authorized_keys`文件中,注意是加在该文件内的结尾,可以直接使用命令`ssh-copy-id user@remote-server`(3)测试免密登陆服务器:`ssh user@rem原创 2023-04-17 19:31:01 · 567 阅读 · 0 评论 -
解决TypeError: ‘tuple’ object does not support item assignment
文章目录一、问题描述二、解决方案一、问题描述也是一个非常基础的问题,python中对tuple元组进行操作时会如题报错TypeError: ‘tuple’ object does not support item assignment。二、解决方案因为python中不可变对象有:数字 、字符串、元组 ;可变对象有:字典、列表(元组效率比列表高一丢丢,并且可以存放不同类型的元素,列表一般放相同类型元素,但是一起放列表、元素、字典等啥的也是可以的),不能直接对元组进行修改元素。可以先将元组转为列原创 2023-04-15 15:36:16 · 4665 阅读 · 0 评论 -
解决TypeError: in method ‘IndexFlat_add‘, argument 3 of type ‘float const *‘
在使用faiss时报错如题`TypeError: in method ‘IndexFlat_add’, argument 3 of type ‘float const*’`。```pythonbeat_emb = normalize(beat_emb, norm = "l2")hidden_size = 128gpu_index = faiss.IndexFlatIP(hidden_size)gpu_index.add(beat_emb)top_N = 50predicts = dict()原创 2023-03-26 01:13:02 · 848 阅读 · 0 评论 -
解决libstdc++.so.6: version `GLIBCXX_3.4.29‘ not found
# 一、问题描述对某个包进行版本升级后突然报错如题`libstdc++.so.6: version GLIBCXX_3.4.29‘ not found`。# 二、解决方法原因:文件动态指向的文件有问题(1)快速查找`libstdc++.so.6`:```pythonlocate libstdc++.so.6```查看当前ubuntu系统中现存的GLIBCXX版本:```pythonstrings /usr/lib/x86_64-linux-gnu/libstdc++.so.6 | gre原创 2023-03-13 19:43:43 · 33399 阅读 · 1 评论 -
解决OSError: libcudart.so.9.0: cannot open shared object file: No such file or directory
# 一、问题描述在使用图神经网络库`dgl`时报错:`OSError: libcudart.so.9.0: cannot open shared object file: No such file or directory`。# 二、解决方法cuda版本和dgl版本不一致,卸载重下即可,如cuda是11.0+版本的,可以如下:```pythonpip uninstall dglpip install dgl-cu110原创 2023-03-06 00:24:10 · 1314 阅读 · 0 评论 -
解决报错spark.createDataFrame() Can not merge type
# 一、问题描述将pandas的df转为spark的df时,spark.createDataFrame()报错如下:```pythonTypeError: field id: Can not merge type and ```# 二、 解决方法是因为数据存在空值,需要将空值`pd.NA`替换为` `空字符串。原创 2023-01-28 20:14:52 · 1589 阅读 · 0 评论 -
解决ValueError: invalid literal for int() with base 10: ‘0.0‘
问题描述将某个字符类型的字段转为`int`时,以下的两种方法(其中第二种方法是直接用`int()`转换)都报错如题:```python# 1.方法一beat_data['label'] = beat_data['label'].astype(int)原创 2023-01-11 16:59:23 · 2176 阅读 · 0 评论 -
解决Python in worker has different version 3.10 than that in driver 3.8, PySpark cannot run
上面是因为pyspark的python环境和driver(主节点)的python环境版本不一致导致。注意driver(主节点master)上用的是虚拟环境conda里面的默认python版本,而worker是使用系统python版本。为了python版本一致,设置pyspark的python环境(worker的python版本)和driver的python版本一致。会优先,如果没有设置,则直接使用的是。原创 2023-01-10 03:17:38 · 2692 阅读 · 0 评论 -
解决EnvironmentNotWritableError: The current user does not have write permissions to the target
其实是很简单的一个问题。。在某台服务器上用conda下载个包,报错没有写权限如果在conda前加上`sudo`也没用。直接对报错提示的文件增加权限就好啦:```pythonsudo chmod 777 -R ./miniconda3```原创 2022-12-31 01:48:19 · 3729 阅读 · 1 评论 -
解决size mismatch for embedding.embed_dict.userid.weight
是因为导入的模型权重(之前训练好、保存的)的维度和当前定义的`model`的权重维度不同,所以我选择修改下当前定义的`model`,即将自己返回如下`beat_sparse_features`等的dataloader,其读取的数据换成之前模型训练的数据,使得模型定义后的`model`的模型权重和导入的权重一致。原创 2022-12-09 16:27:17 · 2323 阅读 · 0 评论 -
解决pandas.ParserError: Error tokenizing data. C error: Expected 12 fields in line 268043, saw 13
如题在使用读取csv数据文件时报错。即在268043行出出现了13列的异常情况,可能是某个字段中数据中有导致读取csv出现13列的异常情况(正常应该是12个字段),因为200万条数据出现3条这种异常情况,那就直接delete掉也不影响模型训练,即在读表时使用跳过这三行:[1] https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html原创 2022-12-05 02:26:46 · 2094 阅读 · 1 评论 -
解决pycharm的unable to display frame variables
如题,用pycharm连接远程服务器进行项目的debug时显示:。勾选gevent compatible原创 2022-11-29 17:13:04 · 1404 阅读 · 0 评论 -
解决git push报错:The requested URL returned error: 403
报错(初次填写的账号密码都是正确的):The requested URL returned error: 403。因为一开始没勾选workflow导致出错。如题,向github上传文件时,原创 2022-11-23 21:43:47 · 2145 阅读 · 4 评论 -
解决报错:Fan in and fan out can not be computed for tensor with fewer than 2 dimensions
是因为`torch.nn.init.kaiming_normal_`参数初始化(其实其他大部分参数初始化API也是),该函数第一个参数`tensor`的维度不能小于等于二维,也就是说在问题描述代码中,for循环时存在维度为1的情况,那就多加个判断(如果是一维则增加为二维)就好了:原创 2022-11-22 16:00:58 · 3021 阅读 · 0 评论 -
解决Expected all tensors to be on the same device, but found at least two devices, cuda:0
(1)可能是模型没有移动到和数据相同的device上:`model.to(device)`(2)可能是input和参数没有在相同device上原创 2022-08-18 20:18:47 · 4881 阅读 · 0 评论 -
【MacOS】必备的常用快捷键
文章目录一、常用快捷键二、非常常用的系统快捷键三、窗口操作四、Finder五、辅助功能六、屏幕截取七、iTunes八、Safari九、Mail一、常用快捷键1.窗口控制缩小窗口:command + M关闭窗口:command + W2.改网址栏:command + L3.查找当前页面内容:Command + F4.恢复上一步:command + Z5.退出应用程序:command + Q二、非常常用的系统快捷键command+M:缩小窗口;command+W:关闭窗口;command原创 2022-04-20 23:28:53 · 13129 阅读 · 0 评论 -
解决报错OSError: dlopen(../anaconda/envs/python3/lib/python3.6/site-packages/lightgbm/lib_lightgbm.so)
一、问题描述在mac上pip install lightgbm后报错如下:OSError: dlopen(…/anaconda/envs/python3/lib/python3.6/site-packages/lightgbm/lib_lightgbm.so, 6): Library not loaded: /usr/local/opt/gcc/lib/gcc/7/libgomp.1.dylibReferenced from: …/anaconda/envs/python3/lib/python3.6原创 2022-04-20 22:24:42 · 5972 阅读 · 2 评论