CrystalheartLi-优快云博客

原创解决“Unable to create tensor, you should probably activate truncation and/or padding with ‘padding...”

官方提供的dockefile中transformer的版本为4.37.0，我的版本为4.40.0，回退到4.37.0版本，问题解决。)官方提供的微调脚本，使用72B-Chat为底座并使用lora进行高效参数微调，脚本启动后报上述错误。BUG的具体信息还没有仔细理解，后续如果理解了再更新吧，也希望有大神看到评论具体分析下。基于Qwen-1.5(

2024-05-06 19:50:54 2702 2

原创 mount: 文件系统类型错误、选项错误、/dev/sdb 上有坏超级块、缺少代码页或助手程序，或其他错误有些情况下在 syslog 中可以找到一些有用信息-。。。

然后使用mount执行挂载命令。

2023-10-30 16:28:55 5781 2

原创 docker修改默认文件保存路径

很多时候linux服务器下根目录空间比较小，需要外挂硬盘增大服务器空间。docker占用空间比较大，可以将默认路径/var/lib/docker改到外挂硬盘上去，假设外挂硬盘的挂载目录是/data。

2023-10-30 16:21:16 380

原创 BERT和ERNIE中[PAD],[CLS],[SEP],[MASK],[UNK]所代表的含义

在BERT和ERNIE等预训练模型的词汇表文件vocab.txt中，有[PAD],[CLS],[SEP],[MASK],[UNK]这几种token，它们代表的具体含义如下：1，[PAD]要将句子处理为特定的长度，就要在句子前或后补[PAD]2，[CLS]这个标志放在句子的首位，表示句子的开始3，[SEP]这个标志用于分开两个输入句子，例如输入句子 A 和 B，要在句子 A，B 后面增加 [SEP] 标志。4，[MASK]这个标志用于遮盖句子中的一些单词5，[UNK]词典内没有的词被标为[

2022-04-18 14:29:14 5448 1

原创 ValueError: Connection error, and we cannot find the requested files in the cached path. Please...

Python使用transformers包的以下l两个函数加载bert时候，BertTokenizer.from_pretrained(bert_path)BertModel.from_pretrained(bert_path)报错：ValueError: Connection error, and we cannot find the requested files in the cached path. Please try again or make sure your Internet c

2022-04-12 09:52:25 15635 7

原创 docker容器commit之后变得非常大的原因及解决办法

一，原因：原因就是直接在容器里进行了很多操作，比如apt update/install、pip install等等，而没有使用Dockerfile来构建镜像。docker镜像的构建方式是以层的概念来实现的，在容器内所做的所有操作都会在构建镜像时运行一遍，每一个操作所涉及到的内存空间, 都会成为镜像文件的一部分。所以大家一般在容器里开发到一定阶段想要commit成镜像的时候，会发现生成的镜像会有几十G的体量，可怕。二，解决办法：1，比较简单的方法先进入要打包的容器，执行以下命令对根目录下的文件打包

2022-03-30 16:13:51 12784 4

原创 tensorflow1.X读取checkpoint(加载训练好的模型及参数)的两种方式

在模型训练的保存路径下面会保存有多个模型（如下图），下面介绍两种读取方式1，获取最新的保存的一个模型，比如上图的model-5200# model_path是checkpoints的路径，下面方法会自动寻找最新保存的一个模型ckpt_file = tf.train.latest_checkpoint(model_path)saver.restore(sess,ckpt_file)2，获取某个迭代次数的模型，比如要指定获取上图的model-5199ckpt_file=os.path.join(

2022-03-25 10:57:10 3004 2

原创 Ubuntu18修改用户最大打开文件数不起作用的问题

我在启动elasticsearch时候遇到了由于用户最大打开文件数限制而报得错：“max file descriptors [4096] for elasticsearch process is too low, incr…”但修改了好几次相关配置文件也没生效，后查阅多方资料，终于生效：一，sudo vim /etc/security/limits.conf添加* soft nofile 6553600* hard nofile 6553600保存退出二，sudo vim /etc/

2021-12-15 09:57:25 2009

原创 NLP知识抽取三个核心子任务：实体识别、关系抽取、事件抽取简述

知识抽取：通过识别、理解、筛选、格式化，把文献中的各个知识点抽取出来，以一定形式存入知识库中的过程。目的是增强信息的可使用性和可重用性，这个过程同时又可以看作对现有的非结构化信息的语义标注过程。知识抽取一共有三个核心子功能，分别是实体抽取、关系抽取、事件抽取。一，实体抽取：也就是命名实体识别，包括实体的检测（find）和分类（classify），比如识别人名、地名等；二，关系抽取：是指自动识别实体之间具有的某种语义关系，根据参与实体的多少可以分为二元关系抽取（两个实体）和多元关系抽取（三个及以上实体）

2021-10-20 11:09:16 8792

原创浅谈公有知识图谱和私有知识图谱

以下观点知识个人的一些理解，可能不太正确，希望有大佬看到能批评指正！首先，公有知识图谱（以下简称公有）和私有知识图谱（以下简称私有）是相对的概念，以集团公司、子公司、子公司某部门这三个层级举例，子公司所构建的知识图谱相对于集团公司所构建的知识图谱就很可能是私有与公有的关系，子公司某部门所构建的知识图谱相对于子公司所构建的知识图谱也可能是私有与公有的关系；子公司这一级别的知识图谱既可以是公有也可以是私有，主要看相对于它的上级还是下级。再者，为什么会有公有和私有之分？从定义上来说，知识图谱是巨大的，因为它试

2021-10-11 17:08:09 329

原创解决：Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?

我执行docker ps 查看已经启动的容器，但是报错：Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?解决办法为依次执行：$ systemctl daemon-reload$ sudo service docker restart既可解决报错Done!!!...

2021-07-09 14:53:40 1433

原创 pytorch控制计算图产生的方法示例

由于pytorch计算图的构建需要消耗内存和计算资源，在一些情况下，计算图并不是必要的，比如神经网络的推导，在这种情况下，可以使用torch.no_grad 上下文管理器，在这个上下文管理器的作用域里进行的神经网络计算不会构建任何计算图。另外，还有一种情况是对于一个张量，我们在反向传播的时候可能不需要让梯度通过这个张量的节点，也就是新建的计算图要和原来的计算图分离。在这种情况下，可以使用张量的detach方法，通过调用这个方法，可以返回一个新的张量，该张量会成为一个新的计算图的叶子节点，新的计算图和老的计

2021-05-16 18:39:32 563

原创 pytorch梯度函数的使用方法

import torchtorch.cuda.set_device(0)t1 = torch.randn(3,3,requires_grad=True) # 定义一个3X3的张量print(t1)t2 = t1.pow(2).sum() # 根据t1张量计算t2张量print(t2)print(torch.autograd.grad(t2,t1)) # t2张量对t1张量求导Done！！！...

2021-05-16 16:55:56 284

原创 pytorch反向传播函数示例代码

方法

2021-05-16 16:30:09 671

原创解决‘System has not been booted with systemd as init system (PID 1). Can‘t operate.‘

我修改了ssh的配置文件，想要重启ssh服务使得配置生效，重启命令为：$ systemctl restart sshd.service但是报错：我又使用了以下命令进行重启：$ service sshd.service restart但又报错:出现这些错误的原因是我这个系统里没有使用systemctl、service来管理ssh服务，很好理解。最后成功使用如下命令进行了重启：$ /etc/init.d/ssh restart如下图Done！！！...

2021-05-13 10:57:44 27717 4

原创 linux系统下tar、rar、zip等工具常用的压缩/解压命令

本文主要讲解的tar工具，先来看看tar命令的主要参数：必要参数有如下：-A 新增压缩文件到已存在的压缩-c 建立新的压缩文件-d 记录文件的差别-r 添加文件到已经压缩的文件-u 添加改变了和现有的文件到已经存在的压缩文件-x 从压缩的文件中提取文件-t 显示压缩文件的内容-z 支持gzip解压文件-j 支持bzip2解压文件-Z 支持compress解压文件-v 显示操作过程-l 文件系统边界设置-k 保留原有文件不覆盖-m 保留文件不被覆盖-W 确认压缩文件的正确性

2021-05-12 11:09:31 1641 1

原创 pytorch线性回归模型的创建、调用方法实例

写代码的思路为：首先导入torch.nn库，然后基于继承nn.Module的方法构建深度学习模块。整个模块的函数主要由两部分组成：通过__init__方法初始化整个模型，forward方法对该模型进行前向计算。其中，在使用__init__方法的时候，可以在类内部初始化子模块，然后在forward方法中调用这些初始化的子模块，最后输出结果张量。具体例子如下：import torchimport torch.nn as nnclass LinearModel(nn.Module): def

2021-05-11 21:45:40 518

原创解决‘Hint: If you want to see a list of allocated tensors when OOM happens, add ................‘

tensorflow-gpu运行ner模型的训练代码，出现报错如下图：主要原因是显卡的显存不够。解决方法：1，降低训练的数据输入批次值大小：batch_size2, 将模型放到gpu显存大的服务器上跑Done！！！

2021-05-10 14:43:01 1229

原创 tensorflow.python.framework.errors_impl.DataLossError:Unable to open table file xxx perhaps ........

tensorflow加载预训练模型报错：tensorflow.python.framework.errors_impl.DataLossError: Unable to open table file /home/chinese_L-12_H-768_A-12/bert_model.ckpt.data-00000-of-00001: Data loss: not an sstable (bad magic number): perhaps your file is in a different file

2021-05-10 13:43:08 2735

原创解决报错“The name tf.train.Optimizer is deprecated. Please use tf.compat.v1.train.Optimizer instead“

我用tensorflow_gpu2.0以上版本和1.14版本跑一个项目均报这个错误。后来降低到tensorflow_gpu1.5版本，又报错：然后我又把版本降低到1.10，就不出错了。注意tensorflow版本改变后需要看是否cuda还与之匹配，点此查看tensorflow-gpu与cuda等环境对应版本所以，tensorflow_gpu很有可能在1.11，1.12，1.13版本的时候更改了tf.train.Optimizer的接口，具体在哪个版本改得我还不明确，希望有大神看见留言解答。Don

2021-05-07 14:01:51 5347

原创 tensorflow_gpu与python、cuda、cudnn、gcc对应版本--官方最新

1，点击进入官方网址查看最新2，截至本文发表之前：Done！！！

2021-05-07 13:57:42 1922 1

原创解决: ...HTTPError:404 Client Error: Not Found for url: https://pypi.tuna.tsinghua.edu.cn/simple/pip3/

更新pip3 报错：requests.exceptions.HTTPError: 404 Client Error: Not Found for url: https://pypi.tuna.tsinghua.edu.cn/simple/pip3/具体报错如下图：因为我使用的更新命令为：$ pip3 install -U pip3解决办法为，将命令改为：$ pip3 install -U pipDone！！！...

2021-05-07 13:19:33 14625

原创解决:Error response from daemon: manifest for XXX:latest not found: manifest unknown: manifest unknown

使用如下docker pull 命令从docker hub上拉取镜像时：$ sudo docker pull liukuixiang/tensorflow1.5-cuda9.0-cudnn7.0报错：Error response from daemon: manifest for XXX:latest not found: manifest unknown: manifest unknown，如下图：问题分析：报错提示找不到你所拉取的镜像，主要是因为没有指定所要拉取镜像的标签tag，因为不指定

2021-05-07 11:09:22 26810

原创 yolov4：pytorch报错“RuntimeError: CUDA error: no kernel image is available for execution on the device

具体报错信息如下:先前遇到过因为apex包的问题报过这个错，后来重新编译安装了apex后解决了问题，但现在又遇到这个问题，目前还没有解决，希望有大神给解答！

2021-04-30 14:18:55 1109 3

原创 pytorch报错“RuntimeError: DataLoader worker (pid 83709) is killed by signal: Bus error. It is .......“

在docker容器里运行pytorch写的代码，报错：“RuntimeError: DataLoader worker (pid 83709) is killed by signal: Bus error. It is possible that dataloader’s workers are out of shared memory. Please try to raise your shared memory limit.”，具体如下图：一，报错原因：docker的共享内存shm不够1, 在运

2021-04-26 17:15:38 2863

原创多显卡服务器下pytorch 指定某个 gpu训练与多 gpu并行训练的方法

一 . 指定一个 gpu训练的两种方法:1.代码中指定import torchtorch.cuda.set_device(id)2.终端中指定CUDA_VISIBLE_DEVICES=id python 程序名其中id是gpu编号二 . 多 gpu并行训练:bashtorch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)该函数实现了在module级别上的数据并行使用,注意batch size要大

2021-04-26 10:08:15 1213 2

原创 Ubuntu系统下通过ssh服务将本地vsocde服务器与远程服务器docker连接并使用docker里面的Python环境

注意！！！先前写过一篇文章，讲述ubuntu下将本地vscode编辑器通过ssh和远程服务器进行连接并使用远程的Python环境，一定要先看这篇（这是基础）！！！前言：在程序员的日常开发工作中，会遇到这样的情况，我们需要用自己本地的工作笔记本连接到大的服务器进行开发，因为大服务器的硬件性能强悍，有很多软件环境。我们在自己的笔记本进行开发需要用到这些软硬件环境，尤其在深度学习项目开发过程中，需要非常好的显卡，而显卡资源一般都部署在大服务器上。大服务器一般有很多人在用，所以我们需要有自己独立的开发环境，其中一

2021-04-25 18:21:36 291

原创 yolov5：pytorch报错“RuntimeError: CUDA error: no kernel image is available for execution on the device“

运行用pytorch实现的yolov5s模型，出现如下报错：

2021-04-23 14:17:06 1994

原创 ubuntu下将本地vscode编辑器通过ssh和远程服务器进行连接并使用远程的Python环境

前言：在程序员的日常开发工作中，会遇到这样的情况，我们需要用自己本地的工作笔记本连接到大的服务器进行开发，因为大服务器的硬件性能强悍，有很多软件环境。我们在自己的笔记本进行开发需要用到这些软硬件环境，尤其在深度学习项目开发过程中，需要非常好的显卡，而显卡资源一般都部署在大服务器上。下面讲具体步骤：ssh和vscode的安装不再赘述，网上有很多教程。1，打开vscode编辑器，进入"扩展：商店"：在搜索框里搜索Remote-SSH，下载好这个插件。2，点击左下角绿色部分"打开远程窗口"，出现下图内容

2021-04-22 21:10:29 1112 4

yolov4目标检测模型代码,基于pytorch实现

yolov5s目标检测模型，基于pytorch实现

ubuntu18 code_1.52.0.deb包

docker: ubuntu18基本系统镜像

空空如也