catchtimea-优快云博客

（在JupyterLab的最下方），可以看到下图所示界面，按箭头指示复制相应命令。图24将上述复制好的命令粘贴到本地打开的命令行中运行，注意要做一些修改，具体如图25所示。左侧的是本地想使用的服务端口，右侧是服务器上的服务端口，因此我们将右侧改为8000，左侧改为5000（便于区分，可以自定义修改）。运行命令后需要输入密码，我们从图24中复制密码并粘贴输入进去，按下回车就行（注意，这里粘贴好了密码并不会显示，粘贴完按下回车键即可）。图25经过上述操作，本地就能通过5000端口直接调用模型服务了。

2024-12-17 10:24:04 4496 4

原创为什么有了测试集，还需要验证集呢？

（网络层数、网络结点数、迭代次数和学习率等），可以在训练过程中检验模型的状态和收敛情况。例如模型在验证集上表现稳定后即可停止训练，防止过拟合。模型从训练集中学习经验，从而不断。通常用于在训练结束后。

2024-12-02 20:50:36 259

原创将服务器上的服务映射到本地使用

例如我在服务器上使用vllm提供了大模型的API服务，在服务器上该服务的端口为8888。我在本地通过上述命令就可通过连接6666端口使用大模型的API服务。使用 win + R ，输入CMD打开命令行。：映射到本地后服务所在的端口。：服务器上服务所在的端口。

2024-11-25 21:21:06 524

原创 AI实习--常用的Linux命令

简单来说，Docker 提供了一种方式，使得软件可以在隔离的环境中运行，这个环境包含了软件运行所需的所有依赖，这样就可以保证软件在不同的计算环境中都能够以相同的方式运行，极大地方便了软件的开发、测试和部署。Docker 是一个开源的应用容器引擎，它允许开发者打包他们的应用以及应用的依赖包到一个可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。编辑完成后，先按ESC键，再按CTRL + ：，输入wq，即可保存退出。1. 查看正在运行的容器。2. 停止正在运行的容器。

2024-11-25 20:58:37 247

原创 AI领域一些技术和概念

LLM 可以对广泛的主题进行推理，但他们的知识仅限于他们接受培训的特定时间点之前的公共数据。如果要构建可以推理私有数据或模型截止日期后引入的数据的 AI 应用程序，则需要使用模型所需的特定信息来增强模型的知识。，是指在广泛的领域和任务中，具备与人类相当或者超越人类智能的人工智能系统。与目前的人工智能系统（通常被称为“窄AI”或“弱AI”）不同，后者通常只在特定领域或任务中表现出智能，如语音识别、图像识别、自然语言处理等。AIGC的发展和应用是人工智能技术在创意产业、媒体、娱乐、教育等领域的重要进展。

2024-11-25 20:11:30 381

原创 xshell远程连接服务器

2024-07-23 17:30:04 360

原创 C++ 学习笔记

需要主动使用 unsigned，如unsigned int num = 1;

2024-06-20 11:34:57 1265

原创实用的Prompt工程技巧

之前我们介绍的两种工具，一个具有联网能力的Search API，一个是具有本地数据的Embedding Search，都是GPT和某个特定的工具进行整合，那么模型是否可以同时和多个第三方工具进行整合？大致的思路是让模型进行推理。（7）让模型给出信息来源：在模型结合搜索或者外部知识库时，要求模型提供其相应的信息来源，可以帮助LLM的响应减少捏造，并获取到最新的信息。（4）让模型一步一步地思考：在这种方法中，模型逐步进行思考，并给出涉及的步骤，这样做可以增强模型响应的可解释性和降低结果不准确的可能性。

2024-06-19 14:51:10 938

原创关于配置深度学习虚拟环境（conda）的一些概念和常用命令

有一个比喻能够形象的说明CUDA、cuDNN两者的关系：把CUDA看作是一个工作台，上面配有很多工具，如锤子、螺丝刀等。NVIDIA的cuDNN是针对深度神经网络计算的一个GPU加速库，为标准例程提供了高度优化的实现，比如向前、向后卷积，池化，规范化和激活层。中国科技大学：https://pypi.mirrors.ustc.edu.cn/simple/清华大学：https://pypi.tuna.tsinghua.edu.cn/simple/建立的并行计算平台以及编程模型，可以显著的提高GPU的计算性能。

2024-05-14 13:32:25 522 1

原创阿里云部署ChatGLM-6B及ptuning微调教程

修改完成后点击Teminal，还是在ptuning目录下执行。评估完成后会在output文件中生成generated_prediction.txt文件来汇报评估结果。

2024-05-12 17:51:05 1463 21

原创 Fine-tuning 相关知识学习

大模型微调是利用特定领域的数据集对已预训练的大模型进行进一步训练的过程。它旨在优化模型在特定任务上的性能，使模型能够更好地适应和完成特定领域的任务。

2024-04-20 11:18:06 1312 1

原创 token 和 tokenization

Tokenization（分词）在NLP任务中是最基本的一步，把文本内容处理为最小基本单元即token用于后续的处理，如何把文本处理成token呢？有一系列的方法，其基本思想是构建一个词表，通过词表一一映射进行分词，但如何构建合适的词表呢？以下以分词粒度为角度进行介绍。

2024-02-25 22:16:18 976 1

原创 BERT 学习

在完成不同的自然语言处理任务时，需要将已经训练好的BERT依据任务目标增加不同功能的输出层联合训练，比如文本分类就增加了分类器，输入句子输出类别。我们没有办法让机器直接理解语言，需要将它们转换成机器能明白的东西，比如由数字组成的向量，为什么是向量？词语的意义之间是有关联的，距离可以表示词语词之间的关系，比如苹果和梨都是水果，它们之间的距离就会比苹果和猫咪更近，这些向量是如何得到的？机器学习的出现，让我们不必一一为单词设计向量，而是将收集好的句子文章等数据交给模型，由它为单词们找到最合适的位置。

2024-02-25 15:49:08 423 1

原创 Transformer 学习

Transformer（变形金刚网络）是一种基于自注意力机制的神经网络模型，最早由Vaswani等人在2017年提出，主要用于处理序列到序列的任务，如机器翻译、文本生成等。相比于传统的循环神经网络（RNN）和卷积神经网络（CNN），Transformer在处理序列数据时具有更好的并行性和全局信息的感知能力。

2024-01-25 13:59:56 1080 1

原创 Encoder-Decoder

Encoder-Decoder通常称作编码器-解码器，是深度学习中常见的框架。很多常见的应用都是利用编码-解码框架设计的。Encoder-Decoder框架很好地诠释了机器学习的核心思路：将现实问题转换为数学问题，通过求解数学问题进而解决现实问题。Encoder 和 Decoder部分可以是任意文字、语音、图像、视频数据等，算法可以是CNN、RNN、LSTM、GRU、Attention等。

2024-01-24 23:19:23 1363 1

原创注意力机制（attention）和自注意力机制（self-attention）

本文参考了b站博主蘅芜仙菌的视频以及文章如有侵权，联系删除。注意力机制其实是源自于人对于外部信息的处理能力。由于人每一时刻接受的信息都是无比的庞大且复杂，远远超过人脑的处理能力，因此人在处理信息的时候，会将注意力放在需要关注的信息上，对于其他无关的外部信息进行过滤，这种处理方式被称为注意力机制。针对于注意力机制的引起方式，可以分为两类，一种是非自主提示，另一种是自主提示。

2024-01-22 00:13:39 4955 3

原创用纸和笔详细展示神经网络的训练过程

本文通过类似于文本分类（好评还是差评）的一个例子来详细展示神经网络的训练（计算）过程，神经网络包含两个隐藏层，在输出层后经过softmax运算得到概率分布。例子参考b站博主--，觉得她讲的的很好。

2024-01-17 17:15:09 455

原创 NLP学习路线第三章-----了解一些经典神经网络语言模型

本片文章为一些博文加上自己的一些理解总结而成，如有侵权，联系删除。希望可以和大家共同进步。

2024-01-15 20:23:02 1138

原创概率及分布概念汇总

说明：本文总结了一些机器学习中概率和分布的概念，内容看起来比较多，但其实并不难，且都附有例子进行讲解说明，耐心看完相信会有所收获，往后在机器学习中看到相关概念也能自信从容应对。

2024-01-12 17:11:57 960 1

原创 NLP学习路线第二章-----掌握一些传统文本算法

在介绍N-gram之前，先感受一下“联想”的过程。例如当我说怕上火时，你给出的下一个词可能就是王老吉，而不是可口可乐。N-gram正是基于这样的想法，它的特点是某个词的出现依赖于其他若干个词。可以说我们每个人的大脑中都有一个N-gram模型，且在不断训练和完善。我们的见识在丰富我们的阅历，增强我们的联想能力。N-gram模型属于概率语言模型（基于概率判别），其要解决的问题是从是否符合自然语言的角度评估一个句子的质量。在这个问题中，句子W被建模成词的排列,所谓质量就是句子出现的概率，也即该排列出现的。

2024-01-11 20:52:18 983 1

m0_54180573的博客

原创使用自己的数据集训练YOLOv10

原创图解CNN、RNN、LSTM

原创 Transformer、ELMo、GPT、BERT的详细理解

原创图解注意力机制和Transformer

原创图解预训练模型 ELMo 和 BERT

原创手敲NLP相关神经网络，熟悉神经网络的结构与实现！

原创本机（Windows）和服务器（Linux）之间传输文件的命令

原创保姆级教程！利用vLLM部署自己的大模型（glm-4-9b-chat）