- 博客(32)
- 收藏
- 关注
原创 本机(Windows)和服务器(Linux)之间传输文件的命令
功能为将D盘根目录下test文件夹中的1.txt上传至服务器的 /hy-tmp/datasets 路径下。功能为将服务器上 /hy-tmp/datasets 路径下的2.txt下载至本机D盘的test文件夹中。在本机上打开命令行(按 win + R 键后输入CMD并回车)根据需求运行以下命令即可。
2024-12-18 21:51:27
1013
原创 保姆级教程!利用vLLM部署自己的大模型(glm-4-9b-chat)
(在JupyterLab的最下方),可以看到下图所示界面,按箭头指示复制相应命令。图24将上述复制好的命令粘贴到本地打开的命令行中运行,注意要做一些修改,具体如图25所示。左侧的是本地想使用的服务端口,右侧是服务器上的服务端口,因此我们将右侧改为8000,左侧改为5000(便于区分,可以自定义修改)。运行命令后需要输入密码,我们从图24中复制密码并粘贴输入进去,按下回车就行(注意,这里粘贴好了密码并不会显示,粘贴完按下回车键即可)。图25经过上述操作,本地就能通过5000端口直接调用模型服务了。
2024-12-17 10:24:04
4496
4
原创 为什么有了测试集,还需要验证集呢?
(网络层数、网络结点数、迭代次数和学习率等),可以在训练过程中检验模型的状态和收敛情况。例如模型在验证集上表现稳定后即可停止训练,防止过拟合。模型从训练集中学习经验,从而不断。通常用于在训练结束后。
2024-12-02 20:50:36
259
原创 将服务器上的服务映射到本地使用
例如我在服务器上使用vllm提供了大模型的API服务,在服务器上该服务的端口为8888。我在本地通过上述命令就可通过连接6666端口使用大模型的API服务。使用 win + R ,输入CMD打开命令行。:映射到本地后服务所在的端口。:服务器上服务所在的端口。
2024-11-25 21:21:06
524
原创 AI实习--常用的Linux命令
简单来说,Docker 提供了一种方式,使得软件可以在隔离的环境中运行,这个环境包含了软件运行所需的所有依赖,这样就可以保证软件在不同的计算环境中都能够以相同的方式运行,极大地方便了软件的开发、测试和部署。Docker 是一个开源的应用容器引擎,它允许开发者打包他们的应用以及应用的依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。编辑完成后,先按ESC键,再按CTRL + :,输入wq,即可保存退出。1. 查看正在运行的容器。2. 停止正在运行的容器。
2024-11-25 20:58:37
247
原创 AI领域一些技术和概念
LLM 可以对广泛的主题进行推理,但他们的知识仅限于他们接受培训的特定时间点之前的公共数据。如果要构建可以推理私有数据或模型截止日期后引入的数据的 AI 应用程序,则需要使用模型所需的特定信息来增强模型的知识。,是指在广泛的领域和任务中,具备与人类相当或者超越人类智能的人工智能系统。与目前的人工智能系统(通常被称为“窄AI”或“弱AI”)不同,后者通常只在特定领域或任务中表现出智能,如语音识别、图像识别、自然语言处理等。AIGC的发展和应用是人工智能技术在创意产业、媒体、娱乐、教育等领域的重要进展。
2024-11-25 20:11:30
381
原创 实用的Prompt工程技巧
之前我们介绍的两种工具,一个具有联网能力的Search API,一个是具有本地数据的Embedding Search,都是GPT和某个特定的工具进行整合,那么模型是否可以同时和多个第三方工具进行整合?大致的思路是让模型进行推理。(7)让模型给出信息来源:在模型结合搜索或者外部知识库时,要求模型提供其相应的信息来源,可以帮助LLM的响应减少捏造,并获取到最新的信息。(4)让模型一步一步地思考:在这种方法中,模型逐步进行思考,并给出涉及的步骤,这样做可以增强模型响应的可解释性和降低结果不准确的可能性。
2024-06-19 14:51:10
938
原创 关于配置深度学习虚拟环境(conda)的一些概念和常用命令
有一个比喻能够形象的说明CUDA、cuDNN两者的关系:把CUDA看作是一个工作台,上面配有很多工具,如锤子、螺丝刀等。NVIDIA的cuDNN是针对深度神经网络计算的一个GPU加速库,为标准例程提供了高度优化的实现,比如向前、向后卷积,池化,规范化和激活层。中国科技大学:https://pypi.mirrors.ustc.edu.cn/simple/清华大学:https://pypi.tuna.tsinghua.edu.cn/simple/建立的并行计算平台以及编程模型,可以显著的提高GPU的计算性能。
2024-05-14 13:32:25
522
1
原创 阿里云部署ChatGLM-6B及ptuning微调教程
修改完成后点击Teminal,还是在ptuning目录下执行。评估完成后会在output文件中生成generated_prediction.txt文件来汇报评估结果。
2024-05-12 17:51:05
1463
21
原创 Fine-tuning 相关知识学习
大模型微调是利用特定领域的数据集对已预训练的大模型进行进一步训练的过程。它旨在优化模型在特定任务上的性能,使模型能够更好地适应和完成特定领域的任务。
2024-04-20 11:18:06
1312
1
原创 token 和 tokenization
Tokenization(分词)在NLP任务中是最基本的一步,把文本内容处理为最小基本单元即token用于后续的处理,如何把文本处理成token呢?有一系列的方法,其基本思想是构建一个词表,通过词表一一映射进行分词,但如何构建合适的词表呢?以下以分词粒度为角度进行介绍。
2024-02-25 22:16:18
976
1
原创 BERT 学习
在完成不同的自然语言处理任务时,需要将已经训练好的BERT依据任务目标增加不同功能的输出层联合训练,比如文本分类就增加了分类器,输入句子输出类别。我们没有办法让机器直接理解语言,需要将它们转换成机器能明白的东西,比如由数字组成的向量,为什么是向量?词语的意义之间是有关联的,距离可以表示词语词之间的关系,比如苹果和梨都是水果,它们之间的距离就会比苹果和猫咪更近,这些向量是如何得到的?机器学习的出现,让我们不必一一为单词设计向量,而是将收集好的句子文章等数据交给模型,由它为单词们找到最合适的位置。
2024-02-25 15:49:08
423
1
原创 Transformer 学习
Transformer(变形金刚网络)是一种基于自注意力机制的神经网络模型,最早由Vaswani等人在2017年提出,主要用于处理序列到序列的任务,如机器翻译、文本生成等。相比于传统的循环神经网络(RNN)和卷积神经网络(CNN),Transformer在处理序列数据时具有更好的并行性和全局信息的感知能力。
2024-01-25 13:59:56
1080
1
原创 Encoder-Decoder
Encoder-Decoder通常称作编码器-解码器,是深度学习中常见的框架。很多常见的应用都是利用编码-解码框架设计的。Encoder-Decoder框架很好地诠释了机器学习的核心思路:将现实问题转换为数学问题,通过求解数学问题进而解决现实问题。Encoder 和 Decoder部分可以是任意文字、语音、图像、视频数据等,算法可以是CNN、RNN、LSTM、GRU、Attention等。
2024-01-24 23:19:23
1363
1
原创 注意力机制(attention)和自注意力机制(self-attention)
本文参考了b站博主蘅芜仙菌的视频以及文章如有侵权,联系删除。注意力机制其实是源自于人对于外部信息的处理能力。由于人每一时刻接受的信息都是无比的庞大且复杂,远远超过人脑的处理能力,因此人在处理信息的时候,会将注意力放在需要关注的信息上,对于其他无关的外部信息进行过滤,这种处理方式被称为注意力机制。针对于注意力机制的引起方式,可以分为两类,一种是非自主提示,另一种是自主提示。
2024-01-22 00:13:39
4955
3
原创 用纸和笔详细展示神经网络的训练过程
本文通过类似于文本分类(好评还是差评)的一个例子来详细展示神经网络的训练(计算)过程,神经网络包含两个隐藏层,在输出层后经过softmax运算得到概率分布。例子参考b站博主--,觉得她讲的的很好。
2024-01-17 17:15:09
455
原创 NLP学习路线第三章-----了解一些经典神经网络语言模型
本片文章为一些博文加上自己的一些理解总结而成,如有侵权,联系删除。希望可以和大家共同进步。
2024-01-15 20:23:02
1138
原创 概率及分布概念汇总
说明:本文总结了一些机器学习中概率和分布的概念,内容看起来比较多,但其实并不难,且都附有例子进行讲解说明,耐心看完相信会有所收获,往后在机器学习中看到相关概念也能自信从容应对。
2024-01-12 17:11:57
960
1
原创 NLP学习路线第二章-----掌握一些传统文本算法
在介绍N-gram之前,先感受一下“联想”的过程。例如当我说怕上火时,你给出的下一个词可能就是王老吉,而不是可口可乐。N-gram正是基于这样的想法,它的特点是某个词的出现依赖于其他若干个词。可以说我们每个人的大脑中都有一个N-gram模型,且在不断训练和完善。我们的见识在丰富我们的阅历,增强我们的联想能力。N-gram模型属于概率语言模型(基于概率判别),其要解决的问题是从是否符合自然语言的角度评估一个句子的质量。在这个问题中,句子W被建模成词的排列,所谓质量就是句子出现的概率,也即该排列出现的。
2024-01-11 20:52:18
983
1
原创 NLP学习路线第一章-----掌握相关机器学习方法内容
名称作者陈天奇(华盛顿大学博士)基础GBDT所属boosting迭代型、树类算法适用范围分类、回归优点速度快、效果好、可处理大规模数据、支持多种语言和自定义函数等。缺点算法参数过多,调参复杂、不适合处理超高维特征数据,对原理不清楚很难使用好XGBoost。XGBoost 本质上还是一个 GBDT(Gradient Boosting Decision Tree),但是力争把速度和效率发挥到极致。XGBoost 通过将损失函数展开到二阶导数,使其更能逼近真实损失。
2024-01-05 21:34:27
1083
1
原创 梯度消失、梯度爆炸概念及一些激活函数的图像
在反向传播过程中需要对激活函数进行求导,如果导数大于1,那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于1,那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。因此,梯度消失、爆炸,其根本原因在于反向传播训练法则,属于先天不足。根本原因:(1)隐藏层的层数过多。(2)激活函数。BP算法基于梯度下降策略,以目标的负梯度方向对参数进行调整,计算梯度包含了对激活函数进行求导。
2023-12-28 00:06:52
669
1
原创 RNN变种-----Embedding、LSTM、GRU的介绍
一般来说,NLP任务的基本流程包括以下方面:(1)文本预处理:文本清理、标准化、纠错、改写等。(2)Tokenzing:分字、分词、分子词等。(3)构造数据:将 Token转为模型需要的输入。(4)文本特征表征:将输入的数据转换为向量表征(One-Hot、TF-IDF、Embedding)。(5)结果输出:将向量表征转换为最终输出。对于自然语言因其输入是一段文本,在中文中也即一个个字或一个个词,而行业内把这个字或词叫Token。如果要使用模型,拿到一段文本的第一件事就是把他Token化。
2023-12-27 23:26:21
1117
1
原创 RNN学习笔记(刘二大人)
RNN的优势是具有记忆功能,上一时刻的输入可影响这一时刻的输出。例如一句话中一个个单词相当于不同的时刻,一张图片的不同帧也可看作不同时刻。· x1、x2、x3 可看成一个句子中的三个单词,而y1、y2、y3是这三个单词经过网络得到输出。· 图中三个绿块是相同的网络!!即同一网络在三个不同时刻被使用。· 记忆块会储存绿色块的输出的信息,然后这个信息与下一个单词一起作为输入进入下一层网络。· 绿色块称为隐藏层,其中包含许多神经元。ai 与 yi 最大的区别是前者没有通过激活函数。
2023-12-26 19:35:21
1200
1
原创 CNN学习笔记(刘二大人)
为什么有时网络层数更深准确率反而会下降,训练效果更差?有可能便是梯度消失问题。模型在进行反向传播时需要按根据链式法则把一连串的梯度乘起来,若每个梯度都小于1,则结果会接近于0,这便是梯度消失。最后导致权重在更新时得不到有效更新,进而导致最开始的那些模块无法得到充分训练。一种解决方法是逐层训练(每一层加锁),但是网络中层数太多了,难以实现。还可将网络设计为接下来介绍的ResidualNet,来解决梯度消失问题。
2023-12-24 18:39:02
1069
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人