自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 阿里云ACP认证

top-p:top_p值越大,候选Token的范围越广,生成的内容更加多样化,适合创意写作和诗歌生成;通过embedding模型对问题进行文本向量化,并与向量数据库的段落进行语义相似度的比较,找出最相关的段落。Embedding 模型可以将文本转换为高维向量,用于表示文本语义,相似的文本会映射到相近的向量上,检索时可以根据问题的向量找到相似度高的文档切片。得到语义相似度和事实准确度的分数后,对两者加权求和,即可得到最终的 Answer Correctness 的分数。在提示词里进行约束,把问题进行分类。

2025-02-24 15:31:00 930

原创 大模型扫盲

prompt,rag,微调(小批量训练模型)+私有化大模型 = 大模型做的几个重要方向!!!微调之后就可以生成某一行业专业的模型。embeeding:说白了就是把词变成向量了 把中国人变成(1,5,6)这种向量向量存到向量数据库。--向量数据库就是企业的命根子。之后用户问了问题,就会在向量数据库匹配,匹配相似度最高的前N个,得到段落.把段落结合提示词给到ai大模型LLM.ai大模型就给出方案.首先要选一个免费商用的可用的基座大模型: 通义千问 QWEN-2.5-70B 700亿token的参数。模型

2025-02-07 22:36:33 1061

原创 0.Transformer理论讲解

层归一化更适合循环神经网络(RNN)、长短期记忆网络(LSTM)以及Transformer等架构,因为它针对的是特征维度上的归一化,而不是批量维度,这有助于维护序列内部的相关性。:在自然语言处理任务中,输入序列的长度往往是变化的,而批归一化通常要求固定的输入尺寸,特别是在处理变长序列时较为不便。:层归一化不依赖于批量大小,因此对于不同大小的批次具有更好的适应性。n是序列长度,所以不能吧n作为特征。做预测的时候还是一个一个往前走这样预测,根据前面的值预测后面的值。训练的时候是都扔进去,可以同时计算。

2025-02-06 10:45:04 299

原创 第三周-序列模型与注意力机制

注意力+CNN的结合。实现并行处理多个输入。两个关键词 self-attention,multi-head attention 后续会介绍 自注意力和多头注意力。

2025-02-06 09:01:07 887

原创 本地部署通义千问2.5-7B-Instruct

调整visio studio python运行版本。运行modelscope样例脚本。1.部署model scope。部署transformer。升级pip到最新版本。

2025-02-05 13:14:36 1297

原创 第二周 自然语言处理与词嵌入

学习一些词嵌入算法。

2025-01-22 22:44:35 437

原创 1.循环序列模型

从左到右计算,但是有一个缺点,就是计算y帽3的时候 无法使用x4,x5,x6...,只能依靠x1.x2.x3。这就有很大的局限性。注意下图中的矩阵维度,这么做好处就是把Waa,Wax两个矩阵合并成了Wa一个矩阵。应用广泛:语音识别,处理情感分类,机器翻译等。RNN的前向传播,a0定义为全0向量。在一个序列中如何表示单词?,其余值都是 0的向量。

2025-01-21 22:34:40 151

原创 3.超参数调试、batch正则化和程序框架

批量归一化会使你的参数搜索问题变得很容易,使神经网络对超参数的选择更加稳定,超参数的范围会更加庞大,工作效果也很好,也会让你的训练更加容易,甚至是深层网络。回归,能让你在试图识别某一分类时做出预测,或者说是多种分类中的一个,不只是识别两个分类,根据函数的值域来选择超参数的取值,有的时候均匀取值并不是最优解,有时需要结合对数来对超参取值,这样才能使搜索资源平均分配。BN算法在深度学习框架里已经实现,可能就是一行代码。期待某一个模型能ok就行,也叫鱼子酱模式。只训练一个模型,也叫熊猫模型。

2025-01-21 21:42:42 314

原创 2.优化算法

minibatchsize是一个超参数,不知道咋选的时候就在下面几个里头实验。(削减前往最小值的路径上的震荡)每天得到的theta值=β*(前一天的theta)+(1-β)*当天的Vtheta的值,深度学习在大数据领域应用广泛,但是海量数据的训练又涉及速度问题,所以选择算法就尤其重要。用途:降低梯度下降和小批量梯度下降中的震荡,并允许你使用更大的α,从而提高算法学习速度。后期β的影响几乎被消除,所以使用之前的指数加权平均公式即可。天的总和,必须占用更多的内存,执行更加复杂。准的梯度下降算法,简而言之,

2025-01-20 10:45:45 786

原创 1.深度学习的实践层面

偏差:训练集可以看出算法是否拟合训练数据,总结出是否有偏差。方差:当完成训练集训练,开始使用验证集验证时,我们可以判断方差是否过高,从训练集到验证集的这个过程中,我们可以判断方差是否过高。(Devset和trainset之间的差)1.3机器学习的基本配方1.先看有没有高偏差--看trainset表现有的话就换更大的网络(更多隐藏层更多隐藏单元)或者别的算法或者训练时间更长2.看看有无方差问题有的话引入更多数据或者正则(可以减少过拟合问题)3.Done。

2025-01-19 11:30:35 368

原创 4.深层神经网络

上述情况的意思是训练集大小为1(对应红圈里的列向量),但是实际上训练集大小不是固定的,所以Z的列数就不固定,如果训练集大小为m,那么Z[1]维度就是(n1,m)比如第一层n=1b1矩阵就需要是(3,1),第二层n=2b2矩阵需要是(5,1)w[1]*x得到Z[1]根据矩阵乘法可知,W[1]的维度是(3,2)首先根据网络可以确定Z[1]的维度是(3,1)(3维矢量)所以w[L]的维度是(n[L],n[L-1])也就是(n[1],n[0])维矩阵。同理还有z[L],b[L],a[L]

2025-01-18 17:06:25 810 2

原创 3.浅层神经网络

两层的神经网络里x1x2x3表示三个输入特性第一层[1]算出一个z[1]和sigma[1]a[1]1a[1]2[1]代表层级1,2,3,4代表节点编号。第1行第2个第3个表示神经网络第1个隐藏单元对于第2个,第3个训练实例的激活值。W矩阵第一行W[1]1,W[1]2,W[1]3,W[1]4代表四个权重。a[1]1a[1]2a[1]3a[1]4-组成4行一列的数据。第1行第1个表示神经网络第1个训练实例的第1个隐藏单元的激活值。第二层[2]算出z[2]和sigma[2]

2025-01-17 20:04:57 403

原创 2.神经网络的编程基础补充

x = img.reshape((32 * 32 * 3, 1)) 3027*1的列向量。Answer:维度不同数组无法相乘。4.矩阵&列向量声明。

2025-01-16 21:37:01 199

原创 2.神经网络的编程基础

得出4.套进逻辑回归成本函数使用公式计算𝑑𝑧使用𝑑𝑤1= 𝑥1⋅ 𝑑𝑧计算𝑑𝑤1𝑑𝑤2= 𝑥2⋅ 𝑑𝑧计算𝑑𝑤2𝑑𝑏 = 𝑑𝑧来计算𝑑𝑏由下面逻辑回归的代价函数可知w=w-a.dwb=b-a.db得到𝑤1= 𝑤1− 𝑎𝑑𝑤1𝑤2= 𝑤2− 𝑎𝑑𝑤2。

2025-01-16 20:32:21 990

原创 神经网络基础

最简单的例子,预估房价,根据x 房屋size得到y。图里的就属于一个简单的神经元。神经网络是由大量神经元搭建而成的。下图就是一个神经网络。只要给足够多的x,y。神经网络就能找到一个函数来形成x和y的对应关系。

2025-01-15 22:17:57 201

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除