ldp1653-优快云博客

原创阿里云ACP认证

top-p:top_p值越大，候选Token的范围越广，生成的内容更加多样化，适合创意写作和诗歌生成；通过embedding模型对问题进行文本向量化，并与向量数据库的段落进行语义相似度的比较，找出最相关的段落。Embedding 模型可以将文本转换为高维向量，用于表示文本语义，相似的文本会映射到相近的向量上，检索时可以根据问题的向量找到相似度高的文档切片。得到语义相似度和事实准确度的分数后，对两者加权求和，即可得到最终的 Answer Correctness 的分数。在提示词里进行约束，把问题进行分类。

2025-02-24 15:31:00 930

原创大模型扫盲

prompt，rag，微调(小批量训练模型)+私有化大模型 = 大模型做的几个重要方向！！！微调之后就可以生成某一行业专业的模型。embeeding：说白了就是把词变成向量了把中国人变成(1，5，6)这种向量向量存到向量数据库。--向量数据库就是企业的命根子。之后用户问了问题，就会在向量数据库匹配，匹配相似度最高的前N个,得到段落.把段落结合提示词给到ai大模型LLM.ai大模型就给出方案.首先要选一个免费商用的可用的基座大模型: 通义千问 QWEN-2.5-70B 700亿token的参数。模型

2025-02-07 22:36:33 1061

原创 0.Transformer理论讲解

层归一化更适合循环神经网络（RNN）、长短期记忆网络（LSTM）以及Transformer等架构，因为它针对的是特征维度上的归一化，而不是批量维度，这有助于维护序列内部的相关性。：在自然语言处理任务中，输入序列的长度往往是变化的，而批归一化通常要求固定的输入尺寸，特别是在处理变长序列时较为不便。：层归一化不依赖于批量大小，因此对于不同大小的批次具有更好的适应性。n是序列长度，所以不能吧n作为特征。做预测的时候还是一个一个往前走这样预测，根据前面的值预测后面的值。训练的时候是都扔进去，可以同时计算。

2025-02-06 10:45:04 299

原创第三周-序列模型与注意力机制

注意力+CNN的结合。实现并行处理多个输入。两个关键词 self-attention，multi-head attention 后续会介绍自注意力和多头注意力。

2025-02-06 09:01:07 887

原创本地部署通义千问2.5-7B-Instruct

调整visio studio python运行版本。运行modelscope样例脚本。1.部署model scope。部署transformer。升级pip到最新版本。

2025-02-05 13:14:36 1297

原创第二周自然语言处理与词嵌入

学习一些词嵌入算法。

2025-01-22 22:44:35 437

原创 1.循环序列模型

从左到右计算，但是有一个缺点，就是计算y帽3的时候无法使用x4，x5,x6...，只能依靠x1.x2.x3。这就有很大的局限性。注意下图中的矩阵维度，这么做好处就是把Waa,Wax两个矩阵合并成了Wa一个矩阵。应用广泛:语音识别，处理情感分类，机器翻译等。RNN的前向传播，a0定义为全0向量。在一个序列中如何表示单词?，其余值都是 0的向量。

2025-01-21 22:34:40 151

原创 3.超参数调试、batch正则化和程序框架

批量归一化会使你的参数搜索问题变得很容易，使神经网络对超参数的选择更加稳定，超参数的范围会更加庞大，工作效果也很好，也会让你的训练更加容易，甚至是深层网络。回归，能让你在试图识别某一分类时做出预测，或者说是多种分类中的一个，不只是识别两个分类，根据函数的值域来选择超参数的取值，有的时候均匀取值并不是最优解，有时需要结合对数来对超参取值，这样才能使搜索资源平均分配。BN算法在深度学习框架里已经实现，可能就是一行代码。期待某一个模型能ok就行，也叫鱼子酱模式。只训练一个模型，也叫熊猫模型。

2025-01-21 21:42:42 314

原创 2.优化算法

minibatchsize是一个超参数，不知道咋选的时候就在下面几个里头实验。(削减前往最小值的路径上的震荡)每天得到的theta值=β*(前一天的theta)+(1-β)*当天的Vtheta的值，深度学习在大数据领域应用广泛，但是海量数据的训练又涉及速度问题，所以选择算法就尤其重要。用途:降低梯度下降和小批量梯度下降中的震荡，并允许你使用更大的α，从而提高算法学习速度。后期β的影响几乎被消除，所以使用之前的指数加权平均公式即可。天的总和，必须占用更多的内存，执行更加复杂。准的梯度下降算法，简而言之，

2025-01-20 10:45:45 786

ldp1653的博客

原创阿里云ACP认证

原创大模型扫盲

原创 0.Transformer理论讲解

原创第三周-序列模型与注意力机制

原创本地部署通义千问2.5-7B-Instruct

原创第二周自然语言处理与词嵌入

原创 1.循环序列模型

原创 3.超参数调试、batch正则化和程序框架

原创 2.优化算法

原创 1.深度学习的实践层面

原创 4.深层神经网络

原创 3.浅层神经网络

原创 2.神经网络的编程基础补充

原创 2.神经网络的编程基础

原创神经网络基础

空空如也

空空如也