自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Datawhale LLM-universe Task6

一般 embedding model 的 max token 即最大可 embedding 句子长度通常为512至1024 token,过长的分块或分块中有多个语义的句子在 embedding 时很难从中提取完整的语义信息。3. 使用不同的embedding模型, 在hugging face上, 有许多sota的embedding模型, 如果当前的RAG系统遇到瓶颈了, 可以试一下新的embedding模型看是否能有提升。学习终于接近尾声了, 这一章节的学习任务主要是介绍一些开源的RAG应用是怎样搭建的。

2025-05-25 15:51:24 458

原创 Datawhale LLM-universe Task5

量化评估 说白了就是对LLM的输出进行打分, 这里使用两个提示词得到不同的输出, 观察输出结果哪个更靠谱。第二部分就是针对badcase优化prompt,以提升模型的输出能力,我们可以自己定义badcase。下面这里自定义了一个评分公式, 可以对输出结果进行打分,后面的多维评估也是这个的延申。另外一种比较靠谱的是计算答案的相似度,这里用NLTK的bleu。为了避免大模型的幻觉, 我们可以让大模型附上信息来源。这里我用的是Zhipu的模型。还有就是用靠谱的大模型做评估。系统评估的主要流程如图。

2025-05-23 22:34:16 163

原创 Datawhale LLM-universe Task4

这里面的RunnableLambda是LCEL中要求的类型, 这里的chain用到了管道符号链接retriever和定义的combiner, 即输入会先输给retriever检索器, 再由combine_doc对检索器的输出做整理。构建好以后, 再定义prompt模板, 就可以构造一个由langchain支持的LCEL数据到prompt然后喂给大模型最后再输出的标准的检索问答链, 这里原作者用的openai的模型, 我用的是智谱。最后面是使用streamlit做一个llm的网页端app, 还是很有意思的。

2025-05-21 20:51:06 378

原创 Datawhale llm-universe task3

接着, 每个LLM都会限制输入的最大token数, 因此我们在数据处理的时候也需要将其纳入考虑, 在构建向量数据库的过程中, 往往是需要将一个大文本划分为不同的chunk, 然后对不同的chunk再使用embedding转化成词向量, 这里langchain同样有一个包方便我们分割上下文.最后课程的补充里还给我们提供了一个构建embedding的API框架,用已经封装好的智谱embedding模型为例, 我们可以看到每一部分的api在框架中的结构是怎样的。本节的内容是向量知识库的搭建(周末拖拉了点)

2025-05-18 13:18:27 360

原创 Datawhale LLM-universe task2

在Task1中对LLM有了一些背景和理论上的了解以后, Task2就是让我们可以实操试一下如何以调用API的方式调用各家的LLM base大模型, 在课程中提供的一部分模型, 比如openai、千帆、星火、智谱的大模型等, 各个大模型的API调用稍有不同但是基本上都是需要相应的API key, 设置到.env中后, 再利用dotenv加载. 之后再根据各个大模型的接口, 对模型进行初始化, 在下面贴个图方便记忆.以下是我改了一模型和prompt参数的输出。模型的大小对于生成的响应还是有些联系的。

2025-05-14 22:04:35 304

原创 Datawhale llm-universe Task1

虽然图像也是对真实世界的采样, 但是不同的人、动物, 对于图像中提取的信息是不同的, 我们从图像中获取的信息都是根据一种强"先验"知识学习到的, 其他动物的理解也是基于它们的"先验"学习到的问题 2. 语言是一种人类或物种创造出来描述世界的, 本身会有一种强结构性, 更容易通过概率模型经过大量的学习根据前因后果进行预测(扯远了…, 随着模型参数量的提升, 模型的性能显著增强, 远远超出人们的预料. 随着GPT o1的提出, llm的后训练和在线推理过程中, 也出现了Scaling Law的现象.

2025-05-12 22:57:44 1799

原创 ROS初学者入门(基于ubuntu16.04和kinetic)

ROS初学者的自我记录一、ROS简介机器人开发系统(ROS)是一款用于实现机器人编程和开发复杂机器人应用程序的开源软件框架。虽然它可以完成操作系统的很多功能,但是它仍然需要安装在像Linux这样的操作系统中。ROS与ubuntu系统完全兼容,且ROS的发行版与ubuntu发行版相互对应,以下表格中记录了ros与ubuntu系统的对应版本。项目ValueMelodic MoreniaUbuntu 18.04(LTS)Kinetic Kame(LTS)Ubuntu 16.0

2020-12-10 14:58:42 438 3

原创 动手学深度学习笔记8GAN

GAN:生成模型模型本质:生成器试图生成一个数据分布,来骗过判别器。判别器:是一个二分类的分类器,鉴别输入是真(来自于真实数据)和假(来自于生成器生成的数据)也就是说,训练集应包含真实数据与生成器生成的数据判别器损失函数:生成器:从真实数据中学习一个数据分布,来拟合真实数据生成器损失函数:GANs总体来的优化问题:总结:1.GAN有两部分网络组成,生成器和判别器2.生成...

2020-02-25 17:10:08 376

原创 动手学深度学习笔记7目标检测与图像风格迁移

一、目标检测基础一、目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)。这里我们介绍其中的一种方法:它以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框。这些边界框被称为锚框(anchor box)。锚框生成:二、交并比:...

2020-02-25 11:33:45 1196

原创 动手学深度学习笔记6BN和残差网络

一、批量归一化BN对输入的归一化(浅层模型):1.处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。2.标准化处理输入数据使各个特征的分布相近批量归一化(深度模型):利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。BN有两种情况:1.对全连接层进行批量归一化:位置:全连接层中的仿射变换和激活函数之间。全连接:...

2020-02-25 11:26:45 1668

转载 动手学深度学习笔记4机器翻译与attention模型

一、机器翻译机器翻译:将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。机器翻译的步骤:①数据预处理(数据清洗、转换成神经网络输入的minibatch);②分词:(字符串—单词组成的列表);③建立词典:单词id组成的列表;④载入数据集;生成模型:Encode...

2020-02-18 17:57:39 781

原创 动手学深度学习笔记5卷积神经网络基础

一、卷积神经网络二维卷积层将输入和卷积核做互相关运算,并加上一个标量偏置来得到输出。卷积层的模型参数包括卷积核和标量偏置。卷积运算:卷积层得名于卷积运算,但卷积层中用到的并非卷积运算而是互相关运算。我们①将核数组上下翻转、左右翻转,②再与输入数组做互相关运算。这一过程就是卷积运算。由于卷积层的核数组是可学习的,所以使用互相关运算与使用卷积运算并无本质区别。特征图与感受野:特征图(feat...

2020-02-18 16:19:59 634

原创 动手学深度学习笔记3过拟合、欠拟合

一、欠拟合与过拟合误差:训练误差(training error):指模型在训练数据集上表现出的误差泛化误差(generalization error):指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。机器学习模型应关注降低泛化误差。Q:如何计算误差?A:引入损失函数(MSE、交叉熵损失)。验证集:从严格意义上讲,测试集只能在所有超参数和模型参数选...

2020-02-18 16:05:47 256

原创 动手学深度学习笔记2文本预处理

一、文本预处理1.四个步骤:①读入文本②分词③建立字典,将每个词映射到一个唯一的索引(index)④将文本从词的序列转换为索引的序列,方便输入模型读入文本:分词:建立字典:将字符串转换为数字,将每个词映射到一个唯一的索引编号。两个重要的分词库:NLTK与spaCy二、语言模型定义:一段自然语言文本可以看作是一个离散时间序列,给定一个长度为T的时间序列w1~wt,语言模型...

2020-02-14 17:53:23 225

原创 动手学深度学习笔记1线性回归

线性回归、softmax与多层感知机一、线性回归1.线性模型:2.损失函数第一个是单样本的损失,第二个是多样本的损失3.优化函数-SGD:常用的是小批量随机梯度下降:优化函数的两个步骤:(i)初始化模型参数,一般来说使用随机初始化;(ii)我们在数据上迭代多次,通过在负梯度方向移动参数来更新每个参数。4.矢量计算向量相加的一种方法是,将这两个向量按元素逐一做标量加法。...

2020-02-14 17:43:51 287

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除