- 博客(49)
- 收藏
- 关注
原创 datawhale组队学习-动手搭建智能体-task06:CAMEL框架下的RAG应用2
如OpenAI,Cohere,Mistral等的API服务,适用于项目或工程中需要方便直接的使用嵌入且不介意数据隐私的情况:适用于对数据隐私有要求或需要自定义模型本地部署的情况以上两者的区别可以等价的理解成大语言模型API和开源本地LLM的区别。在上可以看到各种各样开源好用的embedding模型。在具体研究和工程问题的选择中,其实没有一个明确的好坏评价标准,适合自己的数据处理场景才是最好的。一个常见的方法是构造自己应用场景的专有评测集,然后分别尝试,量化的方式来评估分数最后选择。
2025-03-24 00:30:21
708
原创 datawhale组队学习-大语言模型-task5:主流模型架构及新型架构
在预训练语言模型时代,自然语言处理领域广泛采用了预训练 + 微调的范式, 并诞生了以 BERT 为代表的编码器(Encoder-only)架构、以 GPT 为代表的解码 器(Decoder-only)架构和以 T5 为代表的编码器-解码器(Encoder-decoder)架构的 大规模预训练语言模型。随着 GPT 系列模型的成功发展,当前自然语言处理领域 走向了生成式大语言模型的道路,解码器架构已经成为了目前大语言模型的主流架构。
2025-03-23 18:20:09
1148
原创 动手搭建多智能体--task4:CAMEL框架下的RAG应用1
要理解生成式AI的最新进展,可以想象一个法庭场景。法官基于对法律的一般理解听取并裁定案件。有时,一些案件——比如医疗事故诉讼或劳动争议——需要特殊的专业知识,于是法官会派书记员去法律图书馆查找先例和具体的法律案例以供引用。像优秀的法官一样,大型语言模型(LLM)能够回答各种人类问题。但如果需要提供权威答案并引用具体来源,模型需要一个助手来进行研究。AI的“法庭书记员”就是一种被称为检索增强生成(RAG,Retrieval-Augmented Generation)的技术。"RAG"这个名字的由来。
2025-03-22 00:50:26
587
原创 datawhale组队学习--大语言模型—task4:Transformer架构及详细配置
第五章 模型架构在前述章节中已经对预训练数据的准备流程(第4章)进行了介绍。本章主 要讨论大语言模型的模型架构选择,主要围绕 Transformer 模型(第5.1节)、详细 配置(第5.2节)、主流架构(第5.3节)、长上下文模型(第5.4节)以及创新型 模型5.5节)等五个主要方面展开讨论。表5.1列举了一些典型的大语言模型的详细配置。表5.1大语言模型架构配置表(L 表示层数,N 表示注意力头数,H 表示隐藏状态的大小)LNHGPT-3因果175B。
2025-03-21 01:27:17
792
原创 wow-rag—task5:流式部署
我们希望做一个流式输出的后端,然后让前端去捕获这个流式输出,并且在聊天界面中流式输出。首先构造流式输出引擎。然后生成response_stream,这个response_stream里面有一个生成器,叫做response_gen。我们可以像列表一样去迭代这个生成
2025-03-20 21:47:53
464
原创 动手搭建多智能系统——task4:CAMEL框架中的多智能体系统
如果你只想快速上手,给 Workforce 传入一个描述就足够了;如果你需要更复杂的定制,则可以在初始化时配置工作节点列表、协调器Agent(Coordinator Agent)或任务规划Agent(Task Planner Agent)等高级参数。
2025-03-19 01:12:44
457
原创 wow-rag——task4:最脏最累的文档管理
文档管理意味着对保存在硬盘上的index进行增删改查。我们先来看看针对faiss向量存储的管理方式。注意这里的doc_single必须是一个 TextNode 对象。例如上文查看node时输出的那个。删除一个节点,删除这个操作尽量不要尝试,可能会导致后面的代码运行出错。至于改的话,没有很方便的方式。查看index下面所有有ref的文档的信息。或者仿照前一节课的从文档构造节点的方式。查看index下面的所有node的id。查看任意给定id的node详细信息。查看index下面的所有文档。
2025-03-17 23:23:35
106
原创 大语言模型--task3:GPT模型介绍
最近的研究表明,经过了高质量的预训练与指令微调后,即使较小的语言模型也能够一定程度上展现出上述提到的三种能力,并且对于参数规 模的要求随着预训练数据规模的扩展以及数据质量的提升在不断下降。Transformer 刚刚问世,就引起了 OpenAI 团队的高度关注,并且将语言模型的研发工作切换到Transformer 架构上,相继推出了两个初始的 GPT 模型,即GPT-1和 GPT-2,这两个早期工作奠定了后续更强大的GPT 模型(如 GPT-3 和 GPT-4)的研究基础。
2025-03-17 20:14:58
839
原创 大语言模型基础--task2:大模型技术基础
大语言模型(LLMs)通过超大规模文本数据预训练,展现出丰富的世界知识、强大的通用任务解决能力和复杂任务推理能力。与传统模型相比,LLMs不仅能遵循人类指令,还通过强化学习实现人类对齐,并拓展工具使用能力,显著增强了任务处理效率。其成功得益于规模扩展、精细数据工程和高效预训练技术。LLMs为自然语言处理和人机交互带来革命性变化,应用前景广阔,但仍需关注安全性和对齐问题。
2025-03-16 21:40:03
917
原创 wow-rag:task3-初步体验问答引擎
做RAG需要自己准备一个txt文档,新建一个docs文件夹,放进去。例如,这里放了一个./docs/问答手册.txt方法一:Documents可以直接构建index方法二:可以先构建节点,再构建索引,同时采用faiss作为向量存储库根据节点构建索引这样索引就算是建成了。我们可以把索引存储到硬盘,这样以后就不用重复构建,直接从硬盘读取。如果之前有保存过索引到硬盘,可以直接读取。index可以直接做问答引擎。方法三:我们也可以先构建索引器,再构建合成器,再组装成问答引擎。
2025-03-16 15:05:53
426
原创 wow-rag:task2-正式上路搞定模型
自定义可以利用openai-like的包,来封装任何openai类似的大模型这个思路的缺点很明显,只有对话模型,没有嵌入模型。对话模型可以直接使用# 导入必要的库和模块from pydantic import Field # 导入Field,用于Pydantic模型中定义字段的元数据import osCustomLLM,# 定义OurLLM类,继承自CustomLLM基类。
2025-03-13 22:18:49
918
原创 Handy Multi Agent—task1:CAMEL环境配置及你的第一个Agent
可以类似 pip 用于管理第三方模块的管理,但是比 pip 的功能强大许多,同时还包含 venv 的虚拟环境管理功能。这里我们使用CAMEL中的ChatAgent模块来简单调用一下模型,关于ChatAgent的进一步描述可以参考后续内容,这里我们简单把它理解为一个基础的模型调用模块即可。本章节内我们将详细介绍如何获取CAMEL,CAMEL提供了几种安装的方式,我们可以根据自己的需求来选择安装的方式。**请确保你的系统已安装Python 3.10+**。(1) 管理第三方模块的安装与卸载。
2025-03-12 00:43:06
908
原创 大语言模型基础—语言模型的发展历程--task1
语言模型的发展从统计语言模型到神经语言模型,再到预训练语言模型和大语言模型,经历了技术方法和架构的不断创新。统计语言模型受限于数据稀疏问题,而神经语言模型通过分布式词表示克服了这一问题。预训练语言模型通过大规模无标注数据预训练和微调,显著提升了自然语言处理任务的性能。大语言模型通过规模扩展进一步提升了模型性能,并展现出新的涌现能力,如上下文学习,为自然语言处理领域带来了新的突破。
2025-03-11 01:39:21
1049
原创 datawhale组队学习--TinyRAG&&TinyLLM
LLM会产生误导性的 “幻觉”,依赖的信息可能过时,处理特定知识时效率不高,缺乏专业领域的深度洞察,同时在推理能力上也有所欠缺。正是在这样的背景下,检索增强生成技术(Retrieval-Augmented Generation,RAG)应时而生,成为 AI 时代的一大趋势。RAG 通过在语言模型生成答案之前,先从广泛的文档数据库中检索相关信息,然后利用这些信息来引导生成过程,极大地提升了内容的准确性和相关性。
2025-02-26 02:52:26
765
原创 Datawhale组队学习TinyAgent--task3
大模型愈发的火热,国内各种模型层出不穷,史称“百模大战”。大模型的能力是毋庸置疑的,但大模型在一些实时的问题上,或是某些专有领域的问题上,可能会显得有些力不从心。因此,我们需要一些工具来为大模型赋能,给大模型一个抓手,让大模型和现实世界发生的事情对齐颗粒度,这样我们就获得了一个更好的用的大模型。这里基于React的方式,我们手动制作了一个最小的Agent结构(其实更多的是调用工具)。一步一步手写Agent,可以让我们对Agent的构成和运作更加的了解。
2025-02-21 01:31:18
605
原创 Datawhale组队学习--Tiny DDPM-task2
DDPM 是一个基于马尔可夫链的生成模型。它通过一个前向过程(Forward Process)逐步向数据中添加高斯噪声,最终得到纯噪声,然后通过一个反向过程(Reverse Process)从噪声中逐步恢复出数据。
2025-02-17 02:40:31
1009
原创 Datawhale组队学习--Qwen-blog-task1
Qwen2 核心组件功能各异。Qwen2Config 设定超参数与属性,初始化多层,用 gradient_checkpoint 节省显存。Qwen2DecoderLayer 含 attn、MLP、norm 及双归一化层,前向经多操作与残差相加。Qwen2Attention 初始化有核心参数与 Linear 操作,用旋转嵌入多步骤输出。GQA 扩展维度,apply_rotary_pos_emb 编码。Qwen2 MLP 经 Linear 层输出,Qwen2RMSNorm 简化归一化。
2025-02-13 23:55:36
752
原创 Datawhale组队学习Ollama教程--Ollama介绍以及安装与配置
Ollama 旨在简化大型语言模型的部署过程,提供轻量级与可扩展的架构,使得研究人员、开发人员和爱好者能够更加方便地在本地环境中运行和定制这些模型。
2025-02-13 11:05:20
928
原创 Datawhale AI冬令营(第二期)动手学AI Agent--Task3:学Agent工作流搭建,创作进阶Agent
本文介绍了工作流在Agent开发中的重要性,以及支付宝百宝箱中工作流的应用和设计方法。通过工作流,我们可以将记忆、工具调用、步骤规划等丝滑地结合起来,搭建起完整的Agent框架。文章还以高中学习小助手为例,展示了工作流设计的具体过程,包括选题调研、功能模块设计、组合工作流、模块测试和迭代优化等步骤。
2025-01-02 23:17:02
973
原创 Datawhale AI冬令营(第二期)动手学AI辅助编程task3---学AI编程做项目的方法论,构建自己的应用
相信大家已经领会到了写好提示词,借助AI力量的重要性,这就是我们想传授给你的初阶武林秘籍,此时你已经拥有了和AI对话创作的能力。我该如何确定我的需求属于前端开发,还是后端开发,还是两者都要涉及呢?接下来,就让我们传授大家AI辅助编程的高阶心法——构建自己应用的方法论!如何用AI辅助自己发散灵感,进行头脑风暴如何用AI辅助自己明确“风暴”之上的需求如何用AI辅助自己实现和完善需求基础之上的功能。
2025-01-01 00:42:52
991
原创 Datawhale AI冬令营(第二期)动手学AI Agent task2--学Prompt工程,优化Agent效果
简单来说是一个万能且好用的Prompt框架。另外,还可以 简化我们拆解问题和准确描述的工作,不必再反复纠结,思考自己是否完成了复杂要求的逻辑描述。写好Prompt不是一个一蹴而就的问题,需要不断思考、尝试,找到最适合当前Agent的Prompt。我们可以用一些特殊的字符序列,如"###"或"====",来告诉智能体哪里是问题的开始,哪里是结束。:告诉Agent我们的用户是什么样的人,比如“这个问题是给10岁的小朋友听的”。大模型虽然能力很强,需要我们做好铺垫和指引,才能让他们正确做事,完成我们的目标。
2024-12-28 23:52:38
870
原创 Datawhale AI冬令营(第一期)task2--微调玩法攻略
1.微调玩法攻略1.1.微调思路1.2.什么是大模型人格化?1.3.大模型人格化的应用场景1.4 构建对应格式的数据集
2024-12-15 23:56:50
714
4
原创 Datawhale AI冬令营(第一期)task1--零基础定制你的专属大模型
通过学习,我掌握了讯飞星辰Maas大模型定制流程,实操了相关步骤,并了解了数据集格式特点。这些学习为后续优化基础服务奠定了坚实基础,提升了我在该领域的技能和知识储备。
2024-12-10 00:00:48
501
原创 datawhale大模型bot应用开发--task4:图片流
在图像流中,你可以通过可视化的操作方式灵活添加各种用于图像处理的节点,构建一个图像处理流程来最终生成一个图像。图像流发布后,支持在 Bot 或工作流中使用。智能生成图像生成、图像参考风格模板风格滤镜、宠物风格化智能编辑提示词推理、提示词优化、智能换脸、背景替换、光影融合、智能扩图、智能抠图、画质提升、美颜基础编辑画板、裁剪、调整、旋转、缩放通用节点选择器、消息并发限制每个开发者创建的所有工作流和图像流中,智能生成、智能编辑、风格模板类型下的图像流节点,并发数限制为最多 4 个。
2024-10-21 23:11:51
530
原创 datawhale大模型bot应用开发--task3:工作流
随着大模型(Large Language Models, LLM)技术的发展,业界已经普遍认识到,复杂的工作任务无法通过单次 LLM 调用来解决。为此,吴恩达、Itamar Friedman、Harrison Chase等专家提出了工作流(Workflow)和流程工程(Flow Engineering)等概念,旨在通过多次、分阶段的 LLM 调用和迭代,来实现更优的应用效果。
2024-10-18 00:48:42
648
原创 datawhale大模型bot应用开发--task2:Prompt工程
提示的设计(prompt engineering)决定了输出的质量、相关性以及准确性,因此,设计高效的 prompt 是使用大语言模型时的关键技术之一。然后构建自己的知识库,收集了一些有关龙之谷艾琳的图片,还有游戏中送给艾琳好感度的礼物,生成了一段有关艾琳的历险故事。描述 (Description): 你是游戏《龙之谷》中的角色艾琳,是一个充满活力的冒险伙伴,与用户进行对话。,你是老板,你需要告诉你的员工(大模型)要做什么,你的命令是否表达清楚,影响着你的员工是否能完成的你要求。
2024-10-15 01:08:17
1212
原创 datawhale大模型bot应用开发--task1:扣子智能体赛事速通指南
我想设计一个使用场景为担任程序员的开源项目引导者,助力参与和贡献的Bot 使用的工具是扣子专业版,用表格为我给出下面的信息,这些信息字段均放置到第一列,第二列是对应的阐述 Bot 名称 Bot 简介 目标人群 解决什么问题 Bot 主要功能 实用性:(Bot 场景描述) 技术性:(Bot 搭建完整度,以及功能设计的逻辑性、技术实现的成熟度以及整体方案的稳定性。) 体验性:(Bot 的用户体验质量,包括交互的自然度、响应的及时性和准确性等。
2024-10-12 21:53:57
550
原创 Tiny-universe手戳大模型TinyEval--task4
我们repo也支持自定义评测,如果进行了自定义sft数据,我们命名为custom_zh,或如果是英文的话可以为custom_en"instruction": "假设你是皇帝身边的女人--甄嬛","input": "你是谁?","output": "臣妾是甄嬛,家父是大理寺少卿。即可支持自定义数据集的评测~
2024-10-03 02:03:24
665
原创 Tiny-universe手戳大模型TinyRAG--task4
LLM会产生误导性的 “幻觉”,依赖的信息可能过时,处理特定知识时效率不高,缺乏专业领域的深度洞察,同时在推理能力上也有所欠缺。正是在这样的背景下,检索增强生成技术(Retrieval-Augmented Generation,RAG)应时而生,成为 AI 时代的一大趋势。RAG 通过在语言模型生成答案之前,先从广泛的文档数据库中检索相关信息,然后利用这些信息来引导生成过程,极大地提升了内容的准确性和相关性。
2024-10-02 22:28:32
1003
3
原创 Tiny-universe手戳大模型 TinyAgent--task3
这里基于React的方式,我们手动制作了一个最小的Agent结构(其实更多的是调用工具),尝试将React结构修改为SOP结构。一步一步手写Agent,可以让我们对Agent的构成和运作更加的了解。
2024-09-27 02:23:44
776
原创 Tiny-universe手戳大模型 Tiny-LLM--task2
该项目在于实现一个简单的大语言模型,从训练tokenizer开始,到训练模型,再到使用模型生成文本。仅使用Numpy和Pytorch即可实现一个简单的大语言模型训练,显存使用2G左右。
2024-09-23 22:30:17
1246
原创 Datawhale X 李宏毅苹果书 AI夏令营 深度学习详解进阶task1
优化神经网络过程中,首先,要理解为什么优化会失败,收敛在局部极限值与鞍点会导致优化失败。其次,可以对学习率进行调整,使用自适应学习率和学习率调度。最后,批量归一化可以改变误差表面。目录深度学习基础1. 局部极小值与鞍点1.1 临界点及其种类1.2 判断临界值种类的方法 我们在做优化的时候经常会发现,随着参数不断更新,训练的损失不会再下降, 但是我们对这个损失仍然不满意。图 1 中的两条曲线对应两个神经网络训练的过程。当参数对损失微分为零的时候,梯度下降就不能再更新参数了,训练就停下来了,损失不再下降了。
2024-08-27 00:49:16
692
原创 Datawhale AI 夏令营大模型技术微调——task2
总结:数据清洗需要下功夫,还有学习率和迭代次数可以调整一下试试,本次我迭代了30次,学习率改成了0.0007。加数据还没有尝试过。修改了原来的代码,使其有更健壮的提取方式。修改了一下代码,这样过滤效果会更好一些。尝试了更改回答的要求。
2024-08-14 22:11:32
280
原创 Datawhale AI 夏令营大模型微调 ----task1
定义的chinese_multiple_choice_questions该函数的主要逻辑是通过正则表达式匹配和提取文本中的问题和选项。对于选择题,它提取了问题的编号、文本和选项,并将它们存储在一个字典中。对于简答题,它只提取了问题的文本,并去除了前后的空白字符。函数当前只返回了选择题列表,如果需要同时处理简答题,可以修改函数以返回两个列表。
2024-08-11 23:58:21
889
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人