自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

柏企阅文

论文学习分享 一起进步

  • 博客(109)
  • 资源 (1)
  • 收藏
  • 关注

原创 微软提出 Logic-RL:基于规则的强化学习释放大语言模型推理能力

强化学习过程不仅提高了模型在分布内的性能,还促进了强大且可迁移的推理策略的发展,模型的推理技能能够超越训练数据的特定模式,凸显了强化学习在更广泛泛化方面的潜力。而强化学习的记忆得分较低,但对未见过的测试数据泛化能力更好,意味着它具有更强的推理能力,对表面模式的依赖更少,更鼓励独立探索,从而实现更好的泛化。:对比课程学习和混合难度训练的测试分数发现,在训练中期,课程学习的测试分数略高,但随着时间推移,这种优势逐渐减弱,几乎可以忽略不计。更复杂的谜题还能作为分布外测试,检验在简单谜题上训练的模型的泛化能力。

2025-03-25 20:54:49 676

原创 1.2.2 工业互联网

工业互联网通过“网络+平台+数据+安全”架构,重塑工业生态,是数字经济与实体经济融合的核心引擎!工业互联网体系详解 🚀。

2025-03-19 13:25:31 240

原创 [特殊字符]1.2.1 新型基础设施建设

新型基建不仅是技术迭代,更是经济模式革新!通过"数字+实体"深度融合,正在重塑全球竞争格局!🚀 新型基础设施建设全解析。🚧 "十四五"发展重点任务。📌 分类体系与关键领域。🔍 三大基础设施分类。

2025-03-19 13:17:00 335

原创 Agent系列 1W字用Python从零搭建AI智能体

在之前的Agent系列文章中,我们全面介绍了AI智能体,探讨了它们的特征、组成部分、发展历程、面临的挑战以及未来的可能性。智能体的复杂程度各不相同,从简单的对刺激做出反应的反应式智能体,到能够随着时间推移进行学习和适应的更高级的智能体。我们设置了环境,定义了模型,创建了必要的工具,并构建了一个结构化的工具箱来支持智能体的功能。聊天机器人、推荐系统和自动驾驶汽车都是智能体的实际应用例子,它们各自利用不同类型的智能体来高效且智能地执行任务。最后,让我们把所有内容整合起来,运行我们的智能体。

2025-03-09 16:42:00 944

原创 《曹雪芹早把人间至痛写透:重读红楼才懂,我们都是梦中人》

原来木石前盟不过是太虚幻境里一折戏文,可那些为爱痛过的、挣扎过的、不甘心的日日夜夜,那些葬花时落在肩头的花瓣,那些深夜隔着纱窗的絮语,那些欲说还休的眼波流转,都是真实存在过的滚烫人生。那个曾在桃花树下共读《西厢》的少年,终究没能看懂她葬花时埋进土里的,是女儿家与生俱来的不安全感,是寄人篱下的如履薄冰,是眼睁睁看着年华与爱情都在风里飘散的绝望。她不知道紫鹃早将黛玉的诗稿焚成了灰,不知道潇湘馆的鹦鹉还在学舌"宝玉,宝玉",不知道那些未说出口的牵挂,最终都化作了白茫茫雪地上的一缕青烟。可车马已动,此生再难回首。

2025-03-06 11:44:30 1206

原创 软考高项笔记 1.1.1 信息

是物质、能量及其属性的标示的集合,是确定性的增加。它以物质介质为载体,传递和反映世界各种事物存在方式、运动状态等的表征。信息不是物质,也不是能力,它以一种普遍形式,表达物质运动规律,在客观世界中大量存在、产生和传递。而价值的大小决定于信息的质量,这就要求信息满足一定的质量属性。应用的场合不同,信息的侧重面也不一样。香农关于信息的定义揭示了信息的本质,同时,人们通过深入研究,发现信息还具有很多其他的特征。信息由意义和符号组成,指以声音、语言、文字、图像、动画、气味等方式所表示的实际内容。

2025-03-05 21:17:53 305

原创 2W8000字 LLM架构文章阅读指北

详细给出在Python中构建LSTM的步骤,包括导入库和自定义类,如WeightInitializer、PlotManager和EarlyStopping,以及LSTM类的初始化、前向传播、反向传播、参数更新方法,还有训练器类LSTMTrainer的使用示例,并强调训练中参数设置和监控的重要性。神经网络类型多样,如浅层、深层神经网络等。选择模型时,不能仅依赖提示工程,要根据是否有标准答案、是否需自动化评估、有无时间限制等因素,选择合适的评估策略,如准确率、相似性指标、大语言模型评判器或人工评估等。

2025-03-02 14:19:59 1041

原创 探秘检索增强生成:上下文检索、混合搜索与密集检索全解析

所以,同一个单词在不同的上下文中,会有不同的嵌入。将BM25和基于嵌入的检索(密集检索)相结合,形成了一种高效的混合搜索方法,为检索增强生成(RAG)系统注入强大动力。基于嵌入的检索,也就是我们常说的密集检索,是信息检索领域的前沿方法。它兼具基于关键字的BM25的精准性,以及密集检索的语义理解能力,确保系统既能依据使用的单词,又能结合其含义,找到最相关的文档。密集检索主要依靠将查询和文档转化为密集向量(即嵌入),这些嵌入由神经网络生成,常见的是像BERT、RoBERTa或句子转换器这样的预训练模型。

2025-02-09 14:59:05 634

原创 RAG和KAG:AI知识增强的两大“利器”

它会从知识库中检索相关的外部信息(通常是文档或段落),并依据这些信息,针对用户的查询生成更精准、上下文更丰富的回答。:利用知识库(比如Freebase、Wikidata这样的知识图谱,或者特定领域的自定义图谱)来提供关于实体、关系和事实的结构化信息。:用户的查询会经由检索系统处理,该系统会从外部知识源(比如维基百科、公司数据库,或者其他大型文档语料库)中获取相关的文档或段落。:KAG系统在处理结构化知识方面表现出色,能够生成高度真实、准确的回复,尤其适用于涉及已知实体或明确定义事实的任务。

2025-02-07 12:54:05 666

原创 必知!10大机器学习算法

具体做法是,在数据的随机子集上训练多个决策树,然后综合这些决策树的预测结果,得出最终结论。训练过程中,“弱”学习器会依次登场,后一个学习器致力于修正前一个学习器的错误,不断迭代,直至得到满意的预测结果。聚类属于无监督学习算法,它的任务是按照数据点之间的相似程度,将它们划分成不同的簇。它沿用了线性回归的基本假设,但与线性回归不同的是,它预测的是某个输入属于特定类别的概率。它会构建一个树状结构,按照特定的规则或条件,将数据不断拆分成更小的子集,最终为每个数据点做出预测或分类。:医学诊断是决策树的重要应用领域。

2025-02-06 19:41:56 760

原创 Deepseek-r1、o3-Mini 和 Qwen 2.5 MAX,谁才是你的菜?

如果出现o3-mini-high会报错的情况,我本想试试O1 Pro,但到目前为止我还没有遇到任何错误,所以无法进行比较。接下来,我们就通过剖析它们的功能和机制,挖掘o3-Mini和Qwen2.5-Max的真正价值与未来潜力,并和竞品模型做一番比较。:和前身o1-mini相比,o3-Mini给出的答案更精准、更清晰,推理能力更强,能让人深入理解问题,进行逻辑思考,这在解决复杂问题时至关重要。:在保持o1-mini低成本、低延迟优势的同时,还增添了更高级的功能,性价比超高,各类用户都能轻松使用。

2025-02-06 16:32:55 600

原创 部署DeepSeek-R1所需的硬件和软件价格明细

4TB NVMe SSD具体指的是容量为4TB(4万亿字节)的硬盘,它采用NVMe(非易失性内存主机控制器接口规范)协议,该协议利用PCIe接口,数据传输速率比基于SATA的旧款SSD快得多。由于Intel Xeon Platinum具备先进的人工智能加速特性,比如英特尔高级矩阵扩展(Intel AMX)和高级矢量扩展512(AVX-512),能显著提升深度学习任务的性能,所以运行DeepSeek-R1推理需要它。与上一代产品相比,它的人工智能推理性能提升了高达42%,非常适合处理高要求的工作负载。

2025-02-06 13:19:41 3641

原创 用 Python 微调 DeepSeek R1

因为所有可训练参数以及实际的大语言模型都要存储在GPU的虚拟随机存取存储器(vRAM)中,而大语言模型庞大的规模成了实现这一目标的主要障碍。现在,我们已经在预训练的大语言模型上设置好了LoRA适配器,接下来就可以着手构建用于训练模型的数据了。提供了强大的张量库,和NumPy有些类似,但它有个巨大的优势,就是支持GPU加速,这在处理大语言模型时至关重要。大语言模型从最通俗的角度来说,就是深度学习架构(如Transformer)的精妙应用,通过大量的语言文本数据进行训练。:表示大语言模型的输出。

2025-02-05 12:31:40 1071

原创 OpenAI 模型与 DeepSeek 模型使用的强化学习有何不同

总的来说,OpenAI的RLHF是一种复杂、资源密集型的方法,旨在创建在广泛应用中都能与人类偏好紧密匹配的AI模型。基于人类反馈的强化学习(RLHF)是一种用于训练大语言模型(LLM)的复杂技术,OpenAI开发的模型就采用了这种技术。DeepSeek(更简单的强化学习):应用场景是特定行业的应用,在这种场景下,模型是为在特定领域或特定任务中实现最佳性能而定制的。没错,就连OpenAI或Meta的大语言模型也采用了某种形式的强化学习,但不是DeepSeek-R1所使用的这种简单的强化学习。

2025-02-04 14:56:42 602

原创 软考高项笔记 信息技术及其发展

用户和实体行为分析(User and Entity Behavior Analytics, UEBA)提供了用户画像及基于各种分析方法的异常检测,结合基本分析方法(利用签名的规则、模式匹配、简单统计、阈值等)和高级分析方法(监督和无监督的机器学习等),用打包分析来评估用户和其他实体(主机、应用程序、网络、数据库等),发现与用户或实体标准画像或行为异常的活动所相关的潜在事件。它带给人们直接的好处是提高了存储利用率,降低了存储成本,简化了大型、复杂、异构的存储环境的管理工作。:是整个数据仓库系统的核心。

2025-02-03 15:26:35 1079

原创 DeepSeek R1:了解GRPO和多阶段训练

策略模型根据给定输入q生成输出O;一个单独的价值模型预测基线v,与广义优势估计(GAE)一起用于计算优势A;奖励r包含使用参考模型和奖励模型计算出的KL惩罚项;这种架构会导致显著的资源开销。

2025-02-02 12:43:47 1482

原创 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT,以实现更智能的 AI

检索增强思考(RAT)通过引入模仿人类思维过程的推理循环,弥补了这些差距。这使得它在以下应用场景中具有极高价值:复杂问题解答特定领域的AI助手研究密集型工作流程。

2025-02-02 12:42:56 1100

原创 向量相似性搜索与图数据库:数据处理的创新融合

📖阅读时长:60分钟🕙发布时间:2025-02-01欢迎关注知乎和公众号的专栏内容公众号【】【想象一下,你正在解决一个包含零散信息的复杂难题。传统的数据库搜索就像是翻阅名片索引册——你寻找的是完全匹配的内容或简单的属性,比如 “谁有红头发?” 或者 “谁拥有一辆蓝色的汽车?” 这些搜索方式虽然有用,但功能有限。向量相似性搜索则改变了这种局面,它让你可以问:“还有哪些部分和这个相似?” 它擅长发现语义上的相似性,揭示那些可能隐藏的模式。

2025-02-02 12:42:13 712

原创 微调特定于域的搜索的文本嵌入:附Python代码详解

📖阅读时长:20分钟🕙发布时间:2025-02-02欢迎关注知乎和公众号的专栏内容公众号【】【】 嵌入模型将文本表示为具有语义意义的向量。尽管它们可以很容易地用于无数的用例(例如检索、分类),但通用嵌入模型在特定领域的任务上可能表现不佳。克服此限制的一种方法是微调。在本文中,我将讨论这项技术背后的关键思想,并分享一个微调嵌入以将查询与AI招聘信息匹配的具体示例。文本嵌入模型的一个常见用途是检索增强生成(RAG)。

2025-02-02 12:41:27 1028

原创 LLM架构从基础到精通之循环神经网络(RNN)

LLM架构从基础到精通之循环神经网络(RNN)“以下是已更新文章:1. LLM大模型架构专栏|| 从NLP基础谈起2.LLM大模型架构专栏|| 自然语言处理(NLP)之建模3. LLM大模型架构之词嵌入(Part1)4. LLM大模型架构之词嵌入(Part2)5. LLM大模型架构之词嵌入(Part3)欢迎关注公众号【柏企科技圈】【柏企阅文】在人工智能的领域中,神经网络是推动技术发展的核心力量。今天,让我们深入探讨循环神经网络(RNN)及其重要变体——长短期记忆网络(LSTM)和门控循环

2025-01-09 13:36:31 918

原创 如何使用解决表格数据处理难题?

在本文中,我们将详细探讨解决此问题的技术,学习如何使用不同工具提取和预处理表格数据,以使聊天机器人在聊天时能给出更准确的结果,具体会涉及LangChain、ChromaDB 和 MultiVector 检索器等工具。这显然不是我们想要的结果,如果基于这样的数据构建聊天机器人,它将获取错误信息,从而给出错误答案,并且在其他下游任务中的性能也会下降。这样,一旦检索到与查询最相似的嵌入,就可以使用与实际原始数据组件相关联的 ID 的元数据,并返回原始数据组件,这就是多向量检索器的基本工作原理。

2025-01-08 21:28:53 734

原创 Agentic AI 深度剖析

Agent的记忆是一个关键部分,它存储着个体知识、过往经验和信念状态,为明智的决策提供历史背景和学习基础。:在环境中执行规划好的行动,借助各种工具与环境交互,如物理任务中的机械臂或数字任务中的软件接口,且在整个过程中 LLM 持续提供语言推理和决策支持。:涵盖与业务领域相关的所有数字数据源,包括上述各种类型的数据,为Agent在数字领域的运作提供信息基础。:在“协调”阶段,Agent通过共享内存分享计划和相关信息,促进协作决策,确保各Agent行动协调一致。

2025-01-08 20:58:27 779

原创 探索 Microsoft AutoGen 工作流

在这个项目中,Agent会按照以下步骤工作:首先下载企鹅数据集,然后由 coder Agent创建代码,critic Agent对代码进行评估和建议改进,接着 coder Agent根据建议重新运行代码进行优化,之后 writer Agent利用处理后的数据编写报告,critic Agent同样会对报告内容进行评估和指导,最终完成整个任务流程。例如,在天文学研究中,面对海量的天体观测数据,AutoGen 可以协助研究人员筛选出有价值的数据,并进行分析和建模,从而推动科学研究的进展。

2025-01-08 14:27:00 1153

原创 LLM架构从基础到精通之 Word2Vec 训练全解析

在计算过程中,当我们将一个 1×10,000 的 one - hot 向量与一个 10,000×300 的矩阵相乘时,实际上就会选择出对应于‘1’位置的矩阵行,这一行就是输入单词的“词向量”。尽管它的网络只有两层,比较浅,但非常宽,因此它的每个训练过程都提供了独特的降低计算量的方法。从输入输出来看,网络的输入是表示输入单词的 one - hot 向量,标签也是表示目标单词的 one - hot 向量,但网络的输出是目标单词的概率分布,并非像标签那样一定是 one - hot 向量。

2025-01-07 22:20:11 520

原创 LLM架构从基础到精通之词向量3

因为在训练过程中,如果模型已经学习了“cat”的处理方式,那么当遇到“liger”时,如果它的嵌入与“cat”相似,模型就可以借鉴处理“cat”的路径,而不是从头开始学习。这就好比在一个庞大的图书馆中,我们不再为每个单词单独建立一个巨大的书架(独热编码),而是将相关的单词整理到几个紧凑的书架上(词嵌入),既节省了空间,又能快速找到所需的信息。例如,对于窗口大小为 3 的情况,我们只考虑句子中的三个单词,中间的单词是要预测的目标单词,周围的两个单词作为上下文输入到神经网络中。然后滑动窗口,重复这个过程。

2025-01-07 20:56:03 549

原创 LLM架构从基础到精通之词向量2

查找第一个单词 “the” 在 10,000 长的词汇表中的索引,假设其索引为 8676,那么 “the” 就可以用一个长度为 10,000 的向量表示,其中除了第 8676 个位置为 1 外,其他位置均为 0。在自然语言处理中,共现矩阵的一个主要应用是生成词嵌入。例如,“cat” 和 “tiger” 被表示为完全不同的向量,没有体现出它们的相似性,这对于基于类比的向量操作等任务来说是个很大的问题。词汇表中的每个单词都被表示为一个独特的向量,除了对应单词索引位置的元素为 1 外,其他所有元素都设置为 0。

2025-01-07 20:55:28 680

原创 LLM架构从基础到精通之词向量1

上下文窗口的大小会影响嵌入的质量。它本质上是一种将单词转换为连续向量空间中的数值表示(即向量)的方法,旨在捕捉单词的语义信息,使得语义相似的单词具有相似的向量表示。例如,著名的类比:(v_{queen} \approx v_{king} - v_{man} + v_{woman}),这个操作展示了如何通过调整“king”的向量与“man”和“woman”的差异来得到“queen”的向量。在这些模型中,单词的嵌入根据其出现的上下文而变化,使得模型能够捕捉像“bank”(如河岸与银行)这样的单词的不同含义。

2025-01-07 19:57:23 1064

原创 LLM架构从基础到精通之NLP基础1

这些特征可以从文档中提取,代表文本的各种方面,如特定单词的出现与否、句子的长度、词性等。库的词性标注器进行标注后,结果为[('GeeksforGeeks', 'NNP'), ('is', 'VBZ'), ('a', 'DT'), ('Computer', 'NNP'), ('Science', 'NNP'), ('platform', 'NN'), ('.', '.')]。:在 Grammarly 等工具中广泛应用,将语法纠正视为序列到序列的问题,能够自动纠正文本中的语法错误,提升文本的质量。

2025-01-07 19:35:52 1273

原创 大规模相似性搜索:原理、技术与 Faiss 实践

人工智能和机器学习的兴起,催生了大量高维数据表示形式,即嵌入(embeddings),它们捕捉数据点之间的复杂关系,助力强大的分析与理解。RAG 将传统信息检索与语言模型相结合,通过利用相似性搜索查找相关文档,使模型能访问更广泛的知识库,生成更具信息量和上下文丰富的输出,从而提高生成文本的准确性和相关性。:HNSW 是一种基于图的索引方法,向量被组织在小世界图的层次结构中。的搜索时间略长,这是由于在搜索过程中需要从量化表示中解压缩和重构向量,但差异很小,其内存效率的提升通常值得这额外的搜索时间。

2025-01-06 15:42:16 616

原创 特定领域嵌入模型微调指南

最终,你将拥有一个针对特定领域优化的更强大的嵌入模型,从而在 NLP 任务中实现更准确的检索和更出色的结果。想象一系列嵌套的娃娃,每个娃娃里面都包含一个更小的娃娃。MRL 以这样的方式嵌入文本:较早的维度(就像外层的娃娃)包含最重要的信息,后续的维度则增加细节。通过针对特定领域微调嵌入模型,你的 NLP 应用程序能够更深入地理解该领域内的特定语言和概念,这可以在问答、文档检索和文本生成等任务中带来显著的改进。最后,我们加载微调后的模型,并使用相同的评估器对其进行评估,以衡量微调后性能的提升。

2025-01-06 12:14:10 1183

原创 利用 vLLM 手撸一个多模态RAG系统

由 vLLM 服务引擎驱动,使用名为 LLaVA(llava - hf/llava - 1.5 - 7b - hf)的视觉语言模型来处理文本/表格摘要以及多模态任务,如图像摘要和从集成的文本和视觉输入生成答案。通过结合这些工具,我们将展示如何构建一个强大的多模态 RAG 系统,该系统能够处理不同类型的文档,生成高质量的摘要,并生成利用文本和视觉信息的全面答案。为了配置多向量检索器,我们将原始文档(包括文本、表格和图像)存储在文档存储中,同时在向量存储中索引它们的摘要,以提高语义检索效率。

2025-01-06 11:00:17 1800

原创 使用 Docling、Groq、Ollama 和 GLIDER 评估构建高级 RAG 管道

Docling 能够快速、轻松地将流行的文档格式(如 PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc 和 Markdown)转换为 HTML、Markdown 和 JSON(包含嵌入和引用的图像)格式。:是专门用于管理和查询向量嵌入的开源向量数据库。通过对大量数据的学习和训练,它能够对不同的回答进行多维度的评估,判断其相关性、准确性、完整性等。方法,传入上下文、问题和回答,按照预定义的标准(如相关性、准确性、完整性、连贯性和引用等)进行评估,并输出详细的推理、关键亮点和分数。

2025-01-05 19:01:23 777

原创 如何在企业中实现知识图谱和大模型 (LLM)互通

两者的潜在共生关系十分显著。例如,在我找工作时使用 ChatGPT 生成求职信的经历中,ChatGPT 虽能生成初稿,但会出现错误信息,如赋予我不存在的工作经验和教育背景。对于实施 KG 的企业,其目标往往是打造类似数据市场(语义层)的架构,实现数据的 FAIR 化(可查找、可访问、可交互、可重用),使企业更加以数据为中心。在数据结构良好的情况下,KG 可为 LLM 提供额外的相关资源,通过多种方式生成更准确的推荐,常见的方法是自然语言查询(NLQ),包括检索增强生成(RAG)、提示查询和微调等。

2025-01-05 19:00:41 884

原创 清华 ReST-MCTS*:基于过程奖励引导树搜索的 LLM 自训练深度剖析

在推理性能上,通过合理的参数设置和自训练优化,取得了可观的成果。同时,随着研究的深入,未来还可以进一步探索如何进一步提高过程奖励模型的准确性、优化 MCTS* 搜索算法的效率以及拓展 ReST-MCTS*在更多领域和任务中的应用等问题,不断完善和拓展这一创新方法的潜力。清华提出的 ReST-MCTS* 方法为解决这一困境带来了创新性的思路,通过蒙特卡罗树搜索(MCTS* )自动生成高质量的推理轨迹,并利用这些轨迹来训练策略模型和过程奖励模型,从而避免了传统方法中对人工标注的依赖。

2025-01-04 19:54:52 751

原创 《探索 AI 智能体工作流设计模式》

你需要进行规划,并且在过程中计划可能会改变(例如,如果你打开冰箱发现没有牛奶,你会在计划中添加“买牛奶”作为新步骤)。在实践中,下一个执行器会自动观察上一步的结果,简化了流程。然而,由于行动尚未完全定义,我们使用 Stop.Observation 阻止模型生成观察,确保它在生成思考和行动后停止。然后将观察与之前生成的思考和行动一起重新输入模型,重复步骤 2 和 3,直到行动为“完成”。虽然以如今的标准来看可能显得比较基础,但在当时,ChatGPT 尚未发布,教 LLM 使用工具的想法可谓具有开创性。

2025-01-04 19:54:07 726

原创 AI Agent 架构新变革:Plan-and-Execute 引领智能新潮流

它能够预先制定全面的计划,在任务执行过程中遇到意外情况时迅速适应和调整,并且在整个任务执行过程中保持上下文信息,减少了计算开销,极大地提高了任务处理的效率和质量。相较于 ReAct 架构的 Agent,如果在子任务中使用大型语言模型(LLM)调用,Plan-and-Execute 架构通常可以采用更小的、特定领域的模型。这就好比你有一个助手,在完成一项工作后,就把之前积累的经验和知识全部清零,这对于需要长期知识积累和经验复用的复杂任务来说,是一个致命的缺陷。首先,在执行速度上实现了质的飞跃。

2025-01-04 19:52:38 906

原创 专家混合(MoE)大语言模型:免费的嵌入模型新宠

一般而言,基于编码器的模型在提取嵌入方面表现出色,因为它们能够通过双向注意力捕捉语义,而仅解码器模型常使用因果注意力,只能与前一个单词令牌交互,无法像编码器 - 解码器模型那样捕获丰富的语义(如上下文信息)。需要注意的是,变压器的其他组件,如自注意力层,在不同专家间共享相同权重,这使得 MoE 的权重数量并非简单的累加。同时,通过主题聚类可视化,我们可以清晰地看到不同主题之间的关联,如红色圆圈标记的主题 0 与计算机相关,其附近的主题也与机械相关词汇(如图形、数字、打印机等)有关。

2025-01-04 19:51:53 1165 1

原创 探索大型语言模型新架构:从 MoE 到 MoA

随着提议者模型数量的增加,基于 MoA 的系统的整体准确性和性能都有了显著的提升,这充分凸显了在大型语言模型发展中采用协作式人工智能的优势。此外,研究人员在模型选择上也下足了功夫。在 MT - Bench 基准测试中,尽管当前的模型已经取得了相当高的分数,但 MoA 依然在排行榜上独占鳌头,这充分证明了即使在已经高度优化的基准测试中,MoA 方法仍能突破极限,保持领先地位。每个专家都在特定的领域进行了专门的训练或预训练,其独特之处在于,任何类型的模型都可以作为专家被纳入其中,从而实现了多样化的专业分工。

2025-01-04 19:50:54 1613

原创 RAG完整指南

稀疏检索器则使用传统的信息检索方法,如 TF-IDF 或 BM25,对于基于关键词的查询和文档中直接包含查询词的情况比较有效,虽然准确性可能不如密集检索器,但搜索和训练速度更快,资源消耗更少。每个元素的分数通过公式 1/(k + rank) 计算,其中“rank”是元素在特定搜索结果集中的位置,“k”是一个常数(通常设置在 60 左右),然后将不同结果集中元素的分数相加得到最终分数,再根据最终分数对元素进行排序形成合并后的结果列表。:它类似于在公司维基、文档或谷歌上进行搜索,负责查找与用户查询相关的信息。

2025-01-04 19:43:50 781

原创 阿里巴巴发布Qwen2技术报告

Qwen2系列是最新一代的大型语言模型和多模态模型,它包括从0.5亿到72亿参数的基础和指令调优语言模型。这些模型包括密集型模型和专家混合模型(Mixture-of-Experts,MoE)。Qwen2在多种基准测试中的表现超过了大多数先前的开放权重模型,包括其前身Qwen1.5,并且与专有模型相比,在语言理解、生成、多语言能力、编码、数学和推理等方面表现出竞争力。

2024-08-19 13:38:15 899

新型数据科学解决方案Data Interpreter助力实时数据调整与优化

论文原文 DATA INTERPRETER AN LLM AGENT FOR DATA SCIENCE

2024-03-04

10.1.1.421.8930.pdf

10.1.1.421.8930.pdf

2021-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除