- 博客(351)
- 资源 (5)
- 收藏
- 关注
原创 卡内基梅隆大学研究人员推出 PAPRIKA:一种微调方法,使语言模型能够发展出不局限于特定环境的通用决策能力
此外,一项涉及课程学习的研究表明,根据任务难度有选择地采样训练任务可以带来额外的改进,进一步证明了量身定制、数据驱动的任务选择方法的价值。尽管仍存在挑战,例如确保一个坚实的起始模型以及管理合成数据生成的计算成本,PAPRIKA 为开发更通用的 AI 系统提供了一条充满希望的途径。最终,随着我们的模型不断进步,像 PAPRIKA 这样的方法对于创建不仅在语言理解方面 proficient,而且能够以微妙和谨慎的方式处理复杂现实世界决策任务的工具将非常重要。PAPRIKA 的方法基于一个两阶段的微调过程。
2025-03-17 11:22:22
1017
原创 AutoAgent:仅通过自然语言创建和部署LLM Agent的全自动、高度自主开发框架
从商业流程到科学研究,人工智能代理能够处理海量数据集、优化流程并辅助决策。然而,尽管取得了这些进展,构建和定制大型语言模型(LLM)代理对于大多数用户来说仍然是一个艰巨的任务。主要原因在于人工智能代理平台需要编程技能,这将使用人群限制在极少数人范围内。全球仅有0.03%的人口具备必要的编程技能,因此,对于非技术用户来说,大规模部署大型语言模型代理是难以企及的。尽管人工智能在不同行业中日益成为必不可少的工具,但非编程专业人士却无法充分发挥其潜力,技术能力与可用性之间存在巨大差距。
2025-03-17 11:18:52
715
原创 微软 AI 发布 LongRoPE2:近乎无损地将大型语言模型上下文窗口扩展至 128K 标记,保持 97% 短上下文准确性
此外,LongRoPE2 在 “大杂烩中的针” 压力测试中实现了近乎完美的准确率,展示了其在长序列中检索深度嵌入信息的能力,而像 NTK 这样的以前的方法在扩展长度上经常失败。最后,它结合了混合上下文窗口训练,模型在短序列和长序列上都进行了微调,从而防止了短上下文任务的性能损失,同时确保了长上下文的有效适应。此外,LongRoPE2 对 RoPE 重新缩放因子的进化搜索揭示了以前的分析方法低估了高维嵌入中的缩放需求,导致以前方法的性能不佳。模型保留了 97.6% 的短上下文性能,而以前的方法显著下降。
2025-03-16 10:20:45
618
原创 DeepSeek DeepEP 所依赖的现代 GPU 互连技术解析
PCIe(Peripheral Component Interconnect Express)是一种传统的高速串行计算机扩展总线标准,广泛应用于 GPU 与 CPU 之间的连接。然而,与 CPU 和 DRAM 之间的互连相比,PCIe 的速度较慢,往往成为 GPU 加速的性能瓶颈。特别是在采用 PCIe 基础的 GPU P2P(Peer-to-Peer)通信时,这一问题更加突出。
2025-03-16 10:19:29
782
原创 DeepSeek AI发布DeepGEMM:一款支持密集型和MoE型GEMM操作的FP8 GEMM库,助力V3/R1训练与推理
在NVIDIA H800 GPU上使用NVCC 12.8进行测试,结果表明,在一系列矩阵维度中,DeepGEMM的加速效果与经过精心优化的基于CUTLASS的实现相比具有竞争力。在MoE模型的分组GEMM背景下,连续布局和掩码布局均显示出一致的改进,尽管提升幅度较为温和,加速因子在1.1倍到1.2倍之间。无论是普通GEMM还是MoE模型所需的更专业的分组GEMM,DeepGEMM都提供了一个实用、文档齐全的平台,用于提升计算效率。对分组GEMM的支持,为MoE模型设计,以两种形式实现:连续布局和掩码布局。
2025-02-28 13:11:15
325
原创 DeepSeek 最新发布 DeepEP:一款用于 MoE 模型训练和推理的开源 EP 通信库
这些内核针对需要高吞吐量的场景进行了优化,例如推理的预填充阶段或训练。它们通过利用 NVLink 和 RDMA 网络技术,高效地在 GPU 之间转发数据。例如,在带有 NVLink 的 Hopper GPU 上进行的测试显示,节点内通信的吞吐量约为 153 GB/s,而使用 CX7 InfiniBand(大约 50 GB/s 带宽)的节点间测试实现了约 43–47 GB/s 的稳定性能。通过最大化可用带宽,这些内核减少了在 token 分发和结果合并期间的通信开销。
2025-02-28 11:07:18
941
原创 微软推出先进低比特量化技术,助力在边缘设备上高效部署 LLM,无需高昂计算成本
在搭载高通骁龙 X Elite 芯片组的 Surface Laptop 7 等边缘设备上测试时,T-MAC 库对于 3B BitNet-b1.58 模型实现了每秒 48 个标记的处理速度,优于现有的推理库。在像树莓派 5 这样的低端设备上,它实现了每秒 11 个标记的速度,显示出显著的效率提升。这些创新在骁龙 X Elite 上实现了每秒 48 个标记的速度,在 2 比特 7B Llama 上实现了每秒 30 个标记的速度,在 4 比特 7B Llama 上实现了每秒 20 个标记的速度。
2025-02-27 11:25:11
695
原创 一文了解:部署 Deepseek 各版本的硬件要求
很多朋友在咨询关于 DeepSeek 模型部署所需硬件资源的需求,最近自己实践了一部分,部分信息是通过各渠道收集整理,so 仅供参考。言归正转,大家都知道,DeepSeek 模型的性能在很大程度上取决于它运行的硬件。我们先看一下 DeepSeek 的部分通用版本(如下图),然后再介绍一下最近火热的R1推理版本的各规格的硬件要求。最后,会给出 R1 的各主流版本的资源参考列表(文末)。模型名参数大小文件格式标签公司1.3BGGUF GPTQDeepSeek1.3BGGUF GPTQ。
2025-02-27 11:24:13
2940
原创 host.docker.internal 及 host-gateway 知多少
在开始本文之前,我们先看一下最近在使用界面工具进行与大模型交互时,我们一般会用到 Open Web UI ,部署方式如下, 具体要了解 DeepSeek 的本地化部署,可参见《是 Docker 生态中简化容器与宿主机通信的关键工具,尤其在开发环境中显著提升效率。在 Linux 上,默认情况下 Docker 不直接支持此名称,但 Docker Desktop(macOS/Windows)会自动配置。:一个由 Docker 自动解析的 DNS 名称,指向宿主机的内部 IP 地址。
2025-02-27 11:23:03
976
原创 LLMQuoter:通过从大型上下文中高效提取引用以增强RAG
为应对这一挑战,检索增强生成(Retrieval-Augmented Generation,RAG)应运而生,它巧妙地将检索系统与生成模型相融合,使得模型能够访问外部知识以提升在特定领域的性能表现,而无需进行大规模的重新训练。实验结果表明,训练用于提取相关引用的模型,而非处理完整上下文的模型,能够带来更优的性能表现。实验结果表明,与使用完整上下文相比,使用提取的引用能够显著提高模型的准确性,LLAMA 1B在使用引用时的准确率达到了62.2%,而使用完整上下文时仅为24.4%。
2025-02-09 14:02:04
444
原创 本地使用CPU快速体验DeepSeek R1
DeepSeek R1最近火爆各种圈,原因显而易见。它是一个免费、开源的替代方案,与OpenAI每月收费200美元的模型相比,性能接近,但运行成本低约95%。接下来,我花十分钟向您展示如何在本地运行它,这里以Linux为主。
2025-02-09 13:59:55
709
原创 SepLLM:大型语言模型中高效稀疏注意力的一种实用AI方法
然而,其自注意力机制的二次复杂性却如同一道枷锁,限制了其效率的发挥,特别是在面对冗长的输入序列时,计算与内存的需求犹如脱缰之马,难以驾驭。SepLLM不仅能够处理冗长的上下文信息、削减开销,还能与现有模型实现无缝对接,为推进LLM技术的发展提供了一种切实可行的方案。其稀疏注意力机制如同一位明智的指挥家,精准地把握着关键标记的节奏,为高效处理长上下文铺设了坚实的道路。通过聚焦于这些标记,SepLLM不仅削减了计算量,提升了效率,更在保持模型性能的同时,实现了资源的最大化利用。
2025-01-27 11:03:54
1424
原创 DeepSeek-R1 是否才是 “Open” AI?
在数学方面,该模型在MATH-500基准测试中获得了97.3%的Pass@1分数,与OpenAI的o1-1217相当,展现了其处理复杂问题的能力。在推理基准测试中,DeepSeek-R1在GPQA Diamond和AIME 2024基准测试中分别获得了71.5%和79.8%的Pass@1分数,展示了其先进的推理能力。与此同时,OpenAI的o1模型以其卓越的推理和问题解决能力闻名。据报道,DeepSeek-R1以约95%更低的成本提供了与OpenAI的o1相当的性能,显著改变了AI开发和部署的经济格局。
2025-01-27 11:01:56
704
原创 国外各领域专家学者的一些谏言:如何使AI代理架构变得成功
最近在研究AI代理架构为什么比较难落地,看到有一篇文章是关于各领域专家学者对AI代理架构的一些看法,值得关注。我将其整理成了中文,大家可一起细品各家观点,全文如下。代理型人工智能被寄予厚望,其潜力在于能够独立完成复杂任务。然而,目前该领域的炒作热潮远超实际成功案例,背后原因复杂多样。“2024 年,AI 代理已成为众多供应商的营销热词。但对于用户组织而言,代理技术还处于早期探索阶段,充满好奇心与实验性,真正落地实施的案例却寥寥可数。”Forrester 的首席分析师 Leslie Joseph 指出。
2025-01-24 16:41:42
956
原创 简单聊聊物理AI(Physical AI)
物理 AI 机器人采用先进的执行器,由 AI 和机器学习驱动,远远超越了当前的模型和设计,以便更好地与环境互动,在其中移动和操纵物体。物理 AI 系统比生成式 AI 系统更自主。最后,由于其持续的互动性质,物理 AI 的独特系统需要强大的处理能力,以便在动态环境变化期间有效地做出响应,这需要能够在毫秒内做出决策的软件算法和硬件。结果好坏参半,人们对自动驾驶的信心仍然很低. 随着传感器技术的改进和神经网络对其系统的训练,预计会有更安全、更高效的道路网络,自动驾驶汽车的数量不断增加,包括卡车和无人机。
2025-01-24 16:39:27
1396
原创 NVIDIA AI 推出 Cosmos 世界基础模型 (WFM) 平台,以推进物理 AI 开发
包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和 小鹏 在内的领先机器人和汽车公司,以及共享出行巨头 Uber,都是首批采用 Cosmos 的公司之一。就像大型语言模型一样,世界基础模型是推进机器人和自动驾驶车辆开发的基础,但并非所有开发者都具备训练自己的模型的专业知识和资源。
2025-01-20 17:39:59
1064
原创 SRDF:一个用于高质量视觉和语言导航数据集的自我完善数据飞轮
此外,SRDF生成的数据促进了在下游任务中的优越泛化,包括长期导航(long-term navigation,R4R)和基于对话的导航(dialogue-based navigation,CVDN),在所有测试的数据集中实现了最先进的性能。研究人员还报告了指令多样性和丰富性的增强,SRDF生成的数据集中纳入了超过10,000个独特的词汇,解决了以前数据集的词汇限制问题。此外,现有的标注往往缺乏必要的语言丰富性和准确性,这对于模型在多样化环境中的泛化能力至关重要,也限制了它们在现实世界中的应用效果。
2025-01-20 17:38:33
746
原创 微软人工智能研究院推出OLA-VLM:一种以视觉为中心的方法来优化多模态大型语言模型
OLA-VLM在各种基准测试中经过了严格的测试,显示出比现有的单编码器和多编码器模型有显著的改进。将这种优化引入语言模型的中间层,确保了在推理期间无需额外的计算开销,即可实现更好的视觉推理。提出的方法提高了视觉-语言任务的性能,并与现有方法相比,使用更少的计算资源实现了这一点。尽管增加数据集的规模和计算的复杂性带来了一定程度的改进,但为了确保在视觉任务中达到预期的性能,这些模型需要更精确的视觉理解优化。这种方法展示了嵌入优化如何有效地解决视觉-语言对齐中的挑战,为未来更健壮和可扩展的多模态系统铺平了道路。
2025-01-08 17:23:50
1006
原创 Meta AI 提出大型概念模型(LCMs):语义超越基于令牌的语言建模
它们的层次结构增强了连贯性和效率,而强大的零样本泛化扩展了它们在多种语言和模态中的应用。随着对这个架构研究的继续,LCMs有潜力重新定义语言模型的能力,为AI驱动的通信提供一种更可扩展和适应性强的方法。与特定语言或模态绑定的模型不同,LCMs在纯粹的语义层面上处理和生成内容。概念级建模比基于令牌的处理减少了序列长度,解决了标准Transformers的二次复杂性问题,使得长上下文的处理更加高效。LCMs表现出强大的零样本泛化能力,通过利用SONAR广泛的多语言和多模态支持,在未见过的语言和模态上表现良好。
2024-12-29 09:47:55
1062
1
原创 周末让我们思考一下:LLM的潜在空间(Latent Space)
这样,咱们的AI世界就会更像现在的样子,但LLM提供了一个超强的接口层,让咱们可以用自然语言提出请求,它能理解这些请求,并决定哪个模型最有可能给出答案。但是,理解LLM的核心模型非常重要。的概念,就像是给复杂数据找个压缩包,把图像、视频、声音啊这些高维数据压缩成低维的,这样在机器学习里,尤其是在生成模型,比如自动编码器和变分自动编码器里,就能把数据从高维空间映射到低维空间。通过用大量逻辑示例进行训练,它们可以在复制看似逻辑的行为上达到相当高的准确性,但相对于咱们的更简单的基于规则的模型,这种表示是。
2024-12-29 09:46:10
981
原创 一个用于理解和改进基于Transformer的LLMs中知识存储的框架
将重点从孤立的组件转移到相互连接的结构上,为分析和改进基于Transformer的模型提供了一个全面的框架。为了构建知识电路,研究人员系统地分析了模型的计算图,通过消融特定的边并观察性能的变化来识别关键连接,并确定各种组件如何相互作用以产生准确的输出。大型语言模型(LLMs),这些人工智能领域的巨擘,通过在其参数中嵌入浩瀚的知识库,得以理解和产出接近人类水平的文本。尽管LLMs取得了令人瞩目的成就,但科研人员仍在不懈地探索这些系统中知识存储和应用的深层机制,以期进一步提升它们的效能和稳定性。
2024-12-25 15:56:08
881
原创 开发者的福音:GitHub的AI编程助手Copilot对VS Code开发者免费开放
技术的迅猛发展,有时也会让我们的步伐变得沉重,增加错误发生的概率,尤其是对于初学者来说,学习曲线显得尤为陡峭。尽管人工智能(AI)工具似乎提供了一种有效的解决方案,但其高昂的成本往往让许多人望而却步,特别是对于学生和那些致力于开源项目的贡献者。无论是简化工作流程、增强学习还是实现更宏伟的项目,Copilot的可用性标志着我们在技术领域朝着更协作和生产力的未来迈出了重要的一步。GitHub的这一举措,使得AI驱动的编程辅助工具变得更加易于获取和使用,体现了技术的普惠性。
2024-12-25 15:54:42
934
原创 Meta FAIR出新招:Meta Motivo,让虚拟机器人动起来!
未来的研究可能会包括整合更多的状态变量,探索更复杂的感知方法,利用基于视频的人类活动数据集,以及开发更直接的语言-策略对齐技术,来扩展模型的能力和泛化性。人类评估研究还发现,虽然特定任务的算法可能在数值上表现更好,但FB-CPR被认为更“像人”,在83%的基于奖励的任务和69%的目标达成场景中,参与者都觉得它的行为更自然。为了证明这个算法有多牛,他们还搞了个叫做META MOTIVO的模型,这个模型能控制全身动作的机器人,而且能在没有专门训练的情况下,搞定运动跟踪、目标达成和奖励优化这些任务。
2024-12-24 10:29:02
611
原创 Nexa AI发布OmniAudio-2.6B:一款快速的音频语言模型,专为边缘部署设计
与传统的将自动语音识别(Automatic Speech Recognition,简称ASR)和语言模型分开处理的架构不同,OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo和一个定制的投影仪集成在一个统一的框架之中。Gemma-2-2b(一个精炼的大型语言模型)和Whisper Turbo(一个强大的ASR系统)的集成,确保了一个无缝且高效的音频处理流程。这一模型反映了对实用、本地化AI解决方案的日益重视,为满足现代应用需求的音频语言处理的进步铺平了道路。
2024-12-24 10:27:57
923
原创 DeepSeek-AI 开源 DeepSeek-VL2 系列,采用专家混合(MoE)架构,重新定义视觉语言人工智能
将视觉与语言的智能融合,已经在视觉语言模型(Vision-Language Models,简称VLMs)领域实现了重大突破。DeepSeek-VL2的训练包括一个多样化和全面的多模态数据集,使模型能够在各种任务中表现出色,包括光学字符识别(OCR)、视觉问题回答和图表解释。提供微型(3B)、小型(16B)和标准型(27B)配置,确保了对各种应用的适应性,从轻量级部署到资源密集型任务。研究团队引入了一个在实际应用中表现出色的模型系列,通过解决可扩展性、计算效率和任务适应性方面的关键限制。
2024-12-17 17:04:19
1589
原创 Meta AI 推出 COCONUT:一种新的范式,通过连续潜在思维和高级规划能力改变机器推理
问题方法结果基于语言的推理效率不高,因为太依赖于生成流畅的标记,而不是真正解决问题的推理。Meta的FAIR和加州大学圣地亚哥分校的研究人员搞出了“COCONUT”(连续思维链),这样就能在没有语言限制的潜在空间里进行推理了。COCONUT在逻辑推理任务上达到了99.9%的准确率,减少了推理标记,提高了规划能力,而且在效率和可扩展性上都超过了传统方法。总的来说,COCONUT通过引入连续潜在思维,解决了基于语言方法的效率问题,提高了计算效率。
2024-12-17 17:02:50
829
原创 字节跳动发布FullStack Bench工具:用于评估LLMs作为全栈开发者的能力
它支持23种编程语言,为LLMs的基准测试提供了一个可扩展和多功能的解决方案,不仅适用于FullStack Bench数据集,也适用于其他流行的基准测试,如HumanEval和MBPP。字节跳动的Seed团队与M-A-P的研究人员联合推出了FullStack Bench,这是一个全面的基准测试工具,旨在评估LLMs在11个不同应用领域的表现,并支持16种编程语言。在当前的研究领域,一个亟待改进的重要方面是全面基准测试的需求,这些测试需要精确反映现实世界中的编程需求。
2024-12-10 11:20:37
462
原创 一种LLM推理调优技术:采用KV缓存重计算来优化CPU-GPU交互
KV缓存的内存需求不断增长,超出了GPU的处理能力,将其转移到CPU引入了多个瓶颈,这增加了延迟并降低了吞吐量。南加州大学的研究人员提出了一种高效的CPU-GPU I/O感知型LLM推理方法(https://arxiv.org/abs/2411.17089),以优化PCIe的利用。因此,降低操作延迟成为了一个严峻的挑战,尤其是在那些需要快速响应的动态应用场景中。以往的研究尝试解决PCIe性能缓慢的问题,但这些方法常常因为数据传输和GPU计算时间不匹配而失败,尤其是在处理大批量和上下文大小的情况下。
2024-12-09 18:07:35
1073
原创 OpenAI 推出强化微调,构建复杂领域的专业AI模型
在OpenAI的“12天OpenAI”盛会的第二幕中,他们揭开了o1模型的强化微调(Reinforcement Fine-Tuning, RFT)的神秘面纱,这一创新的突破性进展预示着传统微调时代的终结。RFT不仅仅是复制已有的模式,它赋予了模型深层次的推理能力。OpenAI通过强化学习的技术,旨在赋予各组织构建专家级别的人工智能的能力,以便在法律、医疗、金融等高复杂度领域中大显身手。这种创新的方法允许组织以极小的数据量——有时仅需12个样本——通过强化学习来训练模型,处理特定领域的任务。
2024-12-09 09:37:56
1040
原创 月之暗面科技开源kimi核心推理架构:“月饼”
而且,传统的LLM服务架构通常都假设有足够的资源来处理所有的请求,但随着需求的增加,特别是在高峰时段,这变得越来越难。实验结果表明,与基线相比,月饼在模拟场景中实现了高达五倍的吞吐量增加,并在现实世界的工作负载下实现了75%更多的请求处理。月饼利用以KVCache为中心的预填充-解码(PD)分离技术和存储-计算解耦架构,显著提高了月之暗面科技的LLM服务Kimi的推理吞吐量。这种分离带来了显著的性能提升。未来,他们还计划在传输引擎的基础上构建月饼存储,它支持池化的KVCache,以实现更灵活的P/D解耦。
2024-12-08 13:44:36
995
原创 一文通读,全面比较 : TPUs vs. GPUs
然而,直到90年代末和21世纪初,随着可编程着色器的引入,GPU才真正开始在主流市场崭露头角,这使得开发者能够利用其并行处理能力来处理图形之外的任务。NVIDIA推出的CUDA(Compute Unified Device Architecture)和AMD的Stream SDK,使得开发者能够利用GPU的强大处理能力进行科学模拟、数据分析等更广泛的应用。最初,GPU的设计宗旨在于图形的渲染,但随着技术的进步,它们已经转变成能够高效执行AI任务的多功能处理器。同样,GPU实施节能优化以提高AI操作的性能。
2024-12-06 13:23:51
1619
原创 一睹:微软最新发布的LazyGraphRAG
微软近期推出了一项革新性的技术——LazyGraphRAG,这是一种启用图谱的检索增强生成(Retrieval Augmented Generation,RAG)技术,它以其卓越的效率和成本效益,彻底颠覆了传统观念中对“懒惰”的刻板印象。位于雷德蒙德的微软研究团队宣称,这项最新的RAG技术在成本和质量上展现出了“与生俱来的可扩展性”,并在成本与质量的连续谱上呈现出“卓越的性能”。此外,它还成功降低了对整个数据集进行全局搜索的成本,同时提升了局部搜索的效率。简而言之,LazyGraphRAG绝非徒有其名。
2024-12-06 11:26:39
1427
原创 2024年顶级小型语言模型前15名
LaMini-GPT,这款参数介于7.74亿至15亿的模型,专为多语言任务设计,它在资源受限的环境中表现出色,能够处理多种语言而不需要大量计算资源。尽管它可能缺乏LLaMA 13B等大型模型的原始计算能力,但它在性能与资源效率之间取得了巧妙的平衡,使其成为资源受限环境中的理想选择。Gemma2,这款20亿参数的模型,若您考虑本地部署,它将展现出卓越的性能。接下来,我们有Mistral Nemo 12B,这款拥有12B参数的模型在处理复杂的自然语言处理(NLP)任务,如语言翻译和实时对话系统方面表现出色。
2024-12-04 10:11:05
1628
原创 一文了解:什么是对象检测
想象一下,你正在为一个体育分析系统开发一种计算机视觉技术,在这个系统中,定位图像或视频中的对象至关重要。在比赛视频中检测和跟踪球员,可以让你计算特定区域内的球员数量,监控他们跨越区域的移动,甚至分析他们在关键位置所花费的时间。通过目标检测——一种不仅能在图像或视频中识别对象,还能精确定位它们位置的计算机视觉任务——实现了这种细节水平。与简单的图像分类不同,图像分类只是给整个图像分配一个标签,目标检测则致力于找到对象的实例并通过边界框标记它们的位置。
2024-11-20 10:11:52
1546
原创 浅谈:向量数据库、向量搜索库和向量搜索插件
也不是说所有的向量数据库都一样,每个都有它独特的地方,适合不同的场景。对于那些只需要处理几百万向量的小规模生产环境,向量搜索库和插件还是挺友好的,如果你的数据量不大,只需要基本的向量搜索功能,这些技术就够用了。现在市面上有好多向量搜索技术,不光有Python的NumPy这种机器学习库,还有FAISS这样的向量搜索库,还有基于传统数据库构建的向量搜索插件,以及Milvus这样的专业向量数据库。但是,如果你的业务需要处理上亿的向量,还得要求实时响应,那专业的向量数据库,比如Milvus,就是我们的首选了。
2024-11-20 10:10:11
1688
原创 向量搜索工具之 Milvus vs. Elastic
在当今数据驱动的世界中,向量数据库因其在处理大规模非结构化数据方面的卓越能力而变得越来越重要。随着数据量的爆炸性增长,如何确保这些数据库在存储和检索数十亿数据点时仍能保持高性能,成为了一个关键挑战。Milvus和Elasticsearch都是管理和搜索大型数据集的强大工具,但它们服务于不同的目的,并在不同的领域表现出色。虽然Elasticsearch主要是一款文本搜索引擎,但Milvus是为向量相似性搜索而设计的,这使得它特别适合人工智能应用。
2024-11-19 17:12:47
1793
原创 实操:通过LangChain尝试不同的分块策略
在开发检索增强生成(Retrieval-Augmented Generation, RAG)应用的过程中,处理文档的分块(Chunking)无疑是最为复杂的任务之一。分块究竟是什么?它指的是将信息切割并整理成易于处理或富有意义小组的行为,这些小组随后可以被送入我们的语言模型中进行处理。虽然这个概念乍听之下似乎简单直白,但实际上,其执行的细节才是成功的关键。根据文本的具体特征,你可能需要在将文本输入到语言模型之前,采取不同的策略来进行分块。在本文中,我们将探讨不同分块策略对同一数据集的影响。
2024-11-19 17:07:59
1220
原创 一种细粒度的评估RAG框架:RAGChecker
研究者们仔细评估了RAG的各个部分和它们的组合,给出了一些根据具体情况的建议,既考虑了效果,也考虑了效率。传统的评估方法往往不够用,它们要么只关注检索器的性能,要么就抓不到生成内容的细节。RAGChecker的特别之处在于它和人类的判断很接近,在评估RAG输出的正确性、完整性和整体质量方面做得比现有指标好。RAG和GraphRAG这两个技术在AI圈子里挺火的,原因嘛,就是它们能把大型语言模型(LLMs)和外部的知识库连起来,这样就能提高模型的准确性,减少那种不靠谱的输出。》,为RAG优化提供了新的视角。
2024-11-18 11:17:11
873
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人