- 博客(117)
- 收藏
- 关注
原创 18种RAG技术的极限挑战:我找到了最优解!
在当前生成式模型与信息检索技术快速发展的背景下,如何有效结合二者,提升问答系统的准确性与实用性成为技术探索的焦点。为了寻找最佳解决方案,我尝试了 18 种不同的 RAG(Retrieval-Augmented Generation)技术,从最基础的方法到复杂的多模型融合。经过大量实验,数据表明 Adaptive RAG 凭借动态调整策略和出色的检索效果,以最高得分 0.86 成为本次实验中的大赢家。
2025-04-04 23:25:02
738
原创 台大李宏毅2025 AI Agent新课
AI agent的意思是说,人类不提供明确的行为或步骤的指示,人类只给AI目标,至于怎么达成目标,AI要自己想办法。比如,你给AI某一个研究的议题,那你期待一个AI agent就应该能够自己提出假设,设计实验,进行实验,分析结果。如果分析出来的结果跟假设不符合,要回头去修正假设。
2025-04-04 23:20:46
187
原创 机器学习建模+ SHAP模型预测解释
SHAP 全称是 SHapley Additive exPlanation,是比较全能的模型可解释性的方法,既可作用于全局解释,也可以局部解释,即单个样本来看,模型给出的预测值和某些特征可能的关系,可以用SHAP来解释。
2025-04-03 10:15:11
565
原创 天塌了?ChatGPT 4o生图功能带来的震撼冲击
自从 OpenAI 前天发布了4o Image Generation 之后,生图绘画效果简直拉满,让设计师直接感受到了失业危机。网络上这两天把 ChatGPT 4o模型的绘画模式都给玩出花来了。我带大家一起看一看,GPT 4o 的绘画能力到底有多强,能够干多少事,你会惊讶的。
2025-04-01 09:06:49
808
原创 实用指南:用YAML风格提示词优化AI交流
YAML 风格提示词在人工智能交流中的应用,强调其作为一种高效、结构化的“AI 交流语言”的重要性。YAML 提示词凭借其层级结构清晰、语法简洁、可读性好等优势,能够精准地向 AI 表达指令,使其更好地理解人类的期望。文章系统介绍了 YAML 的基础知识,包括基本语法、列表表示和复杂结构构建,并提出了“RGCIE 原则”(Role-Goals-Constraints-Instructions-Examples),这是一种高效的 YAML 提示词结构,遵循从抽象到具体的思维逻辑,有助于构建清晰的上下文关系。
2025-03-31 09:02:59
1014
原创 Agent技术解析:与传统应用的差异与优势
Agent可以理解为一种具有自主性、社会性、反应性和主动性的人工智能实体。它能够感知环境信息,并根据预设的目标和规则,自主地做出决策和行动。Agent既可以是软件形式存在,如智能助手、聊天机器人等;也可以与硬件结合,应用于机器人、智能家居等领域。例如,智能客服Agent能够自动识别客户问题并提供精准解答;智能家居Agent可以根据环境光线、温度等条件自动调节家电设备。
2025-03-27 18:07:53
702
原创 LLM infra中的一些基本概念:PP、TP、DP、ZeRO
LLM Infra即大语言模型(Large Language Model)的基础设施(Infrastructure),是支持LLM训练、部署和应用的技术基础。它涵盖了硬件(如GPU/TPU、高性能计算集群)、软件(如深度学习框架、分布式训练库)、网络(如高速互联、带宽管理)、云服务(如云计算平台、容器化技术)以及监控与优化等多个方面。
2025-03-27 09:07:37
1020
原创 全景解读 LLM Posting-Train(后训练)技术
后训练技术的核心价值体现在三个维度:知识精炼:修正预训练阶段的知识偏差与事实错误能力对齐:使模型输出符合人类价值观和任务需求推理增强:赋予模型多步推理、逻辑验证等高级认知能力
2025-03-27 08:59:31
1126
原创 DeepSeek-V3深夜惊爆上新!
685B的DeepSeek-V3新版本,就在昨夜悄悄上线了。参数量685B的V3,代码数学推理再次显著提升,甚至代码追平Claude 3.7,网友们实测后大呼强到离谱!有人预测说,按照此前的节奏,DeepSeek-R2大概率几周内就将上线。
2025-03-25 09:06:37
528
原创 仅靠prompt,Agent难以自救
真正的 LLM 智能体,则是通过「强化学习(RL)与推理(Reasoning)的结合」来实现。文章举例了 OpenAI 的 DeepResearch 和 Anthropic 的 Claude Sonnet 3.7,说明未来智能体会自主掌控任务执行的全过程,包括动态规划搜索策略、主动调整工具使用等,而不再依靠外部提示或工作流驱动。这种转变意味着智能体设计的核心复杂性将转移到模型训练阶段,从根本上提升模型的自主推理能力,最终彻底颠覆目前的应用层生态。
2025-03-23 23:14:47
760
原创 VLM技术:多模态
文章聚焦于VQA、T2T、T2I,以及VLA相关技术原理流程以及主要paper,并结合自身理解,愿不止于此...【不断勘误中】
2025-03-23 11:44:34
1018
原创 独具匠心:GRPO极简改进方案揭秘
分析表明,DeepSeek-V3-Base 已经展现出「顿悟时刻」,而 Qwen2.5 基础模型即使没有提示模板也表现出强大的推理能力,这表明存在潜在的预训练偏差。此外,作者还在群体相对策略优化(GRPO)中发现了优化偏差,它在训练期间人为地增加了响应长度(尤其是对于错误输出)。为解决这个问题,研究人员引入了 Dr. GRPO,这是一种无偏优化方法,可在保持推理性能的同时提高 token 效率。利用这些见解,作者提出了一种简化的 R1-Zero 方案,使用 7B 基础模型在 AIME 2024 上实
2025-03-23 11:18:50
623
原创 AFAC2024 金融工具Tools识别竞赛总结
AFAC2024 金融工具Tools识别竞赛总结在金融对话领域,问答系统通过意图识别和检索召回来承接用户的问题,在长期的迭代过程中系统会沉淀各种各样的API接口,大部分API都可以作为独立的原子服务,用户问题可以根据问题的解决过程拆分为多个子问题(CoT),每个子问题可能需要调用一个或多个原子API来解决,这种问题定义的方式使得我们可以将结构化和非结构化QA抽象为API的组合调用问题,同时让正面回答用户问题成为可能。
2025-03-21 09:16:01
1219
原创 什么是MCP?看不懂你打我
MCP 是一种协议,它实现了大模型资源调用的标准化。千百年来,随着人类社会的发展,标准化的进程不断推进。大模型与外部资源的对接同样需要标准化,MCP 正是为此而生!
2025-03-21 09:04:57
1157
原创 爬虫界的“大杀器”!两大神器合体,效率直接起飞!
爬虫开发者们,是否还在为传统工具的局限而烦恼?Requests能轻松应对简单页面,却在动态渲染面前束手无策;Selenium虽能搞定复杂JS,但速度慢如蜗牛,让人抓狂!现在,划时代神器——DrissionPage震撼登场!它完美融合了Requests的高效与Selenium的强大,让你左手握Requests的极速,右手持Selenium的全能,从此告别两难选择!效率瞬间飙升300%,轻松应对各种复杂场景,开启爬虫开发的全新篇章!
2025-03-20 14:11:27
483
原创 [DeepRetrieval] 用DeepSeek-R1-Zero的思路教会模型怎么用搜索引擎找文本
在RAG相关的工作中,我们深知检索质量是当前的瓶颈。DeepSeek-R1-Zero的“RL from Scratch”模式为我们提供了一种新的思路,即通过大规模强化学习来提升模型的推理能力,而无需监督微调。基于这一思路,我们进行了尝试,直接通过试错来训练LLM进行信息检索,而无需监督数据。
2025-03-19 09:10:16
1404
原创 不懂RAG?看完这篇万字长文,你就是专家!
文章首先指出传统语言模型(如 GPT-3)依赖预训练参数、无法动态访问外部知识的局限性,而 RAG 通过结合检索系统与生成模型,能够动态利用外部知识源,生成更准确、实时的答案。接着,文章详细解析了 RAG 的核心组件,包括检索机制(稀疏检索与稠密检索)、生成过程(去噪与推理)以及知识整合方式(输入层、中间层和输出层整合)。此外,文章还介绍了 RAG 的关键步骤,如用户意图理解、知识源解析、知识嵌入、索引、检索、整合、答案生成和知识引用,并探讨了高级 RAG 方法在训练优化、多模态处理、记忆增强和智能推理方面
2025-03-18 22:29:49
807
原创 开源模型中的 Function Call 方案深度剖析
我们梳理了开源模型 Function Calling 能力的相关信息,包括采用的 chat template,function call 训练方案等。涉及模型 LlaMa 3.1, Mistral Large 2,glm-4-9b-chat,Qwen 2。
2025-03-17 09:05:21
1350
原创 Claude:让业务流程图绘制变得简单
文章介绍了 Claude 绘制业务流程图的能力。作者通过多轮对话探索,发现 Claude 可以生成清晰美观的 SVG 格式流程图。文中展示了多个示例,包括员工入职、会议室预订、采购审批、客户订单处理和企业项目立项审批等流程图。为了方便使用,作者提供了提示词模板,用户只需将业务流程填入指定位置,Claude 即可生成 UML 定义和可视化流程图。此外,文章还分享了将 SVG 图片转换为 PPT 形状进行编辑的小技巧。最后,作者强调了 AI 工具在创意和效率提升上的潜力,并鼓励读者关注其公众号以获取更多 A
2025-03-17 06:00:00
414
原创 从Graph RAG到DeepSearcher:新一代RAG范式的崛起
本文通过技术分析、与传统RAG对比以及实测展示,深入探讨了DeepSearcher这一开源深度研究工具。文章首先介绍了RAG技术的演进,从传统RAG到GraphRAG,再到DeepSearcher的分层语义理解架构,分析了它们在检索机制、数据组织方式和结果生成方面的差异。接着,通过三种RAG设计模式的实验效果对比,展示了DeepSearcher在处理复杂信息和多层级关系时的优势。最后,文章总结了DeepSearcher的先进性,包括更智能的检索、适应性强、多模态支持和个性化能力,同时也指出了其面临的挑战,如
2025-03-16 22:51:49
914
原创 Claude 神级提示词-画各种模型结构图
只需60秒,从Transformer到ResNet,从LSTM到GPT,模型网络结构图信手拈来,让你的论文、演讲、教学材料立刻提升一个档次!
2025-03-16 21:37:43
346
原创 Ultralytics YOLO11来啦!更快!更强!
Ultralytics YOLO11,作为新的SOTA模型,不仅继承了之前YOLO系列的优势,还引入了创新特性和改进,提升了性能和灵活性。它以快速、精准、易用为特点,成为处理目标检测、跟踪、实例分割、图像分类和姿态估计等多种视觉任务的理想选择。
2025-03-14 10:50:12
372
原创 图像分割技术深度解析:语义、实例与全景分割,及FCN、U-Net、Mask R-CNN、UPSNet的应用
图像分割主要分为三大领域:语义分割(Semantic Segmentation)、实例分割(Instance Segmentation)、全景分割(Panoptic Segmentation):•语义分割:每个像素对应一个类标签。同一类会被定义成一个区域块,不区分其中单个物体。•实例分割:每个对象的掩码和类标签。区分单个物体以及单个物体所属的类型,无法识别的都作为背景。•全景分割:每像素类+实例标签。相当于在语义分割的基础上,增加单个实例的区分。
2025-03-14 08:57:43
1052
原创 Gemma 3 技术报告
我们在此介绍 Gemma 开放语言模型系列的最新版本——Gemma 3(2024a)。该版本与 Gemini 系列前沿模型(Gemini 团队,2023)共同设计,涵盖从 1 亿到 270 亿参数的不同规模版本。与 Gemma 2(2024b)相比,新版本增加了 10 亿参数的模型,旨在在标准消费级硬件(如手机、笔记本电脑和高端 GPU)上运行。
2025-03-13 09:34:20
1687
原创 OpenAI深夜放大招,智能体全家桶一通API!
「Agent/智能体」可说是当今 AI 领域最炙手可热的话题。今天凌晨,OpenAI 发布了一系列可让开发者通过 API 构建智能体的新工具,其中最大的看点便是 Responses API,这是对之前的 Chat Completions API 的一轮大升级,使其获得了 Assistants API 般使用工具的能力,从而可以帮助开发者构建智能体。目前,Responses API 已经内置了网络搜索、文件搜索和计算机使用(computer use)能力。
2025-03-13 09:08:35
669
原创 通义QwQ-32B+Milvus,消费级显卡解锁大模型与RAG全新时代!
QwQ-32B不仅性能强大,还极其“亲民”,它体积小、推理快,支持消费级显卡部署,像RTX 4090这样的显卡就能轻松运行,非常适合普通个人开发者或者资源不足的科研党上手学习。不过,由于QwQ-32B采用的是密集模型,相比DeepSeek R1,在长文本复杂推理上,经常会出现无法识别前面内容,或者幻觉问题。我们会基于Ollama开源平台,手把手向大家展示如何利用QwQ-32B和Milvus高效、安全地构建RAG(检索增强生成)系统。
2025-03-12 09:39:49
936
原创 QwQ-32B,支持Function Call的推理模型,深度思考Agent的时代来了!
Qwen 发布了 QwQ-32B - 一个在许多基准测试中性能可与 DeepSeek-R1 相媲美的推理模型。QwQ在推理模型中集成了调用工具的能力,使其能够在使用工具的同时进行批判性思考,并根据反馈调整推理过程。这样的能力使得QwQ能够很好在Agentic System中使用。本文介绍如何通过vLLM和SgLang结合QwQ-32B,搭建OpenAI格式的聊天API,并与外部函数结合来拓展模型的更多功能。
2025-03-11 09:00:12
903
原创 保姆级教程来袭!AI笔记神器NotebookLM超全攻略
亲测好用的 AI 提效工具之 NotebookLM(文献梳理、量子速读、生成播客、会议纪要...)本教程依然是从小白的视角去学习如何使用此 AI 工具,适合想要利用AI提效的工作党、学生党,快来试试 NotebookLM 吧!
2025-03-10 22:36:32
1288
原创 大模型量化技术实践指南:GPTQ、AWQ、BitsandBytes 和 Unsloth
在大模型(LLM)的时代,我们需要了解量化技术,以便在本地电脑上运行这些模型,因为它们的规模非常庞大。然而,实现量化的方法有很多,这让像我这样的初学者很容易感到困惑。本文介绍了我们必须掌握的主要量化技术,并附带了如何在 Google Colab 环境中实现它们的源码。
2025-03-09 22:33:38
1267
原创 r1-reasoning-rag:一种新的 RAG 思路
最近发现了一个开源项目,它提供了一种很好的 RAG 思路,它将的推理能力结合应用于 RAG 检索项目地址项目通过结合Tavily和LangGraph,实现了由 AI 主导的动态信息检索与回答机制,利用deepseek的r1推理来主动地从知识库中检索、丢弃和综合信息,以完整回答一个复杂问题。
2025-03-08 23:09:51
697
原创 漫画趣解:一文搞懂模型蒸馏!
“模型蒸馏”就是把大模型学到的本领,用“浓缩”的方式教给小模型的过程,在保证一定精度的同时,大幅降低运算成本和硬件要求。
2025-03-07 22:48:36
1020
原创 为什么Qwen能自我改进推理,Llama却不行?
在同样的强化学习训练下,不同模型自我改进的能力却存在很大差异。比如在一个游戏中,Qwen-2.5-3B 的自我改进能力远远超过 Llama-3.2-3B(两个模型初始都很差,但强化学习训练结束后,Qwen 达到约 60% 的准确率,Llama 只有 30%)
2025-03-07 06:00:00
653
原创 一体机:DeepSeek性能的“隐形枷锁”!
一体机是DeepSeek交付的最佳方式吗?恰恰相反,一体机是阻碍DeepSeek提升推理性能的最大绊脚石。只因DeepSeek这个模型有点特殊,它是个高稀疏度的MoE模型。MoE这种混合专家模型,设计的初衷是通过“激活一堆专家中的少量专家”,来达到减少计算量、提升推理效率的目标。
2025-03-06 23:49:16
1051
原创 媲美满血R1+,刚刚,阿里推理模型QwQ-32B开源
阿里通义千问团队今日凌晨正式开源推理模型QwQ-32B,仅凭320亿参数(非嵌入参数31亿),竟在多项关键指标上追平甚至超越参数规模超6710亿的顶尖模型DeepSeek-R1!
2025-03-06 16:49:00
1968
原创 ModernBERT的启示:语言模型的下一个十年
当谷歌在2018年推出BERT模型时,或许未曾想到,这个仅有3.4亿参数的模型会成为自然语言处理领域的奠基之作。 六年后的今天,随着千亿参数级别的大语言模型浪潮汹涌而来,Answer.AI、LightOn与Hugging Face联手打造的ModernBERT却另辟蹊径,选择了一条“小而精”的道路。通过架构创新,ModernBERT将大语言模型的先进经验巧妙地移植到小型模型中,让4亿参数的小模型释放出超越预期的强大性能。
2025-03-05 18:25:00
1035
原创 开源跨平台大模型工具Ollama的安全隐患
据清华大学网络空间测绘联合研究中心分析,开源跨平台大模型工具Ollama默认配置存在未授权访问与模型窃取等安全隐患。鉴于目前DeepSeek等大模型的研究部署和应用非常广泛,多数用户使用Ollama私有化部署且未修改默认配置,存在数据泄露、算力盗取、服务中断等安全风险,极易引发网络和数据安全事件。
2025-03-05 10:56:39
623
Deepseek给我们带来的创业机会
2025-02-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人