- 博客(1289)
- 收藏
- 关注
原创 一文搞懂通义千问(Qwen)相关的核心概念
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-11-06 10:28:24
14046
原创 大模型常用评测基准汇总(通用评测基准、具体评测基准),看这一篇就够了!
在评测集维度,OpenAI和Google会直接使用Chatbot Arena的结果,在对大模型进行评估时,较为简单、高效、易操作的方式是关注Chatbot Arena的leaderboard。目前所有大模型综合排行榜目前中文大模型排行榜SuperCLUE琅琊版6月排名在评估中文大模型的能力时SuperCLUE会作为重要指标,从榜单上可以看出中文大模型的效果还是差于国外大模型,这种落后不能单一归结为某一个原因,我们需要认识到在算力、算法、数据中的各种不足。征途漫漫,惟有奋斗。
2024-09-26 07:30:00
10876
原创 大模型超详细盘点!常用的大模型及其优缺点、有潜力的大模型、国内大模型行业落地的现况、国内大模型优势、挑战与前景
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-09-21 09:55:42
11321
原创 拉开差距的关键!当别人还在堆功能,高手已在用这套范式重塑LLM应用的“产品灵魂”!
其实本文要谈的范式并不是一个很少见的方式,但真的能这么做的团队并不多。我感觉目前遇到的case中,能这么做的创业团队大概这方面的研发能力已经跻身于第一梯队了。如果是在一个超过100人的组织中(严格来说是单一业务中),那么这种研发方式就更加少见,并且更加难推动。
2025-11-25 17:25:15
433
原创 颠覆认知!AI不是帮你“学”数学,而是帮你“理解”数学!这才是离散数学的正确打开方式!
分析离散数学课程的特点及其教学挑战以及国内外相关教学资源的建设现状,在此基础上提出基于AI大模型的教学资源建设框架,介绍实践案例应用,说明该方法的有效性,最后总结研究成果并提出未来的研究方向。
2025-11-25 11:04:39
301
原创 你的下一个AI助手会是谁?Claude Opus 4.5与Gemini 3的“王座之战”,将决定未来!
在AI行业竞争日趋激烈的背景下,Anthropic今日发布了其最新旗舰大语言模型Claude Opus 4.5。作为Claude 4.5系列中的顶级型号,该模型在智能体(Agent)性能、编程能力和企业集成等方面都实现了显著提升。
2025-11-25 10:52:46
311
原创 独家!首份公众AI大模型调研报告泄露!数据背后,是普通人的逆袭路线图!
文心一言(24.1%)、Kimi(18.7%)、通义(10.4%)的使用率相对较低。对受访者进行职业分析发现:在校学生、公务员、普通职员、专业人员更青睐DeepSeek。在学生群体中,DeepSeek的使用占比显著高于其他AI应用(81.9%的学生使用)。
2025-11-25 10:51:49
317
原创 别再卷互联网了!AI大模型+金融,这个“高薪蓝海”刚刚开启,懂场景落地的人才极度稀缺!
在央行将金融领域人工智能大模型应用纳入“十五五”金融科技发展规划的背景下,2025年前三季度国内金融大模型中标项目较2024年全年增长170%,可见我国银行业的数智化转型已从“可选动作”变为“必答题”。AI大模型的技术突破,正在颠覆银行传统的“产品导向”服务逻辑,推动行业从“流程优化”的浅水区迈向“模式重构”的深水区。在利率市场化深化、同业竞争白热化的背景下,单纯的数字化升级已难以形成壁垒,基于场景的客户体验重塑成为银行突围的关键。
2025-11-25 10:48:47
687
原创 独家!杨涛万字长文:大模型不是风口,是未来!不懂金融应用路径和治理,你将被淘汰!
进入2025年,全球大模型技术快速迭代,呈现多模态交互技术逐渐成熟、强化学习解锁复杂推理能力、任务型智能体日益完善、主动化大模型能力开始显现等特点。在此背景下,大模型在金融领域的应用也呈现爆发式增长态势,同时也面临更加突出的风险与挑战。
2025-11-25 10:45:50
449
原创 拿下大模型高薪Offer,必须啃下这块“硬骨头”!强化学习基础(下),从0到1吃透奖励模型!
本文介绍了强化学习的架构与核心分类,详解模型有无模型两类方法及策略、价值导向算法,点明大模型应用侧重。介绍完整个强化学习关键的基础概念,算是对强化学习有个初步认识,这里先总结一下整个强化学习的架构以及分类,后续对于每一种经典算法再逐一突破:
2025-11-25 10:44:21
406
原创 深度硬核!AI大模型私有化部署标准背后,藏着怎样的技术逻辑和职业机遇?一篇讲透!
大模型(LLMs)的浪潮已席卷全球,企业对AI的投入从“观望”转为“all in”。然而,面对外部API调用带来的数据安全、高昂成本、网络延迟等核心痛点,越来越多的企业,尤其是金融、政务、制造等数据敏感或对性能要求极高的行业,正将目光投向私有化部署。但现实是:从算力规划到模型微调,再到最终的业务集成,私有化部署缺乏一套成熟、可复制、经行业验证的实施框架。
2025-11-25 10:42:51
387
原创 肝完这篇!国产大模型登顶背景下的AI学习指南,从0基础到拿到Offer,看这一篇就够!
昨天,港、A股在历经一周的股市低迷之后,终于有企稳回升迹象,而带头发起反攻的,是港股科技巨头阿里巴巴!以近三万亿体量直冲五个点涨幅,直接拉动大盘。
2025-11-25 10:41:13
1145
原创 效率与智能的极限拉扯!2024-2025LLM架构进化,MoE、注意力与归一化如何突破天花板?
先理清这篇文章的背景和核心想干的事儿,再逐个拆模型的亮点,最后聊聊2024-2025年LLM架构的大趋势,重要细节和图表也都会讲到。
2025-11-24 13:40:41
669
原创 我赌你还在用Bounding Box!大神早已用PixelRefer,让AI看懂每一个像素!
当前 MLLM 擅长全局场景级理解与推理,在像素级细粒度视觉理解任务上仍表现薄弱。视觉语言理解已从整体场景级认知,迈向更细粒度的像素级目标级推理。然而,当下的研究工作多局限于单个物体的描述,难以深入理解多对象属性、交互关系及其时序演变,且牺牲了模型本身的通用理解能力。
2025-11-24 13:38:40
412
原创 从“调包侠”到“炼丹师”:模型量化,是你必须掌握的LLM“炼金术”。
量化是指将模型中原本以高精度表示的权重和激活值映射为低比特离散值的过程,以在几乎不损失模型性能的前提下,大幅降低计算与存储开销。
2025-11-24 11:00:33
534
原创 “你的LangChain应用,是不是就卡在‘最后一步’?” Parser,打通AI到应用的“最后一公里”!
语言模型返回的内容通常都是字符串的格式(文本格式),但在实际AI应用开发过程中,往往希望model可以返回更直观、更格式化的内容,以确保应用能够顺利进行后续的逻辑处理。此时,LangChain提供的输出解析器就派上用场了。
2025-11-24 10:57:28
742
原创 AI的“意识”萌芽?从LangChain Memory开始,探索AI的“连续性”之谜。
大语言模型本质上是经过大量数据训练出来的自然语言模型,用户给出输入信息,大语言模型会根据训练的数据进行预测给出指定的结果,大语言模型本身是“无状态的”,模型本身是不会记忆任何上下文的,只能依靠用户本身的输入去产生输出。
2025-11-24 10:56:03
463
原创 【ICRA 2025必读】iRe-VLA白皮书:一篇讲透如何终结机器人训练崩溃!
今天和大家聊一篇非常有意思的机器人学习领域的文章,来自清华大学、加州大学伯克利分校和上海期智研究院的学者们。他们提出了一种名为 **iRe-VLA** 的新方法,旨在解决一个很棘手的问题:如何稳定、高效地使用强化学习(Reinforcement Learning, RL)来微调大型的视觉-语言-动作(Vision-Language-Action, VLA)模型。
2025-11-24 10:53:36
245
原创 你的Prompt还在“裸奔”吗?LangChain PromptTemplate,给它穿上“标准化”外衣。
在与大语言模型交互时,通常不会直接将用户的原始输入直接传递给大模型,而是会先进行一系列包装、组织和格式化操作。这样做的目的是:更清晰地表达用户意图,更好地利用模型能力。
2025-11-24 10:52:26
655
原创 别再搜了!关于Legal AI的底层逻辑和Prompt,看这篇“Legal AI 4”就够了!
使用AI时,你会不会也觉得,AI的回复很不错,但好像总欠一些火候,无法做到完美。如果你也有类似的经验,那么这篇文章对你或许有用。生活中,顺畅沟通的秘诀是,知己知彼。同样的,为了更好的AI“沟通”,我想我们需要了解AI背后的技术,大语言模型(LLM) 到底什么,导致今天各种AI应用能听懂我们的问题,回答我们问题,帮我们工作的底层逻辑是什么。
2025-11-24 10:47:58
502
原创 从0到1,四步搞定!这篇Llama-factory教程,让你轻松入门模型微调!
1、通过github下载最新版本的llama-factory代码包2、在GPU服务器上解压
2025-11-23 16:00:00
425
原创 月薪3W和5W的AI工程师,差距就在RAG Chunking 2.0的这些经验里!
在基于大语言模型的RAG系统里,文本分块是非常关键的一步。分块做得好,后续的向量检索、结果召回和生成质量都会更稳更准。除了大家常用的固定大小、递归、语义、按文档等切法,至少还有好几种策略,能显著提升检索准确率、保持上下文连续,并适配不同任务。
2025-11-23 12:30:00
1200
原创 Dify、n8n、Coze大乱斗!从性能到生态,全方位横评,谁是你的“本命”框架?
随着技术的成熟,我们看到越来越多的能力正在被“平台化”。正如网站的开发从手写 HTML/CSS/JS,演进到了可以使用 WordPress、Wix 等建站平台一样,智能体的构建也迎来了平台化的浪潮。本文将聚焦于利用图形化、模块化的低代码平台搭建智能体,来将我们的重心从“实现细节”转向“业务逻辑”,分析低代码平台之间的区别并给出选型建议。
2025-11-23 11:15:00
931
原创 “你每天都在用GGUF,但你真的‘懂’它吗?” 一文解构,告别“调包侠”!
在使用大型语言模型时,我们经常会遇到一些现实问题: 模型文件太大、加载太慢、部署麻烦、兼容性差…… 尤其是当你尝试在本地电脑甚至手机上运行一个几百亿参数的模型时,这些问题就会变得尤为明显。于是,**GGUF(GGML Universal File)** 诞生了。 它是由 *ggml* 项目演化而来的一种全新模型文件格式,专门为大语言模型的高效部署而设计。 简单来说,GGUF 就像是为 LLM 打造的 “高性能压缩包”,既能节省空间,又能提升加载速度,还能在不同平台间无缝使用。
2025-11-23 08:30:00
1549
原创 万字长文解密!我们啃完了谷歌68页手册,提炼出7个让你“封神”的提示词技巧。
Gemini 3 Pro 必须是最近最热议的话题。昨天在一个大佬的评论区看到有好几个人留言说:“Gemini 3 Pro 老理解错意思”。我想可能不是它理解不了,是我们表达得不够清楚。如果只能推荐一份关于 Gemini 3 Pro 的进阶指南,我会毫不犹豫地选择这一份:**谷歌官方 68 页提示词工程手册。**
2025-11-23 07:45:00
674
原创 保姆级教程!手把手教你用LCEL重构LangChain应用,体验丝滑的异步与流式。
顾名思义,`LangChain`其核心概念就是`Chain`。 `Chain`翻译成中文就是“链”。用于将多个组件(提示模板、model模型、记忆、工具等)连接起来,形成可复用的工作流,完成复杂的任务。比如我们刚刚实现的问答流程: 用户输入一个问题 --> 发送给大模型 --> 大模型进行推理 --> 将推理结果返回给用户。这个流程就是一个链。
2025-11-22 17:25:08
996
原创 揭秘!爆火的“上下文工程”,到底比“Prompt Engineering”高明在哪?
摘要:“上下文工程”(Context Engineering)是近期AI圈又一个爆火的名词。“上下文工程”是个啥,跟“提示词工程”(Prompt Engineering)有什么区别,有什么魅力让那么多大佬都为之发声?
2025-11-22 16:39:24
733
原创 我悟了!LangChain的精髓,是把LLM从“聊天机器人”变成“超级工具”。
LangChain 是一个基于 python 语言的模块化、可组合、面向开发者的开源框架,旨在简化基于大型语言模型的应用程序开发。它由 Harrison Chase 于 2022 年 10 月发起,迅速成为 GitHub 上增长最快的开源项目之一。
2025-11-22 16:31:12
898
原创 揭秘!座舱Agent如何“伸出”屏幕,控制座椅、空调、灯光?背后架构太硬核!
《2025年座舱Agent工程化研究报告》从座舱Agent的现状出发,总结了研发、工程阶段的技术路线与头部主机厂Agent产品特点,并探讨座舱Agent的未来趋势、落地重点等。
2025-11-22 16:26:22
496
原创 万字长文!深度拆解Agent记忆管理,九大技术从原理到实战,架构图全公开!
其技术原理核心在于:借助自然语言处理(NLP)解析文本语义内涵,精准提取关键信息;再结合计算机视觉(CV)技术生成匹配的视频帧,同时通过生成对抗网络(GAN)或扩散模型(Diffusion Models)保障生成视频的连贯性与视觉真实性。
2025-11-21 17:41:04
925
原创 LinearRAG原理剖析:它凭什么敢说“零Token”部署?深度对比GraphRAG,架构图全公开!
我们分析发现,这种性能下降主要源于**自动构建的知识图谱质量不佳**。虽然基于图的检索提高了相关知识的召回率,但由于图构建中的错误,它同时在检索的上下文中引入了大量噪声和歧义。
2025-11-21 17:23:09
503
原创 别让“答非所问”毁了你的RAG!jina-reranker-v3上手指南,3步提升搜索质量!
jina-reranker-v3 是一个参数量达 0.6B 的多语言文档重排器,引入了一种新颖的“后发先至”的交互架构。与 ColBERT 采用多向量匹配的单独编码不同,该模型在同一上下文窗口内对查询和文档执行因果自注意力机制,从而在从每个文档的最后一个标记提取上下文嵌入之前实现丰富的跨文档交互。
2025-11-21 17:22:29
556
原创 (建议收藏)从提示工程到上下文工程:万字长文,彻底搞懂效率提升10倍的底层逻辑!
上下文工程不仅仅是提示工程的升级版,而是代表了AI系统构建方式的**架构转变**——从"如何向AI提问"转向"如何为AI构建完整的操作环境"。
2025-11-21 17:21:03
548
原创 想拿高薪Offer?先搞懂AI与Web的交互!从Playwright到多模态Agent,构建企业级智能自动化体系。
昨天flowith刚发布了他们的浏览器Agent,这个方向已经出了好几款产品了,Dia、Comet、atlas等。今年早些时候也在研究这块,今天在这里分享一下这类Agent的底层实现原理。
2025-11-21 17:19:28
627
原创 从“能用”到“好用”!LangChain 1.0 Middleware,让AI智能体开发从“玄学”变“科学”!
LangChain 1.0的Agent框架引入了中间件(Middleware)机制,作为增强智能体可扩展性和管理性的关键组件。这一入门文章将详细阐述中间件的概念、工作原理、内置支持、自定义开发以及最佳实践。无论你是初学者还是经验开发者,本文都能帮助你快速上手中间件,构建更健壮的Agent系统。
2025-11-21 17:18:32
903
原创 别再卷CRUD了!Java+AI构建企业级多模态总结系统,这才是程序员的终极出路!
在AI技术蓬勃发展的今天,Java凭借其强大的生态系统和稳定性,正在AI应用开发中扮演着越来越重要的角色。
2025-11-21 17:17:45
1006
原创 年薪百万的AI架构师都在用!这套LLM的GPU系统工程方法论,才是真正的技术壁垒!
编者按:我们今天为大家带来的文章,作者的观点是:GPU 工程的核心不在于手写内核的能力,而在于构建系统设计思维 —— 理解从模型定义到硬件层的完整技术栈如何协同工作。
2025-11-21 17:16:50
605
原创 (建议收藏)AI Agent性能革命!代码执行模式为何能取代纯Token交互?万字长文+架构图!
AI Agent 的强大之处,在于它们能够像人类一样使用工具来与外部世界交互,完成复杂任务。从预订机票到分析财务报表,Agent 的能力边界很大程度上由其“工具箱”的丰富程度决定。为了统一 Agent 与工具之间的“语言”,模型上下文协议(MCP) 应运而生,成为了连接 Agent 与外部世界的通用标准。
2025-11-21 17:14:44
1002
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅