AI大模型技术
文章平均质量分 91
大模型(预训练模型、基础模型等)是“大算力+ 强算法”结合的产物。大模型通常在大规模无标注数据上进行训练,以学习某种特征。在大模型进行开发应用时,将大模型进行微调,如对某些下游任务进行小规模标注数据的二次训练或不进行微调就可以完成。
常耀斌
AI科学家,清华大学出版社发行《大数据架构之道和项目实战》《AI赋能企业数字化转型》《深度学习和大模型实战》
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek:技术洞察与解析(深度好文)
DeepSeek不仅是技术创新的代表,更是AI普惠化的里程碑。它通过低成本、高效率和场景化应用,重新定义了人机协作的边界,成为推动社会进步的重要引擎。原创 2025-02-07 09:09:29 · 2845 阅读 · 0 评论
-
AI技术洞察:从函数到Transformer革命(深度好文)
Transformer 以 “注意力机制为核心” 的创新架构,打破了传统 RNN/CNN 在 NLP 领域的垄断,通过并行计算、长距离依赖捕捉、泛化能力强三大核心优势,重塑了人工智能行业的技术格局。原创 2026-01-02 13:46:58 · 498 阅读 · 0 评论 -
深度讲解智能体:ReACT Agent
通过将推理与行动紧密结合,ReACT Agent 让大语言模型能交替生成推理轨迹(Thought)与特定任务行动(Action),开启了两者协同工作的新模式。MCP 服务器提供具体功能服务,包括暴露资源、提示模板和工具等能力。工作时,主机中的大模型通过客户端向服务器发送请求,服务器依据请求返回相应结果。原创 2025-08-27 11:25:35 · 1463 阅读 · 0 评论 -
DeerFlow实践:华为LTC流程的评审智能体设计
LTC智能体平台设计:通过 4 个评审智能体与软件项目研发管理知识库的深度结合,实现 LTC 流程中软件项目评审的自动化(减少人工重复工作)、标准化(统一评审依据)、知识化(沉淀与复用历史经验),保障软件项目从线索到现金的全流程商业成功,提升评审效率与决策质量。原创 2025-09-13 23:03:11 · 1309 阅读 · 0 评论 -
DeerFlow实践:基于数据安全的审核智能体
DeerFlow:数据安全知识库的核心是 “多源知识整合 + 标准化存储 + 便捷检索”,数据安全审核报告的核心是 “需求拆解→知识匹配→风险分析→结论生成”。原创 2025-09-12 09:15:55 · 971 阅读 · 0 评论 -
DeerFlow实践: 日程管理智能体应用框架设计
依托 Deer 框架的 “流程引擎 + 规则引擎 + 知识图谱” 核心能力,构建 “三大智能体 + 共享日程中台 + 冲突策模块” 的架构体系:原创 2025-09-14 13:19:17 · 970 阅读 · 0 评论 -
字节DeerFlow:核心知识总结
作为基于 LangChain 和 LangGraph 构建的多智能体协作系统,DeerFlow 通过专业化智能体分工与可视化工作流编排,将原本需要数天完成的复杂研究任务压缩至分钟级,成为连接大模型能力与专业领域需求的核心枢纽。原创 2025-09-11 21:39:14 · 1048 阅读 · 0 评论 -
DeerFlow 实践:华为IPD流程的评审智能体设计
基于 DeerFlow 架构的 IPD 项目管理智能体应用平台,通过整合智能工作流、评审智能体协作与项目管理知识库,实现了 IPD 流程评审的自动化、智能化与知识化管理。该平台能有效提升产品研发效率与质量,促进知识沉淀与复用,为企业产品创新与市场竞争提供有力的研发管理支撑,随着系统持续运行与优化,将不断提升研发管理精细化水平。原创 2025-09-13 21:27:41 · 1319 阅读 · 0 评论 -
DeerFlow实践:华为ITR流程的评审智能体设计
通过 4 个评审智能体基于 DeerFlow 框架与软件问题管理知识库的协同工作,可实现 ITR 流程中问题评审的自动化高效处理,提升问题定位准确性与处理效率,降低人为失误,同时促进知识沉淀与复用,持续优化产品与服务质量,提高客户满意度。原创 2025-09-13 23:22:03 · 1040 阅读 · 0 评论 -
DeerFlow 与 MCP 区别深度解析
“如何高效落地场景化需求” 与 “如何实现多系统协同” 成为两大核心痛点。在这一背景下,DeerFlow 与 MCP(Model Context Protocol)应运而生 —— 前者聚焦 “端到端研究自动化”,通过多智能体协作解决特定场景(如医保政策分析、学术研究)的完整流程落地;后者聚焦 “跨系统通信标准化”,通过统一协议打破 AI 模型与外部工具、数据源的交互壁垒。原创 2025-09-12 08:54:29 · 1252 阅读 · 0 评论 -
深入洞察:AI技术突破及应用成熟评估方法
四大维度的层层拆解,实现了从战略到执行、从技术到业务、从过程到结果的全链路 AI 应用成熟度评估,为企业或组织量化 AI 应用价值、识别改进方向提供了专业且系统的方法论。原创 2025-11-01 17:08:28 · 1136 阅读 · 0 评论 -
对比:字节DeerFlow与阿里DeepResearch
DeerFlow更像一个功能强大、配置灵活的“自动化研究流水线工厂”,致力于让构建AI研究助手变得更容易;而DeepResearch则像一个经过严格专业训练的“AI研究员”。原创 2025-12-20 13:16:52 · 1128 阅读 · 0 评论 -
对比:Qwen-VL与传统的CNN在图像处理应用
CNN是专精于视觉特征提取的专家,而千问VL是具备视觉理解能力的通用多模态智能体。原创 2025-12-20 15:26:27 · 1039 阅读 · 0 评论 -
深入洞察:DeepSeek-OCR
DeepSeek-OCR 通过光学压缩范式重新定义了文本处理的效率边界,其技术突破不仅体现在 OCR 领域,更为大模型长上下文处理、多模态智能体等前沿方向提供了新的解决方案。随着开源生态的完善和硬件适配的深入,这一技术有望在智能办公、数字孪生等场景实现规模化落地,推动 AI 从 “感知智能” 向 “认知智能” 跨越。原创 2025-10-23 11:59:30 · 1124 阅读 · 0 评论 -
解析:One-API 与 New-API 核心原理
One-API更像一个精巧的“转换插头”,解决的是让不同形状的接口(各种大模型API)都能插到同一个插座(OpenAI标准)上的问题。而New-API在此基础上,建造了一个功能齐全的“智能配电箱”,不仅管理插头,还负责计费、监控每个插座的用电量、分配不同房间的电力额度,并支持更多种类的电器(多模态模型)。原创 2025-12-20 12:18:37 · 909 阅读 · 0 评论 -
深入洞察:昇腾 AI 生态的CANN/MindSpore架构
CANN 与 NPU、CUDA 与 GPU 的核心逻辑完全一致 —— 都是 “硬件提供算力,软件层做桥梁”,共同支撑异构计算任务;但由于生态定位(国产闭环 vs 通用开源)、场景目标(AI 专属 vs 通用计算)的差异,两类组合形成了各自的技术特性。原创 2025-11-01 17:51:40 · 1178 阅读 · 0 评论 -
洞察:MCP与Function Calling区别
Function Calling让大模型获得了“使用工具”的手,而MCP则为这只手建立了一个标准化、无限扩展的工具箱和操作手册。原创 2025-12-20 12:52:02 · 855 阅读 · 0 评论 -
洞察:阿里通义DeepResearch 技术
Tongyi DeepResearch 作为阿里巴巴通义实验室开源的“深度研究智能体”,其核心价值在于通过模拟人类研究员的认知过程,赋予大语言模型自主规划、深度检索与综合推理的能力。原创 2025-12-20 13:50:33 · 628 阅读 · 0 评论 -
深入洞察:大模型推理能力及MindIE引擎
MindIE 通过模块化架构设计、开源生态适配、深度社区贡献,构建了 “昇腾硬件 + 开源软件 + 开发者生态” 的协同体系,既为业界提供了昇腾推理的实践参考,又通过融入主流开源社区让昇腾算力能被更广泛的开发者使用,最终推动昇腾在大模型推理与多模态应用场景的规模化落地。原创 2025-11-01 17:23:20 · 1113 阅读 · 0 评论 -
深入洞察:大模型服务之MaaS平台
MaaS 的本质不是 “替代大模型技术”,而是 “通过服务化模式降低大模型的应用门槛,放大大模型的产业价值”。它通过 “封装技术复杂度、整合资源池、保障安全合规”,让大模型从 “少数科技巨头的技术资产” 转变为 “全行业可复用的公共服务”,是推动 “AI 普惠” 的关键。未来,随着技术标准化、成本优化、行业定制能力提升,MaaS 将成为企业数字化转型的 “标配工具”,支撑千行百业的 AI 原生创新。原创 2025-11-01 18:02:23 · 1108 阅读 · 0 评论 -
智能体之技术原理讲解
智能体有几个关键要素:它不仅进行感知,还像人脑一样进行推理和思维,进行规划,并采取行动,将事情落到实处,这便是简单智能体的概念。原创 2025-04-21 09:43:16 · 701 阅读 · 0 评论 -
RAGFlow与Dify的深度刨析
RAGFlow 是一个专注于深度文档理解和检索增强生成(RAG)技术的框架。它的核心优势在于结合了大规模检索系统和生成式模型(如 GPT 系列),能够从海量数据中快速定位相关信息,并生成符合上下文语义的自然语言回复。原创 2025-05-24 18:47:47 · 1622 阅读 · 0 评论 -
DeepSeek:核心技术详解(深度好文)
DeepSeek,是通用大模型企业,V3是通用模型,R1是推理模型,RAG是联网搜索;如何实现了技术创新和科技变革?原创 2025-02-22 21:39:15 · 2873 阅读 · 0 评论 -
深度讲解LLM:《2025 世界人工智能大会》谈AI未来
呼吁全球建立由各国人工智能安全研究所与国内研究网络组成的国际社群,培养不会从人类手中夺权的 “好AI”。已无法消除,它能大幅提升几乎所有行业的效率,即便有国家想消除,其他国家也不会认同。原创 2025-08-05 13:55:58 · 802 阅读 · 0 评论 -
深度讲解LLM:微调技术(一篇好文)
微调的本质是 **“迁移学习” 的实践 **:预训练模型(如 BERT、GPT、ResNet 等)已从海量数据中学习到通用特征(如语言规律、图像边缘特征),微调通过在特定任务数据上调整模型参数,让通用特征与任务特性结合,实现 “通用知识向专项能力” 的迁移。例如,在罕见病 “阵发性睡眠性血红蛋白尿症(PNH)” 识别任务中,研究人员用 50 例病例数据微调提示向量,使模型对 PNH 的鉴别准确率从基线的 62% 提升至 85%,且训练过程仅需 1 小时(相比全参数微调的 3 天)。原创 2025-08-24 13:17:57 · 1036 阅读 · 0 评论 -
深度讲解LLM:AI Agent(一篇好文)
AI 以战略为引领,融合数据与场景,正重塑各产业的生产力格局,成为数智革命的核心驱动力,为产业创新与高质量发展带来新机遇。原创 2025-08-03 17:28:22 · 894 阅读 · 0 评论 -
深度讲解LLM:RAG工作原理(一篇好文)
RAG 的核心价值,在于针对性解决 LLM 存在的知识局限、幻觉问题和数据安全三大痛点,显著增强模型性能。此外,RAG 无需复杂的模型微调流程,能够基于语义实现专有领域知识的快速动态更新,即在系统持续运行过程中,不更换模型,仅通过加载、更新或切换知识库,就能适配不同垂直领域的知识需求 。原创 2025-08-24 12:21:05 · 1037 阅读 · 0 评论 -
深度讲解LLM:Transformer架构(一篇好文)
Transformer优势:传统的循环神经网络(RNNs)和长短时记忆网络(LSTM)在处理长距离依赖关系时存在一些问题,而Transformer引入了自注意力机制来解决这些问题。自注意力机制允许模型在处理序列数据时关注输入序列中的不同位置,而不仅仅是当前位置。这使得Transformer能够并行处理输入序列,加速训练。原创 2025-08-23 12:17:26 · 1280 阅读 · 0 评论 -
AI大模型系列之十:卷积神经网络原理
CNN到底是怎么识别的?用CNN有哪些优势呢?我下面就来简单分析一下。为什么要用神经网络?对于同一个分类任务,我们可以用机器学习的算法来做,为什么要用神经网络呢?大家回顾一下,一个分类任务,我们在用机器学习算法来做时,首先要明确feature和label,然后把这个数据"灌"到算法里去训练,最后保存模型,再来预测分类的准确性。但是这就有个问题,即我们需要实现确定好特征,每一个特征即为一个维.........原创 2018-11-09 16:37:59 · 911 阅读 · 1 评论 -
常耀斌:深度学习和大模型原理与实战(深度好文)
深度神经网络通常需要对输入数据进行预处理和特征提取,以便网络能够更好地学习数据的表示。而在Transformer中,输入数据被转换为多头注意力机制的查询、键和值,这些查询、键和值可以被用来计算自注意力权重。原创 2024-12-18 13:00:02 · 1615 阅读 · 0 评论 -
数字化转型系列:业务中台和数据中台架构解析
目标:1.通过对行业中大型项目需求实例分析,掌握需求定义、捕获、分析与建模、需求 描述、需求验证理论和实践方法,能够有效地在软件生命周期中管理需求;2.应用有效的需求管理技术,生成清晰的产品需求;3.使用用例建模技术捕获并记录需求;4.建立文档分层结构和产品的不同层次需求的标准;5.使用属性和可追踪性,在整个生命周期内管理需求范围和变更;6.理解需求如何驱劢设计、测试和用户文档活劢;UML用例图用例:Actor参与者/User Case用例-功能/Relationship关系.原创 2020-09-30 13:22:15 · 2429 阅读 · 0 评论 -
AI如何赋能数字化转型?
《AI赋能企业数字化转型》通过经营、营销、运营、产品、技术和组织六大战略规划,集 20 个知名企业成功转型案例和 20多种最前沿的 AI 理念,以及作者在华为的 IPD 管理实战,全面阐述经营实践,提炼产品精髓,萃取数字要素,为企业管理者和数字化人员提供借鉴和参考,让战略支撑企业做正确的事,让流程支撑企业正确地做事。数字化转型可以提升企业的核心竞争力,是指对企业拥有的独特的、长期性的、强有力的资源和能力,使其能够在竞争激烈的市场中具有优势,并以此获得相对于竞争对手更好的市场地位、更高的利润和更多的客户。原创 2024-10-11 12:39:51 · 1547 阅读 · 2 评论 -
数字化转型系列:蓝图规划驱动项目落地
数字化转型定义:即通过新一代数字技术的深入运用,构建一个全感知、全链接、全场景、全智能的数字世界,进而优化再造物理世界的业务,对传统管理模式、业务模式、商业模式进行创新和重塑,最终实现业务成功。原创 2024-07-10 18:06:31 · 1745 阅读 · 1 评论 -
2024世界人工智能大会:谈AI如何落地?
2024 年世界人工智能大会暨人工智能全球治理高级别会议,非常火爆。第一天,19 场论坛、数百位 AI 圈最瞩目的学术界、产业界代表展开了密集的讨论。原创 2024-07-11 09:32:27 · 1113 阅读 · 0 评论 -
AI大模型系列之九:人脸识别技术
图像识别的过程总结如下:信息的获取:是通过传感器,将光或声音等信息转化为电信息。信息可以是二维的图象如文字,图象等;可以是一维的波形如声波,心电图,脑电图;也可以是物理量与逻辑值。 预处理:包括A\D,二值化,图象的平滑,变换,增强,恢复,滤波等, 主要指图象处理。 特征抽取和选择:在模式识别中,需要进行特征的抽取和选择,例如,一幅64x64的图象可以得到4096个数据,这种在测量空间的原...原创 2018-12-03 09:28:59 · 18703 阅读 · 1 评论 -
AI大模型系列之八:YoloV3的整体框架介绍
YOLOV到底做了什么?YOLO核心思想把目标检测转变成一个回归问题。将整个图像作为网络的输入,仅仅经过一个神经网络,得到边界框的位置及其所属的类别。原创 2022-05-13 16:37:57 · 2030 阅读 · 0 评论 -
AI大模型系列之七:Transformer架构讲解
Transformer模型设计之初,用于解决机器翻译问题,是完全基于注意力机制构建的编码器-解码器架构,编码器和解码器均由若干个具有相同结构的层叠加而成,每一层的参数不同。编码器主要负责将输入序列转化为一个定长的向量表示,解码器则将这个向量解码为输出序列。Transformer总体架构可分为四个部分:输入部分、编码器、解码器、输出部分。原创 2024-05-13 19:28:34 · 13278 阅读 · 1 评论 -
AI大模型系列之六:基于LLM的Agent架构图解
Agent是什么?Agent是一种能够自主决策、采取行动以达到某种目标的实体。AI Agent则被明确定义为:基于人工智能(尤其是大模型)技术,能够感知和理解环境,并采取行动以完成目标的智能实体。Agent能干什么?AI Agent 主要依托LLM模型和具体的业务场景来调用相应的工具来完成任务目标,智能化程度和行业贴合度会更明显。原创 2024-05-12 17:38:43 · 23638 阅读 · 1 评论 -
AI大模型系列之三:Swin Transformer 最强CV图解(深度好文)
SwinTransformer是一种为视觉领域设计的分层Transformer结构。它的两大特性是滑动窗口和分层表示。滑动窗口在局部不重叠的窗口中计算自注意力,并允许跨窗口连接。分层结构允许模型适配不同尺度的图片,并且计算复杂度与图像大小呈线性关系。Swin Transformer借鉴了CNN的分层结构,不仅能够做分类,还能够和CNN一样扩展到下游任务,用于计算机视觉任务的通用主干网络,可以用于图像分类、图像分割、目标检测等一系列视觉下游任务。原创 2024-03-30 21:24:57 · 22232 阅读 · 3 评论 -
AI大模型系列之五:BERT技术详解(深度好文)
BERT(Bidirectional Encoder Representations from Transformers)是由 Google 开发的一个预训练模型,通过无监督的学习方式,可以学习出一种通用的语言表征,即每个词汇的向量表示,这些向量表示可以应用到各种自然语言处理任务中,例如句子分类、命名实体识别、问答等任务。BERT 的主要贡献是提出了一种双向 Transformer 模型,可以通过对上下文的建模来更好地表示词汇。原创 2020-10-19 16:09:32 · 29684 阅读 · 2 评论
分享