自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

源泉的小广场

专注大模型技术

  • 博客(166)
  • 收藏
  • 关注

原创 【大模型实战篇】从Python函数到MCP服务器:完整转换示例

大模型、mcp、智能体、mcp服务、mcp server开发、mcp 服务开发、mcp 函数封装、mcp协议转换、mcp协议、python转mcp server

2025-10-09 15:23:48 600

原创 【大模型理论篇】MCP协议中sse、stdio、streamable_http含义

大模型、智能体、mcp协议、mcp、model context protocol、stdio、streamable_http、sse、mcp_protocol

2025-10-09 15:01:52 1302

原创 【大模型实战篇】在agentscope中实现对小红书的操作

mcp、agentscope、智能体、小红书mcp、小红书智能体、多智能体框架、xiaohongshu-mcp、mcp工具调用、工具调用、大模型

2025-10-08 07:39:43 618

原创 【大模型实战篇】基于xiaohongshu-mcp实现对话模式的小红书笔记操作

mcp server、mcp、xiaohongshu-mcp、小红书、自动发布文章、cherry studio、大模型、对话操作小红书、工具调用

2025-10-07 20:19:27 947

原创 【大模型实战篇】AgentScope引入Sequential thinking mcp server实现顺序思考的React Agent

agentscope、agent scope studio、智能体框架、工具调用、mcp server、sequential thinking mcp server、顺序思考、任务规划、智能体、agent、react agent、meta planner agent

2025-10-07 00:07:06 1477

原创 【大模型实战篇】AgentScope之任务规划PlanNotebook 解析

agentscope、智能体架构、规划模块、planning、plan notebook、智能体、任务规划、代码解析、状态机

2025-09-30 12:20:40 1046

原创 【大模型理论篇】AI原生应用的关键要素之上下文工程

context engineering、上下文工程、AI原生架构、提示词工程、检索增强生成、记忆系统、长短期记忆、工作流编排、上下文工程与提示词工程区别、上下文管理、上下文腐败、窗口有效性

2025-09-29 17:16:35 887

原创 【大模型理论篇】AI原生应用的关键要素之架构

AI原生架构、大模型、智能体、Agents、智能体架构、Agents架构、React、Plan-Execute、Cot、Self-Ask、ToT、Reflextion、Role-Playing

2025-09-29 14:08:17 807

原创 【大模型理论篇】用于时间序列预测的纯解码器基础模型TimesFM-2.5

时间序列、timesfm、timesfm2.5、大模型、因果transformer架构、时间序列预测、零样本

2025-09-25 13:46:43 755

原创 【数据保护】A Secure and Efficient Method of Fully Anonymous Vertical Federated Learning一种安全高效的全匿踪纵向联邦学习方法

隐私计算、数据保护、数据安全、全匿踪联邦学习、联邦学习、全流程加密、AnonymFL、企业级安全

2025-09-25 13:06:57 776

原创 【大模型理论篇】CogGuide:类人式引导的零样本全模态推理

cogguide、类人推理、零样本、全模态、全模态推理、意图草图、大模型、千问、glm、NoDesk AI、浙江大学

2025-09-25 11:25:24 786

原创 【大模型实战篇】基于开源视觉大模型封装多模态信息提取工具

大模型、多模态、视觉模型、qwen-vl-2.5、glm-4v、openai

2025-08-26 20:22:05 472

原创 【大模型实战篇】部署GPT-OSS-120B踩得坑(vllm / ollama等推理框架)

gpt-oss-120b、gpt-oss-20b、部署踩坑、vllm部署、ollama部署、部署问题、flashattention3、mxfp4、gpt、gpt-oss、推理模型

2025-08-08 18:59:39 1813 6

原创 【大模型系列】gpt-oss系列模型初探

gpt、gpt-oss、gpt-oss-120b、gpt-oss-20b,moe架构

2025-08-06 13:35:53 1793

原创 【大模型理论篇】上下文腐烂:增加输入Token对LLM性能的影响分析

大型语言模型(LLM)、长上下文处理能力、系统性缺陷、Chroma Research、针-干草堆、干草堆结构、LongMemEval、关键信息、上下文腐烂现象、输入长度增加、非线性下降

2025-08-01 11:35:31 937

原创 【大模型理论篇】跨语言AdaCOT

多语言、语言优势、多语言思维链、混合思考、语料差异、长短思考、语言质量、自适应思维链

2025-07-31 23:54:00 891

原创 【大模型理论篇】混合思考之自适应思维链

大模型、混合思考、帕累托优化、强化学习、长短思考、推理模型、思维链、奖励函数

2025-07-31 23:38:11 1486 2

原创 【大模型实战篇】BGE-Rerank-base重排服务部署教程

BGE-reranker-base、reranker、rerank、服务部署、docker、重排服务、相似度计算、GPU

2025-05-27 11:36:06 1458

原创 【大模型实战篇】使用megatron微调模型

大模型训练、模型微调、megatron

2025-05-05 00:27:51 1162

原创 【大模型实战篇】对Qwen3提到的thinking和no thinking混合思考模式的讨论

大模型、qwen3、推理模型、混合思考、思考模式、不思考模式、thinking、no thinking、mcp、强化学习、模型蒸馏、moe架构

2025-05-02 10:27:22 8036

原创 【大模型实战篇】华为信创环境采用vllm部署QwQ-32B模型

华为、信创、qwq-32b、昇腾、鲲鹏、vllm、vllm-ascend、ascend、模型推理、模型部署

2025-05-01 09:47:08 2928 5

原创 【大模型实战篇】解决QwQ-32B推理模型输出结果不带<think>的问题

<think>丢失、<think>标签、qwq32b、推理模型、think缺失、vllm、推理模型部署、推理结果格式、qwq模型、

2025-04-23 20:56:18 1276

原创 【大模型理论篇】DeepResearcher论文分析-通过在真实环境中的强化学习实现深度研究

大模型、深度推理、deep researcher、强化学习、深度检索、智能体、自主规划、深度研究、deep research

2025-04-11 23:50:34 1349

原创 【大模型理论篇】Search-R1: 通过强化学习训练LLM推理与利⽤搜索引擎

大模型、深度研究、deep research、深度检索、deep search、深度搜索、强化学习、深度检索增强、R1、search-R1

2025-04-11 15:39:39 1723

原创 【大模型智能体】Agent2Agent协议加上MCP协议也许会成为未来Agent智能体系统的标配

大模型、智能体、智能体与智能体协作、agent2agent、agent、mcp、智能体协作

2025-04-10 20:55:51 1360 2

原创 【大模型理论篇】关于生成式模型中联合分布概率学习必要性以及GPT是生成式模型的讨论

大模型、生成模型、生成式模型、判别式、判别模型、判别式模型、监督生成式、无监督生成式、gpt、llama、大模型、大模型生成式模型

2025-04-09 10:26:57 1152

原创 【大模型理论篇】SWIFT: 可扩展轻量级的大模型微调基础设施

大模型、多模态、微调框架、训练框架、后处理框架、评估、多模态训练、swift、msswift

2025-04-08 23:58:31 1578

原创 【大模型智能体】构建AI智能体的关键要点分享(To B场景)

智能体、大模型、agent、to b智能体、智能体经验、智能体踩过的坑、智能体构建准则、智能体构建关键要点

2025-04-07 08:03:22 1490

原创 【AI产品分享】面向图片的原始位置翻译功能

文档处理、版面分析、图片翻译、原图处理、多模态

2025-04-02 21:37:14 354

原创 【算法工程】文档解析中的特殊表格检测方法

表格识别、文档识别、文档解析、特殊表格识别、yolo、LCNet、DBNet

2025-03-30 00:54:00 504

原创 【算法工程】RAG:针对linux下文档解析出现乱码问题的解决

RAG、文档解析、文档字体、乱码、linux、office文件、文件处理

2025-03-26 12:33:34 547

原创 【大模型实战篇】基于Claude MCP协议的智能体落地示例

大模型、智能体、agent、ai agent、mcp、工具使用、tools、manus、open manus、mcp示例、mcp解决的问题

2025-03-25 08:52:24 11653 3

原创 【算法工程】大模型开发之windows环境的各种安装

windows、ubuntu、linux、wsl、大模型开发、算法开发、环境安装、备份记录

2025-03-22 21:22:22 1239 4

原创 【大模型理论篇】CogVLM:多模态预训练语言模型

大模型、多模态模型、多模态视觉模型、cogvlm、vision llm、视觉理解、视觉问答、视觉语言预训练模型

2025-03-21 11:43:15 1528

原创 【大模型&算法工程】大模型应用工具化、忠诚度以及知识库场景下PDF双栏解析问题的讨论

大模型、知识库、RAG、解析工具、解析引擎、pdf双栏解析、pdf解析、AI工具化、忠诚度、产品打磨、AI生态建设、大模型应用场景、大模型能力边界

2025-03-21 10:20:50 1376

原创 【大模型理论篇】Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought 论文解读

多模态、多模态推理、vlm、vision llm、cogvlm、r1v、推理模型、大模型、自适应推理链

2025-03-20 10:46:58 1497

原创 【大模型实战篇】多模态推理模型Skywork-R1V

大模型、多模态、多模态推理模型、多模态强化推理、r1、r1-v、r1-vision、强化推理、vit、deepseek、qwq-32b

2025-03-19 23:36:35 1571

原创 【算法工程】调整minio中资源可以url链接进行访问

minio、oss、url访问、url资源、资源地址、资源定位符、minio client、mc

2025-03-19 14:49:25 633

原创 【大模型理论篇】R1-Searcher:通过强化学习激励llm的搜索能⼒

强化学习、强化推理、强化rag、强化搜索推理、rag、r1-searcher、大模型搜索能力、强化学习、r1、强化学习++、grpo

2025-03-18 20:45:59 1314

原创 【算法工程】vllm突然报错No platform detected, vLLM is running on UnspecifiedPlatform

大模型启动、大模型vllm部署、vllm检测不到设备、启动报错、部署报错

2025-03-18 17:21:30 3304

大模型预训练相关知识分享

在大模型的预训练中,数据准备与清洗是首要步骤,直接影响模型的性能和泛化能力。数据的收集应覆盖尽可能广泛的领域,确保多样性和代表性。清洗过程包括去重、去噪声、格式规范化和敏感信息过滤等,以保证数据质量。此外,还要进行数据标注,特别是当指令微调涉及到特定任务时,数据标签的准确性至关重要。 模型选择方面,不同的任务需要不同的模型架构。主流大模型架构有Encoder-Decoder、Causal Decoder和Prefix Decoder等。Encoder-Decoder适用于输入输出都需要理解的任务,如翻译;Causal Decoder主要用于文本生成;Prefix Decoder则在要求高效推理的场景中更具优势。每种架构的选择需要结合任务需求、资源情况及模型性能表现来综合考量。 在模型结构上,层数、隐藏单元、注意力头数等配置需谨慎调节。更深的层数和更多的隐藏单元可以提升模型能力,但也会增加训练时间和计算资源需求。针对大模型,诸如Flash Attention和Paged Attention等优化技术可以显著提升训练效率。 参数配置方面,包括学习率、批次大小、权重衰减等的设定,对训练

2024-08-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除