自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_43833206的博客

原创 deep research|从搜索引擎到搜索助手的实践（一）

这篇文章介绍了如何基于HuggingFace团队开源的DeepResearch实现方案进行本地化改造，构建一个网页内容搜索总结助手。

2025-08-03 14:11:48 1212

原创 mcp协议|从0构建第一个mcp server

本文介绍了如何通过MCP协议将大模型与外部工具解耦，实现工具、prompt以及resource调用的标准化流程。MCP协议由Anthropic公司提出，给出了工具、提示词和资源相对于具有ai驱动的host的统一抽象方式。

2025-07-24 11:08:39 1172

原创 deepseek模型技术解读|混合专家模型MoE与负载均衡

DeepSeek-R1大语言模型采用混合专家(MoE)架构替代传统稠密模型中的FFN层，MoE通过Router层动态选择每个token的Top8专家进行加权计算，同时引入共享专家确保基础能力。为解决负载均衡问题，DeepSeek创新性地采用动态偏置调整机制，实现自适应的负载均衡。

2025-07-08 22:53:04 1062 1

原创模型结构|解读transformer模型中三种attention和mask(一)

解读transformer模型中encoder和decoder的self-attention的区别

2024-12-19 22:46:58 3115

原创介绍llama2|带有SwiGlu的FeedForward

从理论和源码的角度分析了llama2中带有SwiGlu的MLP层

2024-11-28 11:55:38 1218

原创 nlp实战|训练bert实现多标签文本分类

训练bert实现识别文本的多标签

2024-11-13 22:24:30 1464

原创搜推广|elasticsearch 8.x 如何安装Hanlp插件

实现从源码打包出可以适配elasticsearch8.X版本的hanlp插件。

2024-11-12 17:28:43 1334

原创介绍llama2|debug源码解读旋转位置编码RoPE(二)

从理论和代码的角度剖析llama旋转位置编码

2024-10-31 22:24:45 1031

原创基本功|解读大模型预训练时的损失函数

图片+代码理解大模型预训练时候的损失函数

2024-10-23 09:29:53 1333

原创基本功|解读大模型预训练时候的损失函数

深入理解大模型预训练时候的损失函数

2024-10-23 00:38:03 4703

原创介绍llama2|数学之美与旋转位置编码RoPE（一）

快速理解旋转位置编码的意义和原理

2024-10-13 22:40:35 1375 1

原创介绍llama2|理解group query attention(GQA)

多角度分析llama模型的group query attention

2024-09-29 00:00:25 2611

原创大模型微调｜根据低秩近似理解lora（二）

为何低秩适配行之有效？它行之有效的数学原理是什么呢?

2024-09-21 13:47:22 1758

原创概念|如何根据大模型api服务定价推测云厂商让利程度？

本文从计算量、存储以及gpu的特性解释了为什么模型推理的每个token的价格要比prompt中每个token的价格更贵

2024-09-11 00:19:32 1155

原创概念|FLOPs、FLOPS还是MACs？

如何区分FLOPs、FLOPS还是MACs？

2024-09-06 00:57:10 2160

原创大模型微调｜从原理到实践之lora(一)

lora原理

2024-08-27 00:07:56 1611

原创关于大模型落地的二三事

其中以固定的知识微调行业大模型为基础，在不同场景下，已有积累的问答对直接检索，需要动态更新的非结构化数据打向量数据库+rag的组合拳，针对各种数据库、结构化数据做text2sql、text2code，针对api用自然语言调api，如果还想更智能就用大模型当决策大脑把这些与能与外部交互的工具组成agent，这下智能客服、智慧XX可以先吹一波，最后为行业赋能吸引企业长期付费（少不了后续的持续优化）。当然以上无论是增量预训练、微调、偏好对齐还是rag工程优化都是有多少人工才有多少智能，高质量的数据才是核心资产。

2024-07-24 22:33:08 317

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除