易寻fly-优快云博客

原创大模型架构对比：从DeepSeek-V3 到 Kimi K2

自最初的 GPT 架构开发以来，已经过去了七年。乍一看，回顾 GPT-2（2019 年），展望 DeepSeek-V3 和 Llama 4（2024-2025 年），人们可能会惊讶于这些模型在结构上仍然如此相似。当然，位置嵌入已经从绝对嵌入演进到旋转嵌入（RoPE），MHA机制已基本被GQA 所取代，而更高效的 SwiGLU 也取代了 GELU 等激活函数。但在这些细微的改进背后，我们是否真正看到了突破性的变化，还是仅仅在打磨相同的架构基础？

2025-07-22 10:57:15 1749

翻译图解专家混合模型（MoE）

为了探索专家代表什么以及他们如何工作的，让我们首先考察专家混合模型（MoE）所替代的对象：密集层 (Dense Layers)。路由（或门控网络）也是一个FFNN，用于根据特定输入选择专家。它输出概率值，用这些概率值来选择最匹配的专家：专家层返回所选专家的输出乘以门控值（选择概率）。Router与Expeter（其中只选择少数）共同构成了MoE层给定的MoE层有两种形式，要么是稀疏的专家混合，要么是密集的专家混合。

2025-03-21 17:54:57 388

翻译数据科学中的9种距离测量

本文翻译Maarten的许多算法，无论是有监督的还是无监督的，都使用。这些度量，例如欧几里得距离或余弦相似度，通常可以在 k-NN、UMAP、HDBSCAN 等算法中找到。了解距离测量的范围比您意识到的要重要得多。以 k-NN 为例，这是一种通常用于监督学习的技术。默认情况下，它通常使用https://img-home.csdnimg.cn/images/20230724024159.png?就其本身而言，这是一个很大的距离测量。但是，如果您的数据是高度维度的，该怎么办？那么欧式距离仍然有效吗？

2025-03-20 16:06:32 170

原创论文阅读系列-2024-11-04

论文的主要目标是在显著减少内存占用的同时，复制Adam的性能和理论保证。具体来说，论文关注于优化器状态的内存成本，即在自适应优化过程中所需的额外的一阶和二阶梯度统计量，对于基线算法Adam来说，其大小可达模型大小的两倍。对于光滑的非凸目标，LDAdam可以保持AMSGrad（Adam的可证明收敛版本）的渐近收敛速率，并且在满足Polyak-Łojasiewicz条件的目标上展示了更快的速率。：通过在BB任务和预训练的LLMs上的实验，作者验证了理论分析的预测，并展示了提出的策略可以有效减轻极端标记现象。

2024-11-04 16:19:31 1139 1

原创华为Atlas Duo 300I DUO推理卡部署LLM推理服务

本文是在Atlas Duo 300I 推理卡上部署LLM推理服务的一次尝试，完整的安装文档参考。安装过程中遇到问题可以在社区提问，目前该推理卡对新模型的支持不是太好，且实测下来性能不及3090（吐槽：显存虚报，标记48GB实际只有44GB；算力140TFLOAPS，但推理速度只有3090的1/3）。如果用于大模型训练或推理，直接使用910。安装的流程为：step1：安装驱动和固件step2：安装cannstep3：安装mindIE由于物理安装比较麻烦，官方提供了。

2024-10-29 15:19:50 16896 13

原创文本向量化推理框架（TEI）使用说明

(TEI)是Huggingface发布的一个用于部署和服务开源Text Embedding、Sequence Classification 和 Re-Ranking模型的工具包。相较于原生Transformers它可显著提升推理速度，并便于部署为推理服务。

2024-09-06 16:09:03 4530 1

翻译【GPT4技术揭秘】GPT-4 Architecture,Infrastructure,Training Dataset,Costs,Vision,MoE

在开始之前，作为一个旁观者，我们想指出的是，我们接触过的每一家LLM公司都认为Nvidia的FasterTransformer推理库非常糟糕，而TensorRT甚至更糟由于无法使用Nvidia的模板并对其进行修改，这意味着人们需要从头开始创建自己的解决方案。如果Drafi模型的预测是正确的_-较大的模型也同意--那么就可以用一个批次解码多个token，这就为每个token节省了大量的内存带宽，从而节省了时间。许多人认为内存容量是LLM推理的主要瓶颈，因为模型的大小可以容纳在许多芯片上，但这是不正确的。

2023-07-12 17:56:34 3397

原创 NLP中Tokenizers总结（BPE、WordPiece、Unigram和SentencePiece）

本文详细介绍了NLP中常用的Tokenizer

2022-08-29 20:36:23 9112 2

原创 pyhanlp安装文档

HanLP 是由一系列模型与算法组成的 Java 工具包，目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。Pyhanlp (Python interfaces for HanLP)是HanLP的python接口，支持自动下载与升级HanLP，兼容py2、py3。本教程相关环境：Python3.6.5 Java 1.8 Win10系统64位 Anaconda3-5.2.0-Windows-x86_64安装流程1.安装 ja.

2021-09-18 17:42:55 475

转载项目实战：如何构建知识图谱

实践了下怎么建一个简单的知识图谱，两个版本，一个从 0 开始（start from scratch），一个在 CN-DBpedia 基础上补充，把 MySQL，PostgreSQL，Neo4j 数据库都尝试了下。自己跌跌撞撞摸索可能踩坑了都不知道，欢迎讨论。1. CN-DBpedia 构建流程知识库可以分为两种类型，一种是以 Freebase，Yago2 为代表的 Curated KBs，主要从维基百科和 WordNet 等知识库中抽取大量的实体及实体关系，像是一种结构化的维基百科。另一种是...

2021-09-02 18:07:11 2067 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_37447415的博客