自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (3)
  • 收藏
  • 关注

翻译 图解专家混合模型(MoE)

为了探索专家代表什么以及他们如何工作的,让我们首先考察专家混合模型(MoE)所替代的对象:密集层 (Dense Layers)。路由(或门控网络)也是一个FFNN,用于根据特定输入选择专家。它输出概率值,用这些概率值来选择最匹配的专家:专家层返回所选专家的输出乘以门控值(选择概率)。Router与Expeter(其中只选择少数)共同构成了MoE层给定的MoE层有两种形式,要么是稀疏的专家混合,要么是密集的专家混合。

2025-03-21 17:54:57 15

翻译 数据科学中的9种距离测量

本文翻译Maarten的许多算法,无论是有监督的还是无监督的,都使用。这些度量,例如欧几里得距离或余弦相似度,通常可以在 k-NN、UMAP、HDBSCAN 等算法中找到。了解距离测量的范围比您意识到的要重要得多。以 k-NN 为例,这是一种通常用于监督学习的技术。默认情况下,它通常使用https://img-home.csdnimg.cn/images/20230724024159.png?就其本身而言,这是一个很大的距离测量。但是,如果您的数据是高度维度的,该怎么办?那么欧式距离仍然有效吗?

2025-03-20 16:06:32 26

原创 论文阅读系列-2024-11-04

论文的主要目标是在显著减少内存占用的同时,复制Adam的性能和理论保证。具体来说,论文关注于优化器状态的内存成本,即在自适应优化过程中所需的额外的一阶和二阶梯度统计量,对于基线算法Adam来说,其大小可达模型大小的两倍。对于光滑的非凸目标,LDAdam可以保持AMSGrad(Adam的可证明收敛版本)的渐近收敛速率,并且在满足Polyak-Łojasiewicz条件的目标上展示了更快的速率。:通过在BB任务和预训练的LLMs上的实验,作者验证了理论分析的预测,并展示了提出的策略可以有效减轻极端标记现象。

2024-11-04 16:19:31 994 1

原创 华为Atlas Duo 300I DUO推理卡 部署LLM推理服务

本文是在Atlas Duo 300I 推理卡上部署LLM推理服务的一次尝试,完整的安装文档参考。安装过程中遇到问题可以在社区提问,目前该推理卡对新模型的支持不是太好,且实测下来性能不及3090(吐槽:显存虚报,标记48GB实际只有44GB;算力140TFLOAPS,但推理速度只有3090的1/3)。如果用于大模型训练或推理,直接使用910。安装的流程为:step1:安装驱动和固件step2:安装cannstep3:安装mindIE由于物理安装比较麻烦,官方提供了。

2024-10-29 15:19:50 8248 6

原创 文本向量化推理框架(TEI)使用说明

(TEI)是Huggingface发布的一个用于部署和服务开源Text Embedding、Sequence Classification 和 Re-Ranking模型的工具包。相较于原生Transformers它可显著提升推理速度,并便于部署为推理服务。

2024-09-06 16:09:03 2783 1

翻译 【GPT4技术揭秘】GPT-4 Architecture,Infrastructure,Training Dataset,Costs,Vision,MoE

在开始之前,作为一个旁观者,我们想指出的是,我们接触过的每一家LLM公司都认为Nvidia的FasterTransformer推理库非常糟糕,而TensorRT甚至更糟由于无法使用Nvidia的模板并对其进行修改,这意味着人们需要从头开始创建自己的解决方案。如果Drafi模型的预测是正确的_-较大的模型也同意--那么就可以用一个批次解码多个token,这就为每个token节省了大量的内存带宽,从而节省了时间。许多人认为内存容量是LLM推理的主要瓶颈,因为模型的大小可以容纳在许多芯片上,但这是不正确的。

2023-07-12 17:56:34 2680

原创 NLP中Tokenizers总结(BPE、WordPiece、Unigram和SentencePiece)

本文详细介绍了NLP中常用的Tokenizer

2022-08-29 20:36:23 7853 2

原创 pyhanlp安装文档

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。Pyhanlp (Python interfaces for HanLP)是HanLP的python接口,支持自动下载与升级HanLP,兼容py2、py3。本教程相关环境:Python3.6.5 Java 1.8 Win10系统64位 Anaconda3-5.2.0-Windows-x86_64安装流程1.安装 ja.

2021-09-18 17:42:55 412

转载 项目实战:如何构建知识图谱

实践了下怎么建一个简单的知识图谱,两个版本,一个从 0 开始(start from scratch),一个在 CN-DBpedia 基础上补充,把 MySQL,PostgreSQL,Neo4j 数据库都尝试了下。自己跌跌撞撞摸索可能踩坑了都不知道,欢迎讨论。1. CN-DBpedia 构建流程知识库可以分为两种类型,一种是以 Freebase,Yago2 为代表的 Curated KBs,主要从维基百科和 WordNet 等知识库中抽取大量的实体及实体关系,像是一种结构化的维基百科。另一种是...

2021-09-02 18:07:11 1975 3

windows下安装Pyhanlp详细教程及相关问题解决

本文档包含了在windows系统下安装PYhanlp的详细步骤,以及在安装过程中遇到的相关问题的解决方案。

2019-05-07

数据挖掘之不均衡建模问题

在实际情况中我们常常需要在数据分布不均衡的情况下进行建模分析,本文总结了常见的针对数据不平衡问题建模的方法。

2018-05-04

数据不均衡问题经典文献《Learning from Imbalanced Data》

数据不平衡是指在数据集中,一类(或多类)样本特别多而另一类(或多类)样本特别少。这种问题广泛存在于金融欺诈、医学检测、网络入侵等场景中。

2017-12-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除