- 博客(226)
- 收藏
- 关注
原创 Dataset.from_pandas 报错 pyarrow.lib.ArrowInvalid: (‘cannot mix struct and non-struct, non-null values
本文介绍 Dataset.from_pandas 报错 pyarrow.lib.ArrowInvalid: ('cannot mix struct and non-struct, non-null values', 'Conversion failed for column xxx with type object')
2025-03-28 16:53:07
249
原创 DeepSeek-R1是如何训练出来的?
此前,我们介绍了《DeepSeek R1 技术简要总结》,主要结合 DeepSeek R1 的技术报告来梳理了其中的大致流程,没有关注细节。现在我们来着重关注 R1 的训练细节,来看看 R1 究竟是如何一步一步训练出来的。
2025-03-28 16:52:23
953
原创 DeepSeek 训练提到的Auxiliary-Loss-Free Load Balancing是什么?
本文介绍DeekSeek 的MOE涉及到的Auxiliary-Loss-Free Load Balancing方法。
2025-02-18 15:07:36
1166
原创 FlashAttention1.0 论文及算法详解
本文介绍 FlashAttention 算法。FlashAttention 是一种用于提高 Transformer 模型中自注意力(self-attention)机制的计算效率和内存效率的算法。它通过减少高带宽内存(HBM)的读写次数来优化性能,特别是在处理长序列数据时。
2024-12-22 13:07:27
1215
原创 解决git push报错 fatal: Authentication failed for ‘https://github.com/...‘
本文介绍如何解决git push报错 fatal: Authentication failed for 'https://github.com/...'问题
2024-12-22 13:06:20
1297
原创 conda 报错 “Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接”
解决 conda 报错 “Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接”。
2024-11-30 18:39:25
1155
原创 BERT改进版对比:RoBERTa、DistilBERT、ALBERT、ELECTRA 以及 DeBERTa
本文对比介绍几类 BERT 改进版模型: RoBERTa、DistilBERT、ALBERT、ELECTRA 以及 DeBERTa。
2024-11-30 18:34:51
2205
原创 「翻译」OpenAI o1 技术报告:提升编程、数学等推理能力
本文介绍 OpenAI o1的技术报告,在数学、编程、理解、科学、安全等各个维度的评测中都有较大提升。
2024-10-29 17:19:57
1337
原创 深度学习的知识蒸馏:Distilling the Knowledge in a Neural Network
本文介绍深度学习中的知识蒸馏操作,介绍论文“Distilling the Knowledge in a Neural Network”内容。
2024-10-29 17:18:59
1236
原创 torch.embedding 报错 IndexError: index out of range in self
本文分析torch.embedding 报错IndexError: index out of range in self
2024-09-19 15:42:45
611
原创 Direct Preference Optimization (DPO)原理详解及公式推导
本文讲解Direct Preference Optimization (DPO)原理以及推导过程。
2024-09-19 15:41:45
12313
8
原创 《Toolformer: Language Models Can Teach Themselves to Use Tools》论文解读
本文详细解读《Toolformer: Language Models Can Teach Themselves to Use Tools》论文。
2024-08-29 16:13:28
955
原创 LLM的发展简述
本文概述了语言模型(LLMs)的70年发展历程,从1950年代信息理论的创立到现代大型语言模型的兴起。文章详细介绍了不同阶段的语言模型,包括早期的隐马尔可夫模型和n-gram模型,以及神经网络和词嵌入技术的发展,最终到达基于注意力机制的Transformer架构和预训练模型的革新。文中还讨论了各种大型语言模型,如BERT、GPT系列、RoBERTa等,它们分别在参数量、训练数据、潜在应用、企业适用性等方面各具特色。
2024-08-29 16:08:29
547
原创 Huggingface的transformer库如何忽略标签/token的loss计算
本文介绍huggingface的transformer如何忽略标签/token的loss计算。
2024-08-16 16:15:38
665
原创 InstructGPT: Training language models to follow instructions with human feedback 原理详解
本文根据论文介绍 InstructGPT的原理。
2024-08-16 16:15:22
877
BERT的多语言模型,Layer=12,Hidden=768,Heads=12
2024-03-15
论文,Learning representations by back-propagating errors.pdf
2024-02-20
爬取此时股票涨幅top40的全量数据,你要的都有!
2024-01-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人