自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

日常学习与专研的记录

不求完美,但求真实与实用,如果有深度最好了。

  • 博客(226)
  • 收藏
  • 关注

原创 Dataset.from_pandas 报错 pyarrow.lib.ArrowInvalid: (‘cannot mix struct and non-struct, non-null values

本文介绍 Dataset.from_pandas 报错 pyarrow.lib.ArrowInvalid: ('cannot mix struct and non-struct, non-null values', 'Conversion failed for column xxx with type object')

2025-03-28 16:53:07 249

原创 DeepSeek-R1是如何训练出来的?

此前,我们介绍了《DeepSeek R1 技术简要总结》,主要结合 DeepSeek R1 的技术报告来梳理了其中的大致流程,没有关注细节。现在我们来着重关注 R1 的训练细节,来看看 R1 究竟是如何一步一步训练出来的。

2025-03-28 16:52:23 953

原创 python输出class的引用关系图(UML)

本文介绍如何通过python显示class的引用关系。

2025-03-05 09:02:59 869 1

原创 DeepSeek-V3 核心架构源码讲解

文本详细讲解 DeepSeek-V3 的核心架构的源码。

2025-03-05 09:00:59 1293

原创 DeepSeek R1技术报告总结

本文介绍DeekSeek R1技术报告总结。

2025-02-18 15:11:50 1282

原创 DeepSeek 训练提到的Auxiliary-Loss-Free Load Balancing是什么?

本文介绍DeekSeek 的MOE涉及到的Auxiliary-Loss-Free Load Balancing方法。

2025-02-18 15:07:36 1166

原创 fp8、fp16和bp16的区别

本文介绍fp8、fp16以及bp16的区别。

2025-02-05 16:30:16 2152

原创 pandas获取指定日期的行

本文介绍pandas如何获取指定日期的行。

2025-02-05 16:30:00 229

原创 BFCL介绍以及本地模型评测大致流程

本文介绍bfcl的数据集、代码组成以及本地模型的评测大致流程。

2025-01-17 10:43:36 1601

原创 大语言模型LLM基础扫盲速通版

本文介绍大语言模型LLM的相关基础知识。

2025-01-17 10:42:58 3468

原创 FlashAttention1.0 论文及算法详解

本文介绍 FlashAttention 算法。FlashAttention 是一种用于提高 Transformer 模型中自注意力(self-attention)机制的计算效率和内存效率的算法。它通过减少高带宽内存(HBM)的读写次数来优化性能,特别是在处理长序列数据时。

2024-12-22 13:07:27 1215

原创 解决git push报错 fatal: Authentication failed for ‘https://github.com/...‘

本文介绍如何解决git push报错 fatal: Authentication failed for 'https://github.com/...'问题

2024-12-22 13:06:20 1297

原创 Python和curl 如何使用OpenAI 接口访问LLM

本文介绍python和curl 如果通过 openai 接口访问llm大模型。

2024-12-13 20:00:00 1492

原创 LLM的 RAG 分块(Chunking)策略

本文介绍LLM的 RAG 分块(Chunking)策略

2024-12-13 19:45:00 2067

原创 首次提交本地代码到github全流程完整记录

本文介绍本地代码首次提交到github的全流程记录。

2024-12-05 19:00:00 425

原创 Gradient checkpointing 核心流程详细讲解

本文介绍gradient checkpointing的核心流程。

2024-12-05 19:00:00 1276 2

原创 conda 报错 “Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接”

解决 conda 报错 “Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接”。

2024-11-30 18:39:25 1155

原创 BERT改进版对比:RoBERTa、DistilBERT、ALBERT、ELECTRA 以及 DeBERTa

本文对比介绍几类 BERT 改进版模型: RoBERTa、DistilBERT、ALBERT、ELECTRA 以及 DeBERTa。

2024-11-30 18:34:51 2205

原创 ELECTRA 关键改进点详细讲解

本文主要介绍 ELECTRA 关键改进点的详细讲解。

2024-11-19 15:50:15 989

原创 ALBERT 关键改进点详细讲解

本文主要介绍 ALBERT 的详细改进点。

2024-11-19 15:37:32 1076

原创 DQN的原理和代码实现

本文介绍DQN的原理以及代码实现。

2024-11-12 15:29:37 816

原创 RoBERTa 关键改进点详细讲解

本文介绍 RoBERTa 相较于原始 BERT 的详细改进点。

2024-11-12 15:28:12 798

原创 「翻译」OpenAI o1 技术报告:提升编程、数学等推理能力

本文介绍 OpenAI o1的技术报告,在数学、编程、理解、科学、安全等各个维度的评测中都有较大提升。

2024-10-29 17:19:57 1337

原创 深度学习的知识蒸馏:Distilling the Knowledge in a Neural Network

本文介绍深度学习中的知识蒸馏操作,介绍论文“Distilling the Knowledge in a Neural Network”内容。

2024-10-29 17:18:59 1236

原创 量化W8A8和W8A16是什么?

本文介绍量化的w8a8、w8a16的详细内容。

2024-10-16 15:07:55 7700 3

原创 LLM模型保存的常见格式汇总

本文介绍LLM模型常见的保存格式。

2024-10-16 15:07:07 1238

原创 模型并行(Model Parallelism)原理详解

本文介绍模型并行(Model Paralleism)原理。

2024-09-30 17:18:53 1976

原创 流水线并行(Pipeline Parallelism)原理详解

本文介绍流水线并行的原理和主要流程。

2024-09-30 17:06:03 2872

原创 linux:chown用法详解

本文详细介绍linux的chown用法。

2024-09-26 16:54:13 1575

原创 大型语言模型:通过代码生成、调试和 CI/CD 集成改变软件开发的游戏规则

本文介绍 llm 对传统开发人员的冲击,以及如何改变今后的软件行业。

2024-09-26 16:32:48 815

原创 torch.embedding 报错 IndexError: index out of range in self

本文分析torch.embedding 报错IndexError: index out of range in self

2024-09-19 15:42:45 611

原创 Direct Preference Optimization (DPO)原理详解及公式推导

本文讲解Direct Preference Optimization (DPO)原理以及推导过程。

2024-09-19 15:41:45 12313 8

原创 linux: nvidia-smi用法详解

本文介绍linux的nvidia-smi的详细用法。

2024-09-13 14:37:11 12087 1

原创 训练中的数据并行DP详细讲解

本文讲解训练中的数据并行,以及如何更新模型状态。

2024-09-13 14:33:16 1389

原创 强化学习深入学习(一):价值函数和贝尔曼方程

本文介绍强化学习的基础概念,包含价值函数和贝尔曼方程。

2024-09-05 16:23:09 2613

原创 linux:ln用法详解

本文介绍linux的ln用法详解。

2024-09-05 16:22:09 1216

原创 《Toolformer: Language Models Can Teach Themselves to Use Tools》论文解读

本文详细解读《Toolformer: Language Models Can Teach Themselves to Use Tools》论文。

2024-08-29 16:13:28 955

原创 LLM的发展简述

本文概述了语言模型(LLMs)的70年发展历程,从1950年代信息理论的创立到现代大型语言模型的兴起。文章详细介绍了不同阶段的语言模型,包括早期的隐马尔可夫模型和n-gram模型,以及神经网络和词嵌入技术的发展,最终到达基于注意力机制的Transformer架构和预训练模型的革新。文中还讨论了各种大型语言模型,如BERT、GPT系列、RoBERTa等,它们分别在参数量、训练数据、潜在应用、企业适用性等方面各具特色。

2024-08-29 16:08:29 547

原创 Huggingface的transformer库如何忽略标签/token的loss计算

本文介绍huggingface的transformer如何忽略标签/token的loss计算。

2024-08-16 16:15:38 665

原创 InstructGPT: Training language models to follow instructions with human feedback 原理详解

本文根据论文介绍 InstructGPT的原理。

2024-08-16 16:15:22 877

BERT的多语言模型,Layer=12,Hidden=768,Heads=12

BERT的全称为Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型。本资源是BERT开源的基础模型Layer=12,Hidden=768,Heads=12。

2024-03-15

论文,Learning representations by back-propagating errors.pdf

论文《Learning representations by back-propagating errors》由David E. Rumelhart, Geoffrey E. Hinton, 和 Ronald J. Williams共同撰写,并在1986年发表于《Nature》杂志上。这篇论文是深度学习领域中的里程碑之作,它详细介绍了反向传播算法(Backpropagation)的原理和应用。 该论文主要贡献包括: 1. **反向传播算法描述**: 论文阐述了一个新的、有效的训练多层前馈神经网络的方法。反向传播算法通过利用链式法则,能够计算出网络中每层权重对于整个网络输出误差的梯度,从而使得网络可以根据这些梯度进行优化更新。 2. **学习过程详解**: 作者描述了如何在网络完成一次前向传播(从输入到输出的信号传递)之后,通过将误差信息从输出层逐层反向传播至输入层,来调整各隐藏层以及输入层与隐藏层之间的连接权重,以最小化预测输出与目标输出之间的差异。 3. **实际应用价值**: 论文展示了反向传播算法在解决非线性函数逼近和模式分类问题上的潜力,这一方法极大地

2024-02-20

爬取此时股票涨幅top40的全量数据,你要的都有!

爬取当前为止涨幅最大的40只股票,按照涨幅倒序排列,其中包含: 股票代码、股票名称、相关链接、最新价、涨跌幅、涨跌额、成交量(手)、成交额、振幅、最高、最低、今开、昨收、量比、换手率、市盈率(动态)、市净率。 主要的步骤: 1. 选择工具和库: 根据数据源的特点,选择合适的爬虫工具和编程语言。Python 是一个常用的选择,其中的采用 selenium 用于模拟浏览器 HTTP 请求获取网页内容,BeautifulSoup 用于解析 HTML内容; 2. 编写爬虫代码: a. 抓取网页数据: b. 发送GET请求到包含股票涨幅信息的页面。 c. 解析返回的HTML页面,找到涨幅排行榜列表的位置,并提取出每只股票的名称、代码、当前价格、涨跌幅等信息。

2024-01-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除