自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Hoper-J的博客

原创 AI/LLM 大模型入门指南

这里是一份大模型入门指南，带你从API调用走进本地大模型部署和微调。

2024-09-26 23:59:17 874

原创 DeepSeek API 输出解析【非流式输出篇】 - OpenAI SDK

关于 OpenAI SDK 的通用知识，以 DeepSeek 聊天/推理模型为例进行演示：- 认识 API 的返回字段- 打印模型回复和每次对话的用量信息

2025-02-11 12:21:27 1771

原创 DeepSeek 671B 满血版多平台 API 配置指南，绕开 DeepSeek 网页端卡顿【Cherry Studio & Chatbox 】

通过 API 绕开 DeepSeek 网页对话的卡顿，提供两种配置方案：- Cherry Studio【推荐】- Chatbox

2025-02-11 12:11:47 2253

原创 DeepSeek API 的获取与对话示例

DeepSeek API 的多种获取方式与不同平台对话示例

2025-01-27 18:36:23 14763

原创 GPT 系列论文精读：从 GPT-1 到 GPT-4

GPT 数字系列论文精读：从 GPT-1 到 GPT-4

2025-01-13 21:04:01 3181

原创微调 BERT：实现抽取式问答

微调预训练模型以实现下游任务：抽取式问答。

2024-12-22 22:43:38 1135

原创 BERT 论文精读【Pre-training of Deep Bidirectional Transformers for Language Understanding】

通过阅读本文将了解以下知识：1. 预训练任务 MLM 和 NSP 是什么？2. BERT 模型的输入和输出，以及一些与 Transformer 不同的地方。3. 以 $\text{BERT}_\text{BASE}$ 为例，计算模型的总参数量。...

2024-12-17 19:31:18 2367

原创关于梯度累积及 accelerate 库的正确使用

梯度累积的数学公式和 PyTorch 代码实现

2024-12-17 19:19:56 1527

原创 SGD、BGD、MBGD 之间的区别

了解随机梯度下降/批量梯度下降/小批量梯度下降之间的区别

2024-12-16 20:40:18 707

原创 Epoch、Batch、Step 之间的关系

了解 Epoch/Batch/Step 之间的关系

2024-12-16 20:35:12 1744

原创 Docker 基础命令介绍和常见报错解决

介绍一些 docker 可能用到的基础命令，并解决三个常见报错：- 权限被拒绝（Permission Denied）- 无法连接到 Docker 仓库（Timeout Exceeded）- 磁盘空间不足（No Space Left on Device）

2024-11-14 18:55:45 1456

原创两行命令搭建深度学习环境（Docker/torch2.5.1+cu118/命令行美化+插件），含完整的 Docker 安装步骤

用两行命令快速搭建深度学习环境（Docker）。

2024-11-14 18:37:42 2402

原创 nn.Embedding() 和 nn.Linear() 的区别

通过代码了解 nn.Embedding() 和 nn.Linear() 的区别

2024-11-10 13:42:05 1346

原创解决 Kaggle 创建数据集时的“Directory already exists”错误

Unfortunately, we could not create your dataset. Error during creation: Directory already exists... 报错解决。

2024-11-10 11:09:29 733 7

原创 Kaggle：免费 GPU 使用指南，Colab 的理想替代方案

“白嫖”免费 GPU 的图文攻略。

2024-11-07 13:16:37 8663 2

原创 PyTorch nn.Embedding() 嵌入层详解和要点提醒

了解嵌入（Embedding）到底是什么？并可视化它。

2024-11-04 23:29:08 1753 2

原创 Transformer 论文精读与完整代码复现【Attention Is All You Need】

Transformer论文精读和从零开始的完整代码复现（PyTorch），超长文预警！将介绍模型架构中的所有组件，并解答可能的困惑

2024-11-04 09:00:00 7415 4

原创对比学习论文随笔 1：正负样本对（Contrastive Learning 基础论文篇）

对比学习的基础论文：Inst Disc，InstSpread，MoCo 和 SimCLR。

2024-10-22 23:58:47 2760

原创 BPE vs WordPiece：理解 Tokenizer 的工作原理与子词分割方法

了解 Tokenizer 的基本操作。了解常见的子词分割方法：BPE 和 WordPiece。了解注意力掩码（Attention Mask）和词元类型 ID （Token Type IDs）。

2024-10-22 22:56:30 1403

原创 RAG 入门实践：从文档拆分到向量数据库与问答构建

本文将使用 Transformers 和 LangChain 演示 RAG 的工作流程。你还将了解 RecursiveCharacterTextSplitter 的递归工作原理。

2024-10-15 22:41:15 4595 1

原创 AI/LLM 大模型入门指南相关的命令行脚本

AI/LLM 大模型入门指南相关的命令行脚本1. AI Summarizer AI 视频/音频/字幕摘要。2. AI ChatAI 对话。

2024-10-13 21:03:41 1010

原创从加载到对话：使用 Llama-cpp-python 本地运行量化 LLM 大模型（GGUF）

（无需显卡）使用 Llama-cpp-python 在本地加载具有 70 亿参数的 LLM 大语言模型，通过这篇文章你将学会用代码创建属于自己的 GPT。

2024-10-10 23:43:21 5147

原创从加载到对话：使用 Transformers 本地运行量化 LLM 大模型（GPTQ & AWQ）

（无需显卡）使用 Transformers 在本地加载具有 70 亿参数的 LLM 大语言模型，通过这篇文章你将学会用代码创建属于自己的 GPT。

2024-10-10 23:37:02 5787 3

原创解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题（从源码重新安装 Auto-GPTQ）

这里解决的是使用 Auto-GPTQ 或者 Transformers 导入 GPTQ 模型后推理速度很慢的问题。

2024-10-09 14:18:03 992 3

原创如何加载 GGUF 模型（分片/Shared/Split/00001-of-0000... GGUF 文件的加载解决方法）

- 了解 Transformers 关于 GGUF 的新特性。- 使用 Transformers/Llama-cpp-python/Ollama 加载 GGUF 格式的模型文件。- 学会合并分片的 GGUF 文件。- 解决 LLama-cpp-python 无法 offload 的问题。

2024-10-07 20:13:42 7694 3

原创模型量化技术概述及 GGUF/GGML 文件格式解析，了解 Q4_0、Q4_1、Q4_K 和 Q4_K_M 的区别

1. 简单了解 RTN、GPTQ、AWQ 和 GGUF（GGML）。2. 理解 PPL（Perplexity）是什么。3. 掌握 GGUF（GGML）文件的命名规则。4. 认识 k-quants 量化方法。5. 分清 Q4_0、Q4_1、Q4_K 和 Q4_K_M。

2024-10-04 20:08:50 9993 7

原创浅谈 RTN 模型量化: 非对称 vs 对称

最基础的 RTN 模型量化的背后究竟做了什么？本文将以 INT8 为例，结合计算和代码演示，向你展示其中的一些原理。

2024-10-04 19:42:28 1372

原创为什么 LoRA 微调和没有微调的效果一样？在 PEFT ＜= 0.12.0 下错误使用 get_peft_model()

这存在于 peft

2024-10-01 15:34:31 680

原创用 LoRA 微调 Stable Diffusion：拆开炼丹炉，动手实现你的第一次 AI 绘画

总得拆开炼丹炉看看是什么样的。这篇文章将带你从代码层面一步步实现 AI 文本生成图像（Text-to-Image）中的 LoRA 微调过程，你将：- 了解 **Trigger Words**（触发词）到底是什么，以及它们如何影响生成结果。- 掌握 LoRA 微调的基本原理。- 学习数据集的准备与结构，并知道如何根据需求定制自己的数据集。- 理解 Stable Diffusion 模型的微调步骤。- 明白在画图界面（UI）下到底发生了什么。- 使用代码实现 AI 绘画。

2024-10-01 14:58:38 7346 9

原创解决 TypeError: Expected state_dict to be dict-like, got ＜class ‘*‘＞.

解决模型导入抛出的TypeError: Expected state_dict to be dict-like, , got .

2024-09-29 16:47:35 2870 2

原创 PyTorch 模型保存与加载的三种常用方式

训练一个神经网络可能需要数小时甚至数天的时间，你需要认知到一点：时间是非常宝贵的，目前3090云服务器租赁一天的价格为 37.92 元。如果你的代码没有保存模型的模块，那就先不要开始，因为不保存基本等于没跑，你的效果再好也没有办法直接呈现给别人。

2024-09-28 23:58:34 2709

原创怎么查看和删除 Hugging Face 下载的模型，并修改保存路径

你一定会在未来的某个时刻有这个需求，因为实在是太占空间了，如果你热衷于试验不同的模型，或许一个星期之后你就会发现自己的磁盘开始报警。

2024-09-27 23:04:25 5891 3

原创命令行基础指令速查（Linux/Mac适用）

本文旨在帮助你快速了解和查阅常用的命令行指令，尤其是项目中可能用到的命令。

2024-09-27 18:32:46 1234

原创用 API 实现 AI 视频摘要：动手制作属于你的 AI 视频小助手

尝试做一个属于你自己的AI视频总结/摘要小助手！这并不难，即便你不懂任何深度学习的知识，也完全可以做到。

2024-09-26 23:39:51 2112

原创 PEFT微调：在大模型中快速应用 LoRA

你将了解到：peft 和 lora 之间有什么关系？get_peft_model 怎么使用？如何知道应用 LoRA 后模型的参数变化量？如何使用 `merge_and_unload()` 合并 LoRA 权重？认识报错：`TypeError: Expected state_dict to be dict-like...`

2024-09-22 18:02:20 2297

原创了解人工智能可能存在的偏见

这里不需要理解代码，可以当作休闲时的一次有趣探索。

2024-09-22 17:57:07 1030

原创李宏毅2023机器学习作业HW07解析和代码分享

李宏毅2023年春机器学习课程作业7的引导与代码分享

2024-09-21 12:16:10 2423

原创 Inseq 特征归因：可视化解释 LLM 的输出

本文将介绍 Inseq，这是一个用于解释和可视化序列生成模型输出的工具。我们将通过翻译任务（关注整个序列）和文本生成任务（关注前面的词）来演示如何使用 Inseq 来了解输入文本的哪些部分对模型生成下一个单词的影响最大。

2024-09-21 10:46:35 945

原创 DPO 微调示例：根据人类偏好优化 LLM 大语言模型

在本文中，我们将利用 DPO 来微调一个模型让其按照偏好进行输出。

2024-09-20 10:40:14 1915

原创李宏毅2024生成式人工智能导论中文镜像版指导与作业

这里是李宏毅老师2024年生成式人工智能导论的大陆镜像版的索引文章，你可以在不翻墙的情况下完成课程的所有作业。制作与分享已经获得李宏毅老师的授权，非常感谢老师！

2024-09-20 10:09:30 1316 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除