自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(117)
  • 收藏
  • 关注

原创 AI/LLM 大模型入门指南

这里是一份大模型入门指南,带你从API调用走进本地大模型部署和微调。

2024-09-26 23:59:17 874

原创 DeepSeek API 输出解析【非流式输出篇】 - OpenAI SDK

关于 OpenAI SDK 的通用知识,以 DeepSeek 聊天/推理模型为例进行演示:- 认识 API 的返回字段- 打印模型回复和每次对话的用量信息

2025-02-11 12:21:27 1771

原创 DeepSeek 671B 满血版多平台 API 配置指南,绕开 DeepSeek 网页端卡顿【Cherry Studio & Chatbox 】

通过 API 绕开 DeepSeek 网页对话的卡顿,提供两种配置方案:- Cherry Studio【推荐】- Chatbox

2025-02-11 12:11:47 2253

原创 DeepSeek API 的获取与对话示例

DeepSeek API 的多种获取方式与不同平台对话示例

2025-01-27 18:36:23 14763

原创 GPT 系列论文精读:从 GPT-1 到 GPT-4

GPT 数字系列论文精读:从 GPT-1 到 GPT-4

2025-01-13 21:04:01 3181

原创 微调 BERT:实现抽取式问答

微调预训练模型以实现下游任务:抽取式问答。

2024-12-22 22:43:38 1135

原创 BERT 论文精读【Pre-training of Deep Bidirectional Transformers for Language Understanding】

通过阅读本文将了解以下知识:1. 预训练任务 MLM 和 NSP 是什么?2. BERT 模型的输入和输出,以及一些与 Transformer 不同的地方。3. 以 $\text{BERT}_\text{BASE}$ 为例,计算模型的总参数量。...

2024-12-17 19:31:18 2367

原创 关于梯度累积及 accelerate 库的正确使用

梯度累积的数学公式和 PyTorch 代码实现

2024-12-17 19:19:56 1527

原创 SGD、BGD、MBGD 之间的区别

了解随机梯度下降/批量梯度下降/小批量梯度下降之间的区别

2024-12-16 20:40:18 707

原创 Epoch、Batch、Step 之间的关系

了解 Epoch/Batch/Step 之间的关系

2024-12-16 20:35:12 1744

原创 Docker 基础命令介绍和常见报错解决

介绍一些 docker 可能用到的基础命令,并解决三个常见报错:- 权限被拒绝(Permission Denied)- 无法连接到 Docker 仓库(Timeout Exceeded)- 磁盘空间不足(No Space Left on Device)

2024-11-14 18:55:45 1456

原创 两行命令搭建深度学习环境(Docker/torch2.5.1+cu118/命令行美化+插件),含完整的 Docker 安装步骤

用两行命令快速搭建深度学习环境(Docker)。

2024-11-14 18:37:42 2402

原创 nn.Embedding() 和 nn.Linear() 的区别

通过代码了解 nn.Embedding() 和 nn.Linear() 的区别

2024-11-10 13:42:05 1346

原创 解决 Kaggle 创建数据集时的“Directory already exists”错误

Unfortunately, we could not create your dataset. Error during creation: Directory already exists... 报错解决。

2024-11-10 11:09:29 733 7

原创 Kaggle:免费 GPU 使用指南,Colab 的理想替代方案

“白嫖”免费 GPU 的图文攻略。

2024-11-07 13:16:37 8663 2

原创 PyTorch nn.Embedding() 嵌入层详解和要点提醒

了解嵌入(Embedding)到底是什么?并可视化它。

2024-11-04 23:29:08 1753 2

原创 Transformer 论文精读与完整代码复现【Attention Is All You Need】

Transformer论文精读和从零开始的完整代码复现(PyTorch),超长文预警!将介绍模型架构中的所有组件,并解答可能的困惑

2024-11-04 09:00:00 7415 4

原创 对比学习论文随笔 1:正负样本对(Contrastive Learning 基础论文篇)

对比学习的基础论文:Inst Disc,InstSpread,MoCo 和 SimCLR。

2024-10-22 23:58:47 2760

原创 BPE vs WordPiece:理解 Tokenizer 的工作原理与子词分割方法

了解 Tokenizer 的基本操作。了解常见的子词分割方法:BPE 和 WordPiece。了解注意力掩码(Attention Mask)和词元类型 ID (Token Type IDs)。

2024-10-22 22:56:30 1403

原创 RAG 入门实践:从文档拆分到向量数据库与问答构建

本文将使用 Transformers 和 LangChain 演示 RAG 的工作流程。你还将了解 RecursiveCharacterTextSplitter 的递归工作原理。

2024-10-15 22:41:15 4595 1

原创 AI/LLM 大模型入门指南相关的命令行脚本

AI/LLM 大模型入门指南相关的命令行脚本1. AI Summarizer AI 视频/音频/字幕摘要。2. AI ChatAI 对话。

2024-10-13 21:03:41 1010

原创 从加载到对话:使用 Llama-cpp-python 本地运行量化 LLM 大模型(GGUF)

(无需显卡)使用 Llama-cpp-python 在本地加载具有 70 亿参数的 LLM 大语言模型,通过这篇文章你将学会用代码创建属于自己的 GPT。

2024-10-10 23:43:21 5147

原创 从加载到对话:使用 Transformers 本地运行量化 LLM 大模型(GPTQ & AWQ)

(无需显卡)使用 Transformers 在本地加载具有 70 亿参数的 LLM 大语言模型,通过这篇文章你将学会用代码创建属于自己的 GPT。

2024-10-10 23:37:02 5787 3

原创 解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题(从源码重新安装 Auto-GPTQ)

这里解决的是使用 Auto-GPTQ 或者 Transformers 导入 GPTQ 模型后推理速度很慢的问题。

2024-10-09 14:18:03 992 3

原创 如何加载 GGUF 模型(分片/Shared/Split/00001-of-0000... GGUF 文件的加载解决方法)

- 了解 Transformers 关于 GGUF 的新特性。- 使用 Transformers/Llama-cpp-python/Ollama 加载 GGUF 格式的模型文件。- 学会合并分片的 GGUF 文件。- 解决 LLama-cpp-python 无法 offload 的问题。

2024-10-07 20:13:42 7694 3

原创 模型量化技术概述及 GGUF/GGML 文件格式解析,了解 Q4_0、Q4_1、Q4_K 和 Q4_K_M 的区别

1. 简单了解 RTN、GPTQ、AWQ 和 GGUF(GGML)。2. 理解 PPL(Perplexity)是什么。3. 掌握 GGUF(GGML)文件的命名规则。4. 认识 k-quants 量化方法。5. 分清 Q4_0、Q4_1、Q4_K 和 Q4_K_M。

2024-10-04 20:08:50 9993 7

原创 浅谈 RTN 模型量化: 非对称 vs 对称

最基础的 RTN 模型量化的背后究竟做了什么?本文将以 INT8 为例,结合计算和代码演示,向你展示其中的一些原理。

2024-10-04 19:42:28 1372

原创 为什么 LoRA 微调和没有微调的效果一样?在 PEFT <= 0.12.0 下错误使用 get_peft_model()

这存在于 peft

2024-10-01 15:34:31 680

原创 用 LoRA 微调 Stable Diffusion:拆开炼丹炉,动手实现你的第一次 AI 绘画

总得拆开炼丹炉看看是什么样的。这篇文章将带你从代码层面一步步实现 AI 文本生成图像(Text-to-Image)中的 LoRA 微调过程,你将:- 了解 **Trigger Words**(触发词)到底是什么,以及它们如何影响生成结果。- 掌握 LoRA 微调的基本原理。- 学习数据集的准备与结构,并知道如何根据需求定制自己的数据集。- 理解 Stable Diffusion 模型的微调步骤。- 明白在画图界面(UI)下到底发生了什么。- 使用代码实现 AI 绘画。

2024-10-01 14:58:38 7346 9

原创 解决 TypeError: Expected state_dict to be dict-like, got <class ‘*‘>.

解决模型导入抛出的TypeError: Expected state_dict to be dict-like, , got .

2024-09-29 16:47:35 2870 2

原创 PyTorch 模型保存与加载的三种常用方式

训练一个神经网络可能需要数小时甚至数天的时间,你需要认知到一点:时间是非常宝贵的,目前3090云服务器租赁一天的价格为 37.92 元。如果你的代码没有保存模型的模块,那就先不要开始,因为不保存基本等于没跑,你的效果再好也没有办法直接呈现给别人。

2024-09-28 23:58:34 2709

原创 怎么查看和删除 Hugging Face 下载的模型,并修改保存路径

你一定会在未来的某个时刻有这个需求,因为实在是太占空间了,如果你热衷于试验不同的模型,或许一个星期之后你就会发现自己的磁盘开始报警。

2024-09-27 23:04:25 5891 3

原创 命令行基础指令速查(Linux/Mac适用)

本文旨在帮助你快速了解和查阅常用的命令行指令,尤其是项目中可能用到的命令。

2024-09-27 18:32:46 1234

原创 用 API 实现 AI 视频摘要:动手制作属于你的 AI 视频小助手

尝试做一个属于你自己的AI视频总结/摘要小助手!这并不难,即便你不懂任何深度学习的知识,也完全可以做到。

2024-09-26 23:39:51 2112

原创 PEFT微调:在大模型中快速应用 LoRA

你将了解到:peft 和 lora 之间有什么关系?get_peft_model 怎么使用?如何知道应用 LoRA 后模型的参数变化量?如何使用 `merge_and_unload()` 合并 LoRA 权重?认识报错:`TypeError: Expected state_dict to be dict-like...`

2024-09-22 18:02:20 2297

原创 了解人工智能可能存在的偏见

这里不需要理解代码,可以当作休闲时的一次有趣探索。

2024-09-22 17:57:07 1030

原创 李宏毅2023机器学习作业HW07解析和代码分享

李宏毅2023年春机器学习课程作业7的引导与代码分享

2024-09-21 12:16:10 2423

原创 Inseq 特征归因:可视化解释 LLM 的输出

本文将介绍 Inseq,这是一个用于解释和可视化序列生成模型输出的工具。我们将通过翻译任务(关注整个序列)和文本生成任务(关注前面的词)来演示如何使用 Inseq 来了解输入文本的哪些部分对模型生成下一个单词的影响最大。

2024-09-21 10:46:35 945

原创 DPO 微调示例:根据人类偏好优化 LLM 大语言模型

在本文中,我们将利用 DPO 来微调一个模型让其按照偏好进行输出。

2024-09-20 10:40:14 1915

原创 李宏毅2024生成式人工智能导论 中文镜像版指导与作业

这里是李宏毅老师2024年生成式人工智能导论的大陆镜像版的索引文章,你可以在不翻墙的情况下完成课程的所有作业。制作与分享已经获得李宏毅老师的授权,非常感谢老师!

2024-09-20 10:09:30 1316 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除