- 博客(117)
- 收藏
- 关注
原创 DeepSeek API 输出解析【非流式输出篇】 - OpenAI SDK
关于 OpenAI SDK 的通用知识,以 DeepSeek 聊天/推理模型为例进行演示:- 认识 API 的返回字段- 打印模型回复和每次对话的用量信息
2025-02-11 12:21:27
1771
原创 DeepSeek 671B 满血版多平台 API 配置指南,绕开 DeepSeek 网页端卡顿【Cherry Studio & Chatbox 】
通过 API 绕开 DeepSeek 网页对话的卡顿,提供两种配置方案:- Cherry Studio【推荐】- Chatbox
2025-02-11 12:11:47
2253
原创 BERT 论文精读【Pre-training of Deep Bidirectional Transformers for Language Understanding】
通过阅读本文将了解以下知识:1. 预训练任务 MLM 和 NSP 是什么?2. BERT 模型的输入和输出,以及一些与 Transformer 不同的地方。3. 以 $\text{BERT}_\text{BASE}$ 为例,计算模型的总参数量。...
2024-12-17 19:31:18
2367
原创 Docker 基础命令介绍和常见报错解决
介绍一些 docker 可能用到的基础命令,并解决三个常见报错:- 权限被拒绝(Permission Denied)- 无法连接到 Docker 仓库(Timeout Exceeded)- 磁盘空间不足(No Space Left on Device)
2024-11-14 18:55:45
1456
原创 两行命令搭建深度学习环境(Docker/torch2.5.1+cu118/命令行美化+插件),含完整的 Docker 安装步骤
用两行命令快速搭建深度学习环境(Docker)。
2024-11-14 18:37:42
2402
原创 nn.Embedding() 和 nn.Linear() 的区别
通过代码了解 nn.Embedding() 和 nn.Linear() 的区别
2024-11-10 13:42:05
1346
原创 解决 Kaggle 创建数据集时的“Directory already exists”错误
Unfortunately, we could not create your dataset. Error during creation: Directory already exists... 报错解决。
2024-11-10 11:09:29
733
7
原创 Transformer 论文精读与完整代码复现【Attention Is All You Need】
Transformer论文精读和从零开始的完整代码复现(PyTorch),超长文预警!将介绍模型架构中的所有组件,并解答可能的困惑
2024-11-04 09:00:00
7415
4
原创 对比学习论文随笔 1:正负样本对(Contrastive Learning 基础论文篇)
对比学习的基础论文:Inst Disc,InstSpread,MoCo 和 SimCLR。
2024-10-22 23:58:47
2760
原创 BPE vs WordPiece:理解 Tokenizer 的工作原理与子词分割方法
了解 Tokenizer 的基本操作。了解常见的子词分割方法:BPE 和 WordPiece。了解注意力掩码(Attention Mask)和词元类型 ID (Token Type IDs)。
2024-10-22 22:56:30
1403
原创 RAG 入门实践:从文档拆分到向量数据库与问答构建
本文将使用 Transformers 和 LangChain 演示 RAG 的工作流程。你还将了解 RecursiveCharacterTextSplitter 的递归工作原理。
2024-10-15 22:41:15
4595
1
原创 AI/LLM 大模型入门指南相关的命令行脚本
AI/LLM 大模型入门指南相关的命令行脚本1. AI Summarizer AI 视频/音频/字幕摘要。2. AI ChatAI 对话。
2024-10-13 21:03:41
1010
原创 从加载到对话:使用 Llama-cpp-python 本地运行量化 LLM 大模型(GGUF)
(无需显卡)使用 Llama-cpp-python 在本地加载具有 70 亿参数的 LLM 大语言模型,通过这篇文章你将学会用代码创建属于自己的 GPT。
2024-10-10 23:43:21
5147
原创 从加载到对话:使用 Transformers 本地运行量化 LLM 大模型(GPTQ & AWQ)
(无需显卡)使用 Transformers 在本地加载具有 70 亿参数的 LLM 大语言模型,通过这篇文章你将学会用代码创建属于自己的 GPT。
2024-10-10 23:37:02
5787
3
原创 解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题(从源码重新安装 Auto-GPTQ)
这里解决的是使用 Auto-GPTQ 或者 Transformers 导入 GPTQ 模型后推理速度很慢的问题。
2024-10-09 14:18:03
992
3
原创 如何加载 GGUF 模型(分片/Shared/Split/00001-of-0000... GGUF 文件的加载解决方法)
- 了解 Transformers 关于 GGUF 的新特性。- 使用 Transformers/Llama-cpp-python/Ollama 加载 GGUF 格式的模型文件。- 学会合并分片的 GGUF 文件。- 解决 LLama-cpp-python 无法 offload 的问题。
2024-10-07 20:13:42
7694
3
原创 模型量化技术概述及 GGUF/GGML 文件格式解析,了解 Q4_0、Q4_1、Q4_K 和 Q4_K_M 的区别
1. 简单了解 RTN、GPTQ、AWQ 和 GGUF(GGML)。2. 理解 PPL(Perplexity)是什么。3. 掌握 GGUF(GGML)文件的命名规则。4. 认识 k-quants 量化方法。5. 分清 Q4_0、Q4_1、Q4_K 和 Q4_K_M。
2024-10-04 20:08:50
9993
7
原创 浅谈 RTN 模型量化: 非对称 vs 对称
最基础的 RTN 模型量化的背后究竟做了什么?本文将以 INT8 为例,结合计算和代码演示,向你展示其中的一些原理。
2024-10-04 19:42:28
1372
原创 用 LoRA 微调 Stable Diffusion:拆开炼丹炉,动手实现你的第一次 AI 绘画
总得拆开炼丹炉看看是什么样的。这篇文章将带你从代码层面一步步实现 AI 文本生成图像(Text-to-Image)中的 LoRA 微调过程,你将:- 了解 **Trigger Words**(触发词)到底是什么,以及它们如何影响生成结果。- 掌握 LoRA 微调的基本原理。- 学习数据集的准备与结构,并知道如何根据需求定制自己的数据集。- 理解 Stable Diffusion 模型的微调步骤。- 明白在画图界面(UI)下到底发生了什么。- 使用代码实现 AI 绘画。
2024-10-01 14:58:38
7346
9
原创 解决 TypeError: Expected state_dict to be dict-like, got <class ‘*‘>.
解决模型导入抛出的TypeError: Expected state_dict to be dict-like, , got .
2024-09-29 16:47:35
2870
2
原创 PyTorch 模型保存与加载的三种常用方式
训练一个神经网络可能需要数小时甚至数天的时间,你需要认知到一点:时间是非常宝贵的,目前3090云服务器租赁一天的价格为 37.92 元。如果你的代码没有保存模型的模块,那就先不要开始,因为不保存基本等于没跑,你的效果再好也没有办法直接呈现给别人。
2024-09-28 23:58:34
2709
原创 怎么查看和删除 Hugging Face 下载的模型,并修改保存路径
你一定会在未来的某个时刻有这个需求,因为实在是太占空间了,如果你热衷于试验不同的模型,或许一个星期之后你就会发现自己的磁盘开始报警。
2024-09-27 23:04:25
5891
3
原创 用 API 实现 AI 视频摘要:动手制作属于你的 AI 视频小助手
尝试做一个属于你自己的AI视频总结/摘要小助手!这并不难,即便你不懂任何深度学习的知识,也完全可以做到。
2024-09-26 23:39:51
2112
原创 PEFT微调:在大模型中快速应用 LoRA
你将了解到:peft 和 lora 之间有什么关系?get_peft_model 怎么使用?如何知道应用 LoRA 后模型的参数变化量?如何使用 `merge_and_unload()` 合并 LoRA 权重?认识报错:`TypeError: Expected state_dict to be dict-like...`
2024-09-22 18:02:20
2297
原创 Inseq 特征归因:可视化解释 LLM 的输出
本文将介绍 Inseq,这是一个用于解释和可视化序列生成模型输出的工具。我们将通过翻译任务(关注整个序列)和文本生成任务(关注前面的词)来演示如何使用 Inseq 来了解输入文本的哪些部分对模型生成下一个单词的影响最大。
2024-09-21 10:46:35
945
原创 李宏毅2024生成式人工智能导论 中文镜像版指导与作业
这里是李宏毅老师2024年生成式人工智能导论的大陆镜像版的索引文章,你可以在不翻墙的情况下完成课程的所有作业。制作与分享已经获得李宏毅老师的授权,非常感谢老师!
2024-09-20 10:09:30
1316
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人