LLM
大模型
张博208
知识搬运工
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
From Basics to Advanced: Exploring LangGraph
agents原创 2024-11-07 14:50:06 · 1073 阅读 · 0 评论 -
Continue PreTrain
LLM Continue Pretrain(2024版)如何更好地继续预训练(Continue PreTraining)原创 2024-09-19 14:16:15 · 446 阅读 · 0 评论 -
Speculative Sampling
.原创 2024-09-13 14:15:37 · 1165 阅读 · 0 评论 -
KV cache
大模型百倍推理加速之KV cache篇大模型推理优化技术-KV CacheEfficient Streaming Language Models with Attention Sinks原创 2024-09-04 22:04:11 · 307 阅读 · 0 评论 -
RLHF PPO DPO
生成式大模型的RLHF技术(一):基础DPO: Direct Preference Optimization 论文解读及代码实践深入对比 DPO 和 RLHF深入理解DPO(Direct Preference Optimization)算法原创 2024-09-03 21:55:41 · 442 阅读 · 0 评论 -
AI agent
LLM Powered Autonomous Agents万字长文解析AI Agent技术原理和应用原创 2024-08-16 21:37:06 · 192 阅读 · 0 评论 -
DETR
DETR目标检测新范式带来的思考详细解读DETR,基于transformer的目标检测网络原创 2024-08-14 18:49:15 · 155 阅读 · 0 评论 -
Multilingual Language Model
Multilingual多语言预训练的那些套路转载 2024-08-03 16:03:38 · 131 阅读 · 0 评论 -
Understanding Low-Rank Adaptation (LoRA) for Efficient Fine-Tuning of Large Language Models
This blog post will go into detail about how LoRA works to fine-tune LLMs, following the methodology set out in the “LoRA: Low-Rank Adaptation of Large Language Models” paper原创 2024-07-26 15:12:17 · 1368 阅读 · 0 评论 -
大模型微调
觉得这位美女写的好,就拿来了。原创 2024-07-19 18:26:46 · 333 阅读 · 0 评论 -
RAG技术概览
RAG转载 2024-07-19 17:04:31 · 239 阅读 · 0 评论 -
Prompt Engineering
提示工程(Prompt engineering)是一门相对较新的学科,旨在为各种应用和研究主题开发和优化提示,以有效地利用语言模型(LMs:language models )。提示工程技能有助于更好地了解大型语言模型(LLMs:large language models )的能力和局限性。研究人员使用提示工程来提高 LLMs 在各种常见和复杂任务(如问答和算术推理)上的能力。开发人员使用提示工程来设计稳健且有效的提示技术,与 LLMs 和其他工具进行交互。自然语言处理的标准任务之一是文本摘要。原创 2024-07-19 14:31:53 · 2350 阅读 · 0 评论 -
大模型基础组件 - Tokenizer
这里的动机是一个pair的频率很高,但是其中pair的一部分的频率更高,这时候不一定需要进行该pair的合并。通过这种方式可以更好的处理跨语言和不常见字符的特殊问题(例如,颜文字),相比传统的BPE更节省词表空间(同等词表大小效果更好),每个token也能获得更充分的训练。1. 根据不同的切分粒度可以把tokenizer分为: 基于词的切分,基于字的切分和基于subword的切分。这是当前大模型的主流分词方案。基于subword的切分能很好平衡基于词切分和基于字切分的优缺点,也是目前主流最主流的切分方式。转载 2024-07-19 11:17:57 · 646 阅读 · 0 评论 -
大模型时代的分割定位:Lisa、LLava- grounding、GSVA、PixelLM、AnyRef
大模型时代的分割定位:Lisa、LLava- grounding、GSVA、PixelLM、AnyRef转载 2024-07-17 13:11:45 · 337 阅读 · 0 评论 -
主流微调训练方法总结 LoRA、Adapter、Prefix-tuning、P-tuning、Prompt-tuning
一文搞清楚LORA、Prompt Tuning、P-Tuning、Adapter 、Prefix等大模型微调方法原创 2024-07-16 17:47:12 · 547 阅读 · 0 评论 -
大模型生成去重技术总结
生成重复性问题原创 2024-07-12 18:29:47 · 1039 阅读 · 0 评论 -
GPT 论文学习
GPT系列论文解读:GPT-1GPT系列论文解读:GPT-2原创 2024-07-12 14:51:53 · 183 阅读 · 0 评论 -
LLaMA 模型
llamA原创 2024-07-12 14:11:53 · 416 阅读 · 0 评论 -
Transformers KV Caching Explained
K-V cache原创 2024-07-12 13:15:15 · 852 阅读 · 0 评论 -
深度学习中的注意力机制:MHA、MQA和GQA
深度学习中的注意力机制:MHA、MQA和GQA原创 2024-07-12 10:29:26 · 764 阅读 · 0 评论 -
SwiGLU 作为激活函数
激活函数原创 2024-07-11 18:50:49 · 293 阅读 · 0 评论 -
Distinguish between Beam Search, Random Sampling, Top-K, and Nucleus
省层策略转载 2024-07-11 16:38:07 · 245 阅读 · 0 评论 -
RoPE 大模型用的位置编码技术
位置编码原创 2024-07-11 14:18:57 · 395 阅读 · 0 评论 -
Stable Diffusion LoRA模型
stable diffusion lora原创 2024-07-10 13:31:32 · 207 阅读 · 0 评论 -
Hypernetwork 超网络
生成模型原创 2024-07-10 13:15:58 · 635 阅读 · 0 评论 -
ControlNet
标题:Adding Conditional Control to Text-to-Image Diffusion Models作者:Lvmin Zhang, Maneesh Agrawala原文链接:https://arxiv.org/pdf/2302.05543.pdf代码链接:https://github.com/lllyasviel/ControlNet大型文本到图像模型的存在让人们意识到人工智能的巨大潜力,这些模型可以通过用户输入简短的描述性提示来生成视觉上吸引人的图像。原创 2024-07-10 11:46:17 · 945 阅读 · 0 评论 -
RAG(检索增强生成)
retrieval augmented generation原创 2024-07-09 11:24:07 · 119 阅读 · 0 评论 -
计算机视觉 自监督学习 资料
https://zhuanlan.zhihu.com/p/258958247https://zhuanlan.zhihu.com/p/682212621原创 2024-07-08 16:45:25 · 199 阅读 · 0 评论 -
MAE -Masked Autoencoders Are Scalable Vision Learners
本文表明,掩码自编码器 (MAE) 是用于计算机视觉的可扩展自监督学习器。本文的 MAE 方法很简单:屏蔽输入图像的随机patch 并重建丢失的像素。它基于两个核心设计。首先,本文开发了一个非对称的 编码器-解码器架构,其中一个编码器 只对 可见的patches子集(没有掩码tokens)进行操作,以及一个轻量级解码器,它从隐表示 和 掩码tokens 重建原始图像。其次,本文发现 屏蔽输入图像的高比例,例如 75%,会产生一个重要且有意义的自监督任务。结合这两种设计使本文能够有效地训练大型模型:本文转载 2024-07-08 17:11:08 · 280 阅读 · 0 评论 -
LLM 资料
从 FlashAttention 到 PagedAttention, 如何进一步优化 Attention 性能 Transformer综述!100多种不同的视觉Transformer原创 2024-07-08 15:27:59 · 165 阅读 · 0 评论 -
Bert 变种, T5模型
NLP-预训练模型-2019-NLU:DistilBERT【 BERT模型压缩】【模型大小减小了40%(66M),推断速度提升了60%,但性能只降低了约3%】_distillbert-优快云博客https://zhuanlan.zhihu.com/p/673535548原创 2024-07-08 14:23:15 · 423 阅读 · 0 评论 -
大模型思维链(Chain-of-Thought)技术原理
推理链原创 2024-07-04 18:11:13 · 962 阅读 · 0 评论
分享