- 博客(1142)
- 资源 (42)
- 收藏
- 关注
原创 Continue PreTrain
LLM Continue Pretrain(2024版)如何更好地继续预训练(Continue PreTraining)
2024-09-19 14:16:15
251
原创 KV cache
大模型百倍推理加速之KV cache篇大模型推理优化技术-KV CacheEfficient Streaming Language Models with Attention Sinks
2024-09-04 22:04:11
218
原创 RLHF PPO DPO
生成式大模型的RLHF技术(一):基础DPO: Direct Preference Optimization 论文解读及代码实践深入对比 DPO 和 RLHF深入理解DPO(Direct Preference Optimization)算法
2024-09-03 21:55:41
348
原创 扩散模型介绍
综述 - 扩散模型 - Diffusion Models轻松学习扩散模型(diffusion model),被巨怪踩过的脑袋也能懂——原理详解+pytorch代码详解(附全部代码)由浅入深了解Diffusion Model
2024-08-22 17:33:34
178
原创 An Introduction to Diffusion Models and Stable Diffusion
theTtt+1βₜt-1t. APfromQt,Encoder Ett-1。
2024-08-21 18:31:26
787
原创 Segment Anything(SAM) & FastSAM
一篇文章搞懂Segment Anything(SAM)Segment Anything(sam)项目整理汇总【SAM】SAM & Fast SAM & Mobile SAM
2024-08-21 17:21:38
136
原创 Understanding Low-Rank Adaptation (LoRA) for Efficient Fine-Tuning of Large Language Models
This blog post will go into detail about how LoRA works to fine-tune LLMs, following the methodology set out in the “LoRA: Low-Rank Adaptation of Large Language Models” paper
2024-07-26 15:12:17
1057
原创 Prompt Engineering
提示工程(Prompt engineering)是一门相对较新的学科,旨在为各种应用和研究主题开发和优化提示,以有效地利用语言模型(LMs:language models )。提示工程技能有助于更好地了解大型语言模型(LLMs:large language models )的能力和局限性。研究人员使用提示工程来提高 LLMs 在各种常见和复杂任务(如问答和算术推理)上的能力。开发人员使用提示工程来设计稳健且有效的提示技术,与 LLMs 和其他工具进行交互。自然语言处理的标准任务之一是文本摘要。
2024-07-19 14:31:53
1860
转载 大模型基础组件 - Tokenizer
这里的动机是一个pair的频率很高,但是其中pair的一部分的频率更高,这时候不一定需要进行该pair的合并。通过这种方式可以更好的处理跨语言和不常见字符的特殊问题(例如,颜文字),相比传统的BPE更节省词表空间(同等词表大小效果更好),每个token也能获得更充分的训练。1. 根据不同的切分粒度可以把tokenizer分为: 基于词的切分,基于字的切分和基于subword的切分。这是当前大模型的主流分词方案。基于subword的切分能很好平衡基于词切分和基于字切分的优缺点,也是目前主流最主流的切分方式。
2024-07-19 11:17:57
359
转载 EfficientNet_V2 ShuffleNet_V2 MobileNets_V3 模型算法详解
图像分类】【深度学习】【轻量级网络】【Pytorch版本】EfficientNet_V2模型算法详解
2024-07-18 18:35:58
82
转载 Next-GPT: Any-to-Any Multimodal LLM
https://zhuanlan.zhihu.com/p/658317147https://zhuanlan.zhihu.com/p/663002368
2024-07-18 17:56:09
151
转载 大模型时代的分割定位:Lisa、LLava- grounding、GSVA、PixelLM、AnyRef
大模型时代的分割定位:Lisa、LLava- grounding、GSVA、PixelLM、AnyRef
2024-07-17 13:11:45
227
原创 主流微调训练方法总结 LoRA、Adapter、Prefix-tuning、P-tuning、Prompt-tuning
一文搞清楚LORA、Prompt Tuning、P-Tuning、Adapter 、Prefix等大模型微调方法
2024-07-16 17:47:12
379
原创 KV caching, a deeper look
In the previous post, we introduced KV caching, a common optimization of the inference process of LLMs that make compute requirements of the (self-)attention mechanism to scale linearly rather than quadratically in the total sequence length (prompt + gener
2024-07-16 16:13:34
1000
原创 (Multiple Instance Learning)Attention-based Deep Multiple Instance Learning
https://proceedings.mlr.press/v80/ilse18a/ilse18a.pdf论文解读之Attention-based Deep Multiple Instance Learning-优快云博客
2024-07-16 13:01:24
222
原创 ConvNeXt
ConvNeXt-V2:当 MAE 遇见 ConvNeXt 会碰撞出怎样的火花?ConvNext详解ConvNeXt 详解ConvNeXt V2:用MAE训练CNNConvNeXt V2 论文笔记ConvNeXt V2:使用掩码自动编码器共同设计和扩展ConvNets
2024-07-15 17:04:57
143
转载 全局响应归一化GRN解析
这就是一个特征重标定的过程,特征归一化输出的其实是一个权重值,这个值载荷输入x相乘就能获得每个通道的重要程度,GRN中还加入了两个可学习参数weight和bias用于优化。通过在H和W维度上使用L2范数,把空间特征聚合成为一个向量,其实也可以使用类似SE里的全局平均池化层,主要用于获取全局性的通道信息。用于计算当前通道相对于其他通道的相对重要性,其值在0~1之间,该方法类似于SE里的sigmoid输出。中提出的一种归一化方法,其实也就是一种注意力机制,跟视觉中常用的。
2024-07-15 16:55:59
890
Text_Mining-From_Ontology_Learning_to_Automated_Text_Processing_Applications
2017-12-13
Swarm Intelligence Principles Advances and Applications
2018-01-13
Spark大数据处理技术 带标签 完整版
2017-11-12
Text Mining in Practice with R 2017.12
2017-12-13
模式分类11
2016-11-07
Fundamentals of Deep Learning完整非扫描版本2017
2017-12-16
Tensorflow 机器学习参考手册2007
2017-11-22
Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf
2017-12-18
集体编程智慧
2016-11-07
Pro Go The Complete Guide -go语言学习最新书籍
2023-06-19
Deep_Learning_Quick_Reference
2018-09-01
Advanced_Programming_in_the_UNIX_Environment,_3rd
2018-11-30
Python Machine Learning Machine Learning and Deep Learning
2018-03-27
Data Structures and Algorithms Using Python and C++
2018-03-27
Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow
2018-03-17
Convex Optimization Algorithms
2018-09-01
Approximate.Dynamic.Programming.2011
2018-01-17
Guide.to.Medical.Image.Analysis.Methods.and.Algorithms
2018-09-01
R_for_Data_Science
2018-03-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人