LLaMA/Gemma/Mistral:国外的开源LLM
文章平均质量分 96
LLaMA LLM系列:首个世界级开源模型
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一文速览MoE及其实现:从Mixtral 8x7B到DeepSeekMoE(含DS LLM的简介)
本文的前两部分一开始写于2023年12.23日,当时是属于此文《从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理分析到代码解读》的后半部分但2025年春节期间,deepseek火爆全球,其背后的MoE架构引发大量关注,考虑到MoE模型的重要性,特把MoE相关的模型独立成此文。原创 2025-01-31 18:18:32 · 13806 阅读 · 0 评论 -
一文速览Mistral 7B及其微调——我司论文审稿GPT第3.2版:微调Mistral 7B instruct 0.2
23年12月9日,Mistral AI 在 X 平台甩出一条磁力链接,打开一看,发现是接近 87 GB 的种子看上去,Mistral 8x7B的架构此前传闻的GPT-4架构非常相似(很像传闻中GPT-4的同款方案),但是「缩小版」:8 个专家总数,而不是 16 名(减少一半)每个专家为 7B 参数,而不是 166B(减少 24 倍)42B 总参数(估计)而不是 1.8T(减少 42 倍)与原始 GPT-4 相同的 32K 上下文。原创 2023-12-23 23:48:13 · 24810 阅读 · 16 评论 -
一文速览Gemma 2和Gemma 3:从论文审稿GPT第3.5版(微调Gemma),到第5.2版(早期paper-7方面review微调Gemma2)
如此文《》所讲Google作为曾经的AI老大,我司自然紧密关注,所以当Google总算开源了一个gemma 7b,作为有技术追求、技术信仰的我司,那必须得支持一下,比如用我司的paper-review数据集微调试下,彰显一下gemma的价值与威力。原创 2024-06-29 11:58:11 · 7331 阅读 · 0 评论 -
一文速览Llama 3.1——对其92页paper的全面细致解读:涵盖语言、视觉、语音的架构、原理
llama3 刚出来时,其长度只有8K对于包括我司在内的大模型开发者是个小小的缺憾,好在很快,在7.23日,Meta发布了Llama 3.1,长度终于达到了128K这个长度使得可以直接通过我司的paper-review数据集去微调了如此,便有了本文:解读下llama3.1的paper,结果一看92页,好在昨天我司上线了基于大模型的翻译系统,那先翻译一下 快速看下大概 然后慢慢抠。原创 2024-07-24 12:19:47 · 28555 阅读 · 7 评论 -
LLaMA的解读与其微调(含LLaMA 2):Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙
还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节)该项目部分一开始是作为此文《》的第4部分,但但随着研究深入 为避免该文篇幅又过长,将把『第4部分 开源项目』抽取出来 独立成本文。原创 2023-03-22 14:45:28 · 81307 阅读 · 16 评论 -
一文速览Llama 3:从Llama 3的模型架构到如何把长度扩展到100万——基于NTK-aware插值
4.19日凌晨正准备睡觉时,突然审稿项目组的文弱同学说:Meta发布Llama 3系列大语言模型了一查,还真是本文以大模型开发者的视角,帮你迅速梳理下LLama的关键特征,并对比上一个版本的LLama2,且本文后续,将更新用我司paper-review数据集微调llama3的训练过程。原创 2024-04-19 10:45:36 · 15552 阅读 · 1 评论
分享