国产Qwen与GLM LLM系列:含最新Qwen3
文章平均质量分 96
Qwen3/GLM4大语言模型系列:含MoE结构
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一文通透Qwen LLM系列——从Qwen、Qwen1.5、Qwen2、Qwen2.5到Qwen3(融合了chat和推理)、Qwen3 MoE
通义千问Qwen3系列大模型在架构、训练和数据方面实现全面升级。该系列包含6个稠密模型和2个MoE模型,其中2350亿参数的旗舰模型Qwen3-235B-A22B在多项基准测试中超越同类产品。模型采用分组查询注意力、SwiGLU等先进架构,通过三阶段预训练(通用、推理、长上下文)处理36万亿token的多语言数据。后训练创新性地引入"思维控制"和"强到弱蒸馏"技术,显著提升模型推理能力和训练效率。相比前代Qwen2.5,新模型在参数效率、多语言支持和长文本处理等方面均原创 2025-08-16 15:00:02 · 7853 阅读 · 0 评论 -
baichuan7B/13B的原理与微调:从baichuan的SFT实现到baichuan2的RLHF实现
2023年7月11日,百川智能发布Baichuan-13B(这是其GitHub地址Baichuan-13B 是继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,本次发布包含以下两个版本预训练(对齐(,July注:我看了下代码,这里的对齐指的是通过对话数据对齐,即只做了SFT,没做RLHF)更大尺寸、更多数据Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到130亿,并且在高质量的语料上训练了1.4。原创 2023-07-05 11:34:45 · 19458 阅读 · 15 评论 -
医疗金融法律大模型:从ChatDoctor到BloombergGPT/FinGPT/FinBERT、ChatLaw/LawGPT_zh
第一部分 各种医疗类ChatGPT:或中英文数据微调LLaMA、或中文数据微调ChatGLM1.1基于LLaMA微调的中英文版ChatDoctor11.1.1 ChatDoctor:通过self-instruct技术提示API的数据和医患对话数据集微调LLaMA原创 2023-07-05 10:45:26 · 20666 阅读 · 0 评论 -
ChatGLM两代的部署/微调/实现:从基座GLM、ChatGLM的LoRA/P-Tuning微调、6B源码解读到ChatGLM2的微调与实现
随着『GPT4多模态/Microsoft 365 Copilot/Github Copilot X/ChatGPT插件』的推出,绝大部分公司的技术 产品 服务,以及绝大部分人的工作都将被革新一遍类似iPhone的诞生 大家面向iOS编程 有了App Store现在有了ChatGPT插件/GPT应用商店,以后很多公司 很多人面向GPT编程(很快技术人员分两种,一种懂GPT,一种不懂GPT)然ChatGPT/GPT4基本不可能开源了,而通过上文《原创 2023-03-31 16:40:41 · 67634 阅读 · 21 评论
分享