
LLM
文章平均质量分 91
wshzd
机器学习,深度学习,NLP,强化学习
展开
-
LLM(十七)| 阿里Marco-o1:OpenAI-o1 的开源替代品
Marco-o1 旨在通过采用蒙特卡洛树搜索 (MCTS) 和思维链 (CoT) 微调等先进技术来处理复杂的推理任务。它的主要重点是为开放式问题生成多个解决方案,而不是满足于单一答案,这与类似人类的推理过程更紧密地保持一致。Marco-o1 不仅适用于具有明确答案的学科,例如数学、物理或编码,在这些学科中,使用强化学习 (RL) 很容易衡量成功。它还侧重于解决没有固定规则或明显方法来判断成功的开放式问题例如:想象一下 Marco-o1 是一个超级聪明的问题解决者。原创 2025-03-13 11:26:53 · 461 阅读 · 0 评论 -
LLM漫谈(十)| DeepSeek R1 微调指南
在本文中,我们将深入探讨使用 Python 微调 DeepSeek R1模型的过程。原创 2025-03-13 10:43:47 · 903 阅读 · 0 评论 -
LLM漫谈(九)| DeepSeek NSA论文全文翻译
长文本建模对于下一代语言模型至关重要,然而标准注意力机制的高计算成本带来了显著的计算挑战。稀疏注意力为提高效率的同时保持模型能力提供了一个有前景的方向。我们提出了 NSA(Native Sparse Attention),这是一种可原生训练的稀疏注意力机制,通过将算法创新与硬件对齐优化相结合,实现了高效的长文本建模。NSA 采用动态层次化的稀疏策略,将粗粒度的标记压缩与细粒度的标记选择相结合,既保留了全局上下文感知能力,又保持了局部精度。原创 2025-02-20 18:36:06 · 869 阅读 · 0 评论 -
LLM(十六)| s1:50美元大模型可以和DeepSeek R1媲美吗?
在推理阶段,s1 引入了一种预算强制方法来控制推理时间和计算。这是一个简单的解码时间干预,控制思维标记的数量:为了强制执行最大值,将附加 end-of-thinking token 和 “Final Answer:” 以强制提前退出并提示模型提供其最佳答案。为了强制执行最小值,会抑制 end-of-thinking 标记,并且可以将 “Wait” 添加到推理路径中,从而鼓励进一步的思考。图3.s1-32B 的预算强制。原创 2025-02-19 17:13:12 · 818 阅读 · 0 评论 -
LLM(十五)| Kimi k1.5:解锁语言模型强化学习新高度
为了让短 CoT 模型也能有更好的表现,Kimi k1.5 提出了几种方法,比如模型合并,直接平均长 CoT 和短 CoT 模型的权重;而强化学习为人工智能的发展开辟了新方向,Kimi k1.5 就是基于强化学习训练的多模态大模型,它能通过奖励机制探索学习,不再局限于固定的数据集。利用精心设计的提示工程,构建高质量的长 CoT 热身数据集,让模型学习人类的推理策略,如规划、评估、反思和探索。同时,引入长度惩罚机制,避免模型生成过长的推理过程,还提出了课程采样和优先采样两种策略,提高训练效率。原创 2025-02-17 16:03:37 · 825 阅读 · 0 评论 -
LLM(十四)| DeepSeek-R1概况
2025年1月20日,杭州深度求索人工智能基础技术研究有限公司发布高性能AI推理模型DeepSeek-R1,对标OpenAI的o1正式版。目前发布了两个版本:DeepSeek R1-Zero 和 DeepSeek R1。其中,DeepSeek-R1-Zero 是一个完全基于强化学习(RL)训练而无需监督微调(SFT)的模型。通过强化学习(RL),DeepSeek-R1-Zero 自然地展现出许多强大且有趣的推理行为。然而,它也遇到了一些挑战,如可读性差和语言混合问题。原创 2025-02-08 14:58:51 · 2359 阅读 · 0 评论 -
LLM(十三)| DeepSeek-R1论文全文翻译
我们介绍第一代推理模型:DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个完全通过大规模强化学习(RL)训练而无需监督微调(SFT)作为初步步骤的模型,展示了显著的推理能力。通过RL,DeepSeek-R1-Zero 自然地展现出许多强大且有趣的推理行为。然而,它也遇到了一些挑战,如可读性差和语言混合问题。为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它在RL之前引入了多阶段训练和冷启动数据。原创 2025-02-08 14:55:02 · 913 阅读 · 0 评论 -
MLLM(四)| 阿里多模态大模型QVQ-72B-Preview: 以智慧看世界
QVQ 在 MMMU 上获得了 70.3 分,与 Qwen2-VL-72B-Struct 相比,在数学相关基准测试中显示出显着改进。通过仔细的逐步推理,QVQ 在视觉推理任务中展示了增强的能力,尤其是在需要复杂分析思维的领域中表现出色。QVQ-72B-Preview 在 MMMU 基准测试中以70.3 分超过其前身 Qwen2-VL-72B-Instruct。此外,在其余三个专注于数学和科学问题的基准测试中,该模型表现出卓越的性能,有效地缩小了与领先的最先进的 o1 模型的差距。原创 2025-01-03 14:45:52 · 714 阅读 · 0 评论 -
LLM(十二)| DeepSeek-V3 技术报告深度解读——开源模型的巅峰之作
DeepSeek-AI 团队最新发布的 DeepSeek-V3,作为一款强大的混合专家模型(Mixture-of-Experts, MoE),凭借其高效的架构和创新的训练策略,成为了当前最强的开源模型之一。通过创新的架构设计、高效的训练策略和经济的成本控制,DeepSeek-V3 不仅成为了当前最强的开源模型之一,也为未来的 AI 研究提供了宝贵的参考。DeepSeek-V3 的推理部署采用了 预填充(Prefilling) 和 解码(Decoding) 分离的策略,确保了在线服务的高吞吐量和低延迟。原创 2024-12-31 15:44:58 · 23425 阅读 · 0 评论 -
LLM漫谈(八)| OpenAI 12天直播集锦
🛠️ ChatGPT Canvas 是 OpenAI 在今年10月推出的基于 ChatGPT 的全新功能,经过数月的测试,现已正式上线。🎊🔖 OpenAI 官方将 Canvas 定义为 "A new way of working with ChatGPT to write and code",意在通过这一功能提升写作与编程的效率。Canvas 名字源于英文“画布”的含义,它为用户提供了一个独立的可视化工作区,突破了传统聊天框的交互限制。🎨。原创 2024-12-26 16:00:51 · 1070 阅读 · 0 评论 -
MLLM(三)| BigModel平台正式上线Plus系列全家桶
2024年8月28日,在ACM SIGKDD(国际数据挖掘与知识发现大会,KDD)会议现场,智谱AI重磅推出新一代全自研基座大模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus和文生图模型CogView-3-Plus。文生图模型迎来最新版本CogView-3-Plus,其效果接近目前最佳的 MJ-V6 及 FLUX 等模型,并支持图片编辑功能。:在城市的一个广场上,傍晚时分,落日映射着白云,天上有一群大雁在飞翔,地上有几个人在游乐场玩耍。三个大模型在长文本推理方面,表现一致的好。原创 2024-09-09 09:49:23 · 958 阅读 · 1 评论 -
MLLM(二)| 阿里开源视频理解大模型:Qwen2-VL
从六个关键维度评估模型的视觉能力:复杂的大学水平问题解决、数学能力、文档和表格理解、多语言文本图像理解、一般场景问答、视频理解和基于代理的交互。此功能为更直观和身临其境的交互铺平了道路,Qwen2-VL 不仅充当观察者,而且是我们视觉体验的积极参与者。此外,更小的 2B 模型针对潜在的移动部署进行了优化。Qwen2-VL 现在拥有改进的对象识别功能,超越了植物和地标,可以理解场景中多个对象之间的复杂关系。在 7B 模型上,保留了对图像、多图像和视频输入的支持,以更具成本效益的模型大小提供有竞争力的性能。原创 2024-09-05 09:58:03 · 4813 阅读 · 0 评论 -
MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX
自2021年起,智谱 AI 技术团队便开始着手布局包括 text-2-img、text-2-video、img-2-text、video-2-text 在内的多模态模型,并陆续研发并开源了CogView、CogVideo、Relay Diffusion、CogVLM、CogVLM-Video等多个先进模型。这一创新增强了模型对文本的理解和对指令的遵循能力,确保生成的视频更加符合用户的输入需求,并能够处理超长且复杂的prompt指令。接下来,使用上述生成的视频id抽取视频内容。生成的效果不错,非常高清。原创 2024-09-02 15:16:02 · 1380 阅读 · 0 评论 -
LLM漫谈(五)| 从q star视角解密OpenAI 2027年实现AGI计划
Q*的下一阶段,最初是GPT-6,但后来更名为GPT-7(最初于2026年发布),但因埃隆·马斯克最近的诉讼而被搁置,Q*2025(GPT-8)计划于2027年发布,实现完全AGI。尽管GPT-4发布于2023年3月,略晚于Igor Baikov声称的12月至2月窗口期(我认为这是OpenAI故意抹黑Igor的泄露),但Bing ChatGPT(基于GPT-4)实际上是在2023年2月发布的,这清楚地表明Igor声称的窗口期是有效的,很可能在最后一分钟被惊慌失措的OpenAI更改了。原创 2024-03-22 12:37:33 · 1682 阅读 · 0 评论 -
LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型
Claude 3 Opus不仅实现了近乎完美的回忆,准确率超过99%,而且在某些情况下,它甚至可以识别出评估本身的局限性,即“针”句子似乎是由人类人工插入到原始文本中的。如下所示,Claude 3模型显示出对请求的更细致理解,识别出真正的危害,并更少地拒绝无害的提示。我们的红团队评估[8](根据我们的白宫承诺和2023年美国行政命令进行)得出的结论是,这些模型目前存在的灾难性风险可能性可以忽略不计。Claude 3 Opus是我们最智能的模型,在高度复杂的任务中具有市场上最好的性能。原创 2024-03-05 17:47:13 · 1577 阅读 · 0 评论 -
类ChatGPT国产大模型ChatGLM-6B,单卡即可运行
2023年3月14日GPT4又发布了,在ChatGPT发展如火如荼的当下,我们更应该关注国内的进展,今天将分享一个清华大学基于GLM-130B模型开发的类似ChatGPT的ChatGLM-6B模型,ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。因此,如果输入英文指示,回复的质量远不如中文,甚至与中文指示下的内容矛盾,并且出现中英夹杂的情况;例如当前版本的模型在被误导的情况下,会在自我认知上发生偏差。原创 2023-03-15 19:08:32 · 8852 阅读 · 0 评论 -
LLM漫谈(四)| ChatDOC:超越ChatPDF性能并支持更多功能的阅读聊天工具
尽管ChatPDF较早推出,但ChatDOC最终超越它,在ChatPDF提供的基本功能的基础上提供了一系列高级且非常有用的功能。在过去的一年里,ChatGPT的兴起催生了许多基于GPT的人工智能工具,其中Chat PDF工具得到了广泛关注。ChatDOC现在支持广泛的文件格式,不仅仅是PDF文档,包括:word文件(.doc、.docx)、markdown、epub、txt、扫描文件、网站。在ChatDOC上,你可以选择文本/表格/公式来提出更具体的问题,让人工智能专注于某一内容进行详细解释。原创 2024-01-26 23:12:29 · 2859 阅读 · 0 评论