- 博客(337)
- 收藏
- 关注
原创 小米的大模型,就问你快不快吧
📄 技术报告:http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf。📝 博客文章:http://mimo.xiaomi.com/blog/mimo-v2-flash。🤗 模型权重:http://hf.co/XiaomiMiMo/MiMo-V2-Flash。🎨 AI 工坊:http://aistudio.xiaomimimo.com。我看了一下小米这个 MiMo-V2-Flash,也试用了一下,但。
2025-12-19 22:54:14
359
原创 大模型本地部署,小号的vLLM来了
一文中提到 2025 年最热门的项目分布在 AI 基础设施(vllm、ollama、huggingface/transformers)和持久的生态系统(vscode、godot、home-assistant)之间。唯一让我不满的是我在内网用 docker 起 vLLM,它太大了,足足 22 个 GB。这个推理引擎也是我最喜爱的,本号测试部署的 N 多大模型都是用它来部署的。时间关系,我还没有本地跑大参数模型,后续肯定要试一试的。这种小模型,时延更小,吞吐量更大,看起来是很不错的样子。
2025-11-18 13:44:29
683
原创 AI 时代,印度崛起了
GitHub 2025年度开发者趋势报告显示三大关键变化:1)生成式AI成为开发标配,超110万仓库使用LLM SDK;2)TypeScript超越Python成为最受欢迎语言;3)AI正在重塑开发者的工具选择。数据显示GitHub开发者数量突破1.8亿,印度新增520万开发者居首。AI基础设施项目增长最快,vLLM等推理引擎项目贡献者激增。TypeScript贡献者同比增长66%达榜首,Python仍主导AI领域但增速放缓。报告指出AI不仅加速编码,更深刻影响了开发者生态系统的演进方向。
2025-11-13 13:50:53
808
原创 Kimi-K2-Thinking 开源大模型新王,权威测试结果公布
与此前发布的 Kimi K2 Instruct 使用 FP8 精度不同,K2 Thinking 原生以 INT4 精度发布,结果是,K2 Thinking 仅约 594 GB,而 K2 Instruct 与 K2 Instruct 0905 略超 1 TB——从而在推理与训练中获得效率提升。总而言之,Kimi K2 Thinking 是一款特点鲜明的模型,它以卓越的智能和专业能力为开源领域树-立了新的标杆,证明了开源模型追赶甚至超越闭源模型的可能性。以编码为重点的评估基准,用于评估大型语言模型的性能。
2025-11-12 14:32:43
1279
原创 Kimi K2 Thinking 量化之后再量化,模型文件缩水60%,准确率85%,部署教程来了
Kimi K2 Thinking模型通过1-bit量化技术将594GB模型缩减至247GB,大幅降低部署成本。Unsloth团队采用MoE卸载技术,仅需8GB显存即可运行,支持CPU/GPU混合部署。部署流程分三步:编译llama.cpp、下载量化模型、配置MoE卸载参数。推荐使用UD-Q2_K_XL(381GB)版本平衡性能与精度。模型支持OpenAI API格式调用,并具备独特的"思考过程"展示功能。尽管量化后性能有所妥协,但为资源有限场景提供了运行超大模型的可能性。
2025-11-10 22:05:18
532
原创 迄今为止最大的开源模型Kimi K2 Thinking ,硬钢闭源模型
模型是具有通用 Agentic 能力和推理能力的思考模型,它擅长深度推理,并可通过多步工具调用,帮助解决各类难题。什么让它与众不同:⚡ 原生 INT4 量化 → 2 倍快速推理💾 占用内存减半,无精度损失🎯 256K 上下文,支持 200-300 次工具调用官方释放的基准测试结果:🔹 在 HLE (44.9%) 和 BrowseComp (60.2%) 上达到 SOTA🔹 最多可以执行 200 – 300 个连续的工具调用 无需人工干预。
2025-11-07 16:20:55
1116
原创 Ollama,危?llama cpp 的Web UI来了
现在 llama.cpp 迎来重大更新,它也有了自己的 Web UI,我测试了安装部署和自行打包,很多地方确实比 Ollama 还有方便好用。Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的,GGUF 模型格式也是由 llama.cpp 的作者所开发。目前硬伤是只能浏览器,想打包成 app 也可以,我使用的是 tw93 开发的 pake,一行命令即可,本地服务也可以打包成 app。然后启动 UI,也是命令行,为了快速测试,我调用 Qwen2.5 的 0.5b。
2025-11-05 16:20:02
544
原创 迄今为止最强的中文模型Qwen3-Max,实测,略失望
国产大模型发展迅猛,开源生态繁荣。Kimi、DeepSeek、智谱AI等推出创新模型,阿里成为全球开源模型数量最多的厂商。文章重点测试了阿里Qwen3-Max的表现:在器官分布、3D粒子星系等任务上表现优异,但处理复杂任务如SVG生成、3D动画等时存在不足,几何问题解答也出现错误。整体来看,国产大模型虽进步显著,但在复杂场景下的稳定性和准确性仍需提升。测试表明,当前开源大模型与顶级闭源模型仍存在差距。
2025-11-04 16:43:27
666
原创 Kimi CLI 有何不同?没有
大家好,我是 Ai 学习的老章市面上 CLI 类 AI 助手太多了,外面有Codex CLIGemini CLI,国内有Qwen CoderKimi-CLI出来,正好有空,测试一下怎么样。
2025-11-03 14:00:02
1147
原创 最好的大模型训练、微调教程.pdf
它也有PDF版本:https://huggingfacetb-smol-training-playbook.hf.space/the-smol-training-playbook-the-secrets-to-building-world-class-llms.pdf。你不需要从头到尾逐字阅读这篇博客文章,而且从目前来看,一次性读完整篇文章是不现实的(有点吃力)。我本想翻译,但是即便是网页版全文翻也非常慢,token消耗太多了。我是配合使用沉浸式翻译阅读的,之前我介绍过。大家好,我是Ai学习的老章。
2025-11-03 13:30:59
794
原创 一个强大的开源OCR工具,基于DeepSeek OCR
DeepSeek OCR App 是一个功能强大、界面美观且易于部署的开源OCR工具。无论你是需要从图片中提取文字、理解图片内容,还是需要从复杂的图表中提取数据,这个项目都为你提供了一个极佳的解决方案。对于希望在本地拥有先进OCR能力的用户和开发者来说,这绝对是一个不容错过的项目。
2025-10-24 16:56:16
1397
原创 论文阅读已死,alphaXiv 新功能,彻底颠覆科研工作流
该系统基于一种新颖的 DeepEncoder 架构,搭配 DeepSeek-3B-MoE 解码器,使用显著少于现有方法的视觉标记实现了最先进的 OCR 性能。然后就是 alphaXiv 使用 DeepSeek 最新开源的 OCR 模型,从超过 50 万篇 AI arXiv 论文中的表格/图表中提取了每个数据集,花费了 1000 美元 🚀 ,相比之前使用 Mistral OCR 完成相同任务将花费 7500 美元,处理 PDF 成本下降了 9/10。AI 时代论文暴增,看论文方式也该升级了。
2025-10-23 15:09:14
459
原创 一套完整的 RAG 脚手架,附完整代码,基于LangChain
简单来说,bRAG-langchain 是一个专注于探索LangChain 框架下 RAG 技术的开源项目。它不仅仅是代码的堆砌,更是一套系统性的学习路径,旨在帮助开发者理解并实践 RAG 的各种高级策略。项目巧妙地将复杂的 RAG 概念拆解成一个个独立的 Jupyter Notebooks,每个 Notebook 都聚焦于一个特定的主题,让你能够循序渐进地掌握 RAG 的精髓。项目为所有希望在 RAG 领域深耕的开发者提供了一个宝贵的资源库。
2025-10-22 15:28:05
1096
原创 Ollama 新动作,联网搜索、MCP、云端大模型,更强了
大家好,我是 Ai 学习的老章。Ollama 最近又搞了几个大新闻,不仅在免费云端模型里加入了强大的 Qwen3-VL,还推出了能让大模型联网的网页搜索 API。作为 Ollama 的忠实用户,我必须得带大家深入体验一下。
2025-10-17 16:31:19
749
原创 快手编程大模型真实水平,本地部署,实测
大家好,我是 Ai 学习的老章快手编程大模型 KAT-Dev-72B-Exp 开源了,在 SWE-Bench Verified 基准测试中的得分,开源模型首位。其他几个开源模型得分是:Qwen3-Coder(约 70%)、GLM-4.6(约 70%)、DeepSeek V3.1(约 67%)、Kimi K2(约 67%),能在阿里通义、智谱 AI、DeepSeek 和 Moonshot 的"围剿"下占领榜首,厉害!本文就简单介绍 KAT-Dev-72B-Exp 并本地部署后简单测试性能及水平。
2025-10-16 17:07:42
576
原创 Github 的新动作
大家好,我是 Ai 学习的老章现在的 AI 编程都在往命令行发展了,Claude Code、Codex CLI、Gemini-CLI、Qwen Coder 等等[[2025-07-18-Claude Code + Kimi K2 & DeepSeek 强强联合]]现在 Github 的 Copilot 也来了——GitHub Copilot CLI将 GitHub Copilot 智能编程助手的强大功能直接引入到终端,可以在本地与理解代码及 GitHub 上下文的 AI 助手进行同步协作。
2025-10-15 16:10:08
1195
原创 智谱GLM-4.5-Air量化大模型,本地部署,实测
大家好,我是 Ai 学习的老章之前对智谱 AI 的关注比较少,最近发布的的 GLM4.6 非常能打GLM-4.6 在编程能力、长文本处理、逻辑推理、信息检索、内容创作及智能体应用等六大核心领域实现全面升级。在公开测试基准中,该模型的代码生成能力已达到国际领先水平,与 Claude Sonnet 4 模型持平,是国内目前表现最优的编程专用模型。GLM-4.6 在在综合性能评估中位列全球第四,与阿里巴巴旗下 Qwen3-Max-Preview 模型并列中国区榜首,同时摘得全球开源模型桂冠。
2025-10-15 11:31:33
1816
原创 Chrome浏览器最新AI功能,是一坨
但是它的回复内容说是 Based on the information on the web page,却没有参考当前网页,而是直接联网搜索。点击 Yes,I’m in,后续使用时 Ctrl+G 快捷键可以调出 Gemini in Chrome。动作属实有点慢了,主打 AI 的浏览器 Arc、Dia 都早就火过 N 轮了,Chrome 略谨慎了。我目前在 Chrome 使用 AI,主要严重依赖沉浸式翻译和豆包插件,翻译、总结、提炼特方便。而且,同样的问题,用英语提问和中文回复,结果却天壤之别。
2025-10-15 11:02:27
357
原创 全球最小的AI超级计算机:本地跑大模型,秒杀Mac Mini
大家好,我是章北海Nvidia 又出新了——全球最小 AI 超级计算机 NVIDIA DGX SparkDGX Spark 配备 128GB 统一内存,可以在本地运行 2000 亿参数规模的大模型,微调 700 亿参数级别的大模型,它还支持开发者在本地创建 AI 智能体并运行先进软件栈。
2025-10-14 15:09:17
1046
原创 全球最小的AI超级计算机:本地跑大模型,秒杀Mac Mini
大家好,我是章北海Nvidia 又出新了——全球最小 AI 超级计算机 NVIDIA DGX SparkDGX Spark 配备 128GB 统一内存,可以在本地运行 2000 亿参数规模的大模型,微调 700 亿参数级别的大模型,它还支持开发者在本地创建 AI 智能体并运行先进软件栈。
2025-10-14 14:59:10
724
原创 花了50 美元,测试大模型大海捞针能力,Qwen3_14B太惊艳了
大家好,我是Ai学习的老章作者在 H·G·威尔斯的《时间机器》中插入了几段荒谬对话,测试文本长达 1 万词元(约覆盖小说前 5 章内容),并附带简短系统提示要求大模型定位这些荒谬对话并复述。选择的模型都是可以在 32GB 显存GPU可运行的量化模型评分标准:所有模型在每个温度值下都进行了多次测试(例如在 0.0、0.1、0.2、0.3 等温度下分别进行多次测试),这些结果被汇总为最终得分。"得分"列表示 LLM 成功解决提示的测试百分比(即正确返回异常行的情况)。
2025-06-26 15:39:27
1135
原创 20GB 内存,本地运行 DeepSeek-R1-0528
DeepSeek-R1-0528 是 DeepSeek 推出的最新推理模型,参数规模高达 671 亿(671B),性能据称可媲美 OpenAI 的 o3 和 o4-mini-high。原始模型需要 715GB 存储空间,对硬件要求极高。通过 Unsloth 团队的动态量化技术(如 1.78-bit、2-bit 等),模型大小压缩至 168GB(约 80% 压缩),显著降低了运行门槛,使其可在消费级设备上运行。此外,
2025-06-25 14:11:13
1048
原创 本地部署大模型性能测试,DeepSeek-R1-0528-Qwen-8B 依然是我的不二之选
大家好,我是 ai 学习的老章介绍一个大模型并发性能测试工具看一下我高频使用的,在显卡上部署的 性能如何_我_特别喜欢的三个DeepSeek版本DeepSeek-R1-0528 蒸馏 Qwen3:8B 大模型,双 4090 本地部署,深得我心项目地址:LLM-Benchmark 是一个专为大语言模型(LLM)设计的并发性能测试工具,旨在为模型开发者和运维人员提供自动化压力测试和性能报告生成能力。通过该工具,用户可以在不同并发场景下全面评估 LLM 服务的响应能力与稳定性,为模型部署和优化提供数据支持。主要
2025-06-24 17:16:27
1392
原创 kimi 开源
摘要:MiniMax开源456B参数的M1系列MoE大模型,支持100万token上下文。同时Kimi开源基于Qwen2.5的72B模型"Kimi-Dev-72B",专为软件工程优化,在SWE-bench测试中以60.4%成绩刷新纪录。但实测效果被质疑不如DeepSeek-R1,存在多语言处理弱化、严重幻觉等问题。作者通过OpenRouter测试发现其中文回复效果较差,仅改变颜色而内容仍为英文。文章包含模型对比及测试方法,并提供相关技术资料链接。
2025-06-18 16:57:08
901
原创 开源大模型, 重量级选手+1
MiniMax-M1大模型重磅开源:4560亿参数支持百万token上下文 摘要:国内AI公司MiniMax发布开源的MoE架构大模型MiniMax-M1,采用混合专家模型和闪电注意力机制,具备三大技术优势:高效计算、参数激活优化和线性扩展能力。该模型总参数达4560亿,原生支持100万token超长上下文输入和8万token输出,处理效率超过同类产品。性能测评显示,其在复杂推理、长文本处理和工具调用方面表现优异,数学推理成绩达96.8%。部署需要8块H800/H20 GPU服务器,模型文件达910GB。实
2025-06-17 13:26:02
1072
原创 我特别喜欢的三个DeepSeek版本
老章分享了三个高频使用的DeepSeek模型:1)DeepSeek-R1-0528-Qwen3-8B,低成本高性能,适合知识库相关任务;2)DeepSeek-R1-0528,性能强大的免费模型,常用于资料查询和代码编写;3)DeepSeek-V3-Fast,极速推理版本,适用于快速总结和翻译。文中还推荐了相关技术资料和工具,并邀请读者点赞关注。(148字)
2025-06-16 15:51:01
648
原创 一个超强的推理增强大模型,开源了,本地部署
Mistral公司发布首款推理大模型Magistral及其自研强化学习流程。Magistral包含24B参数的开源版Small和企业版Medium,采用纯RL训练方法增强多步推理能力,在GPQA等专业测试中表现优异。该模型支持128k上下文,量化后可本地部署。官方提供了llama.cpp等量化版本,并建议特定参数设置以获得最佳性能。Magistral的设计理念强调透明推理流程和多语言适应性,但中文支持相对较弱。
2025-06-11 14:23:48
987
原创 阿里牛逼,又开源两个遥遥领先的模型(向量化、重排),知识库要翻天地覆了
阿里开源家族新增Qwen3-Embedding和Qwen3-Reranker两款模型,专为文本表征、检索和排序任务设计。Qwen3-Embedding提供0.6B、4B和8B三种参数版本,其中8B版在MTEB多语言排行榜位列第一,0.6B版模型文件仅1.2GB。Qwen3-Reranker同样提供三款参数版本,在多项检索任务中表现优异。两款模型均支持指令感知和119种语言,适用于知识库、RAG等场景。Qwen3-Reranker-0.6B已超越同类产品BGE-reranker-v2-m3。目前模型可通过Mo
2025-06-06 16:07:37
1507
原创 DeepSeek-R1蒸馏Qwen3-8B模型,双 4090本地部署,深得我心
《DeepSeek-R1-0528-Qwen3-8B模型实测:2张4090部署,性能接近32B大模型》 文章介绍了DeepSeek最新开源的数学推理专用模型DeepSeek-R1-0528-Qwen3-8B,该模型通过思维链蒸馏技术训练,在AIME数学竞赛测试中86.0分,性能超越原版Qwen3-8B 10%,接近Qwen3-32B水平。作者使用2张4090显卡通过vLLM成功部署该16GB模型,推理速度达90 tokens/s(Qwen3-32B为40 tokens/s)。实测显示,该模型在自我介绍、代码
2025-06-05 14:42:19
1957
原创 用大模型,把论文吃干榨净!
大家好,我是 Ai 学习的老章大模型火热,各种论文满天飞我主要在 arxiv 看最新的 AI、大模型方面本号数次推荐过一些好用的读论文工具,有点散本文就做个总结——借助大模型,把论文精髓吃干榨净。
2025-06-04 12:16:00
771
原创 小米又开源了,一个多模态大模型,一个生不逢时的推理大模型
大家好,我是 Ai 学习的老章上月底,,它从零开始训练并专为推理任务设计的模型系列。通过优化的预训练和后训练策略,MiMo-7B 展现出了超越许多更大模型的推理潜力。昨天,小米又开源了 MiMo-VL-7B 系列多模态大模型、MiMo-7B-RL-0530 系列推理模型咱们挨个看一下情况。
2025-06-04 12:14:00
1081
原创 小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型
小米开源多模态大模型MiMo-VL-7B与推理模型MiMo-7B-RL-0530。MiMo-VL-7B支持文字、图像、视频输入,包含SFT和RL两个版本,在多项基准测试中表现优异,号称超越同参数开源模型。同时发布的MiMo-7B-RL-0530专注于数学和代码推理,支持SGLang和vLLM部署。文章对比了这些模型与阿里Qwen2.5-VL-7B和DeepSeek-R1-0528的性能,但指出缺乏详细部署文档和试用体验。文末附有技术报告PPT及相关资源链接。
2025-06-04 11:57:00
995
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅