
由AI辅助创作
文章平均质量分 89
主要内容可能是借由AI结合联网信息生成。
俊哥V
修心
展开
-
AI一周事件(2025年4月15日至4月22日)
本周AI领域呈现“技术突破加速、政策博弈深化、生态竞争白热化”的特点。原创 2025-04-22 19:21:59 · 580 阅读 · 0 评论 -
AI一周事件(2025年4月8日至4月16日)
推进大模型垂直化落地,开源与闭源路线分化加剧。原创 2025-04-16 20:26:56 · 1130 阅读 · 0 评论 -
AI一周事件(2025年3月31日至4月7日)
Meta发布了Llama 4系列,包括Llama 4 Scout(长文本处理)和Llama 4 Maverick(创意写作),Llama 4 Behemoth(STEM专用)也在预览中。阿里巴巴的通义千问模型在全球开源模型排行榜中位居第一,显示了中国在AI开源生态系统中的领先地位。AI公司Runway推出了Gen-4视频模型,进一步提升了AI在视频生成领域的性能。OpenAI的ChatGPT推出了原生图像生成功能,并向免费用户开放,这进一步推动了AI图像生成技术的普及。, 这可能进一步扩大AI的全球影响。原创 2025-04-08 14:04:35 · 389 阅读 · 0 评论 -
阿里通义千问发布全模态开源大模型Qwen2.5-Omni-7B
Qwen2.5-Omni 是一个端到端的多模态模型,旨在感知多种模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。(以下借助 DeepSeek-R1 辅助生成),阿里巴巴通义千问团队正式发布并开源了其新一代旗舰模型,这是全球首个支持文本、图像、音频、视频全模态端到端交互的轻量化大模型。该模型以实现多模态能力全面突破,不仅在性能上超越同类闭源模型,更通过开源策略推动AI技术普惠化。原创 2025-04-01 19:19:55 · 1274 阅读 · 1 评论 -
AI一周热点事件(全球AI新闻-2025年3月24日至3月31日)
过去一周,AI及其相关领域在技术和商业层面上发生了多起重大事件,特别是在中国和美国。这些进展不仅展示了AI技术的快速迭代,也反映了中美两国在全球AI竞争中的战略布局。以下是详细分析,旨在为技术编辑提供全面的背景信息。原创 2025-04-01 14:00:55 · 3662 阅读 · 0 评论 -
[笔记.AI]大模型训练 与 向量值 的关系
在预训练阶段(如BERT、GPT的初始训练),模型的嵌入层(Embedding Layer)作为可训练参数,通过反向传播不断优化。词汇“苹果”在初始时可能随机分布,但经过训练后,其向量会靠近“水果”或“公司”(取决于上下文频率)。通用语料训练的向量可能无法准确表示专业术语(如医疗词汇“化疗”需更接近“癌症”而非日常语境)。新词汇(如“元宇宙”)或词义变化(如“直播”从电视到互联网)需更新向量。:解冻所有模型参数(包括嵌入层),向量化的值会随新任务的数据调整。:“合同”等专业术语的向量会更贴近领域语义。原创 2025-03-29 18:25:18 · 514 阅读 · 0 评论 -
[笔记.AI]初始向量
这些初始向量是模型训练的基础,它们的生成方式直接影响模型的收敛速度和最终性能。使用公开的词向量库(如 Word2Vec 的 Google News 300 维向量,或 GloVe 的 50/100/200/300 维向量)。在某些场景中,模型会直接加载预训练的词向量(如 Word2Vec、GloVe)作为初始值,以加速训练或提升效果。将当前模型的词汇表与预训练词向量库的词汇表对齐,未对齐的 Token 仍随机初始化。适用于大规模预训练模型(如 GPT、BERT 的初始训练阶段)。原创 2025-03-29 18:05:06 · 1181 阅读 · 0 评论 -
[笔记.AI]向量化
是将文本、图像、音频等非结构化数据转换为高维数值向量(即一组数字)的过程。这些向量能够捕捉数据的语义、特征或上下文信息,使计算机能够通过数学运算(如相似度计算、聚类、分类等)处理和理解非结构化内容。原创 2025-03-29 17:54:10 · 576 阅读 · 0 评论 -
[笔记.AI]不同大模型的向量化结果差异
(下面借助 DeepSeek-V3 生成)。:例如,BERT-base 的嵌入维度为 768,而 GPT-3 的嵌入维度为 12288(通过多层堆叠实现),向量空间的结构完全不同。:BERT 使用双向注意力,生成的向量包含全局上下文信息;而 GPT 采用单向自回归,向量更侧重左侧上下文。:如 Transformer 层数越多(如 GPT-3 有 96 层),向量经过更多非线性变换,语义抽象程度更高。原创 2025-03-29 17:53:03 · 735 阅读 · 0 评论 -
DeepSeek-V3-0324 版本升级概要
模型改进与性能提升:推理能力增强:在多个基准测试中表现出显著提升,如MMLU-Pro从75.9提高到81.2,GPQA从59.1提高到68.4,AIME从39.6提高到59.4,LiveCodeBench从39.2提高到49.2。代码执行优化:提高了代码的可执行性,生成更加美观的网页和游戏前端界面。中文写作能力提升:增强了写作风格和内容质量,尤其在中长篇文章写作中表现更佳,对齐R1写作风格。功能增强:多轮交互重写:改进了多轮交互式的重写功能。翻译和写信优化:优化了翻译质量和写信功能。搜索功能增原创 2025-03-26 13:53:49 · 747 阅读 · 0 评论 -
[新闻.AI] Google DeepMind 发布 Gemini 2.5 Pro 模型
Gemini 2.5 是 Google DeepMind 在 2025 年 3 月 25 日发布的最新 AI 模型。该模型被定位为“思考模型”,能够在其生成响应前进行推理,从而提升性能和准确性。这一特性建立在之前的强化学习和链式思维提示技术之上,延续了 Gemini 系列的创新。原创 2025-03-26 13:33:12 · 996 阅读 · 0 评论 -
AI一周热点事件(全球AI新闻-2025年3月17日至3月24日)
NVIDIA GTC 2025的公告展示了AI硬件和应用的最新进展,而美国AI立法的激增和公众讨论则反映了社会对AI影响的关注。随着AI继续融入各行各业,保持对这些发展的了解对于技术社区至关重要。原创 2025-03-25 14:17:34 · 897 阅读 · 0 评论 -
[新闻.AI]国产大模型新突破:阿里开源 Qwen2.5-VL-32B 与 DeepSeek 升级 V3 模型
在MMU、MMMU-Pro、MathVista等多模态基准测试中,32B版本甚至优于72B前代模型,并在MM-MT-Bench主观评估中实现显著进步。同时,其纯文本处理能力也达到同规模(如Mistral-Small-3.1-24B、Gemma-3-27B-IT)的最优水平157。:例如,通过分析交通指示牌照片,结合卡车限速、时间与距离,精确判断“1小时内能否行驶110公里”,展现视觉逻辑推导能力19。:32B模型成为多模态部署的“黄金尺寸”,而代码模型的优化则聚焦实用性与成本控制。原创 2025-03-25 13:26:55 · 1140 阅读 · 0 评论 -
[笔记.AI]多头自注意力机制(Multi-Head Attention)
多头自注意力最初由Vaswani等人在2017年的论文“Attention Is All You Need”中提出,标志着Transformer模型的诞生。该机制扩展了自注意力,允许模型通过多个并行“头”同时关注输入序列的不同部分。每个头可以学习捕获不同类型的依赖关系,例如短距离的语法结构或长距离的语义关联。根据的内容,多头注意力模块运行注意力机制多次,输出被连接并线性变换。直观上,多个头允许模型以不同方式关注序列部分,例如长距离依赖与短距离依赖。原创 2025-03-22 19:06:18 · 1049 阅读 · 0 评论 -
[新闻.AI]OpenAI推出“下一代语音模型”(gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)
OpenAI 于2025 年 3 月 20 日在API中推出“下一代语音模型”(三款新的语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)——提供语音转文本及文本转语音的能力,并具备领先的准确性和可靠性。支持用户通过自然语言与 AI Agent 系统深度交互,帮助提升客服中心、会议记录等复杂场景中的实用价值。(下面借助 Grok 3 生成)原创 2025-03-21 13:36:15 · 793 阅读 · 0 评论 -
AI一周热点事件(2025年3月10日至3月17日)
谷歌的Gemini AI应用更新谷歌在3月15日更新了其Gemini AI应用,扩展了自定义AI专家“Gems”的可用性,免费提供给18岁以上用户(不包括伊利诺伊州和德克萨斯州的某些用户)。更新包括研究助理功能、更深层次的个性化以及与Google应用(如Photos、Tasks、Calendar、Notes)的扩展连接。这些功能此前仅限于Gemini Advanced用户,现在对更多Google Workspace客户开放。原创 2025-03-18 13:52:24 · 1235 阅读 · 0 评论 -
[笔记.AI]数据集——大模型的“教科书” | 数据集的细分、作用和意义
这些是大型文本语料库,用于初始训练,使模型学习语言模式、语法和广泛的知识。预训练数据集通常规模巨大,例如The Pile有800 GB,Common Crawl涉及数TB的数据。原创 2025-03-15 19:02:07 · 1293 阅读 · 0 评论 -
OpenAI 推出系列新工具,简化 AI Agent 的开发
可在Responses API中使用,适用于gpt-4o和gpt-4o-mini模型,包括引文支持。也在Chat Completions API中通过gpt-4o-search-preview和gpt-4o-mini-search-preview模型提供。在SimpleQA基准测试中,gpt-4o得分90%,gpt-4o-mini得分88%,相比没有搜索的GPT-4.5(63%)有显著提升。默认情况下,业务数据不会用于训练模型,详情见。提供实时信息和引文,支持gpt-4o和gpt-4o-mini。原创 2025-03-12 20:47:18 · 1208 阅读 · 0 评论 -
[笔记.AI]KAG(知识增强生成 Knowledge Augmented Generation)
KAG 被定义为一种结合大型语言模型(LLM)与知识图谱的框架,旨在通过结构化知识增强生成内容的准确性和相关性。根据的内容,KAG 整合了知识图谱的推理能力与 LLM 的语言生成灵活性,为专业领域(如医疗、法律和政府服务)提供了新的可能性。另一研究进一步强调了 KAG 在专业领域的应用潜力,特别是在处理复杂查询时。知识图谱是一种结构化知识表示,包含实体及其关系,为 KAG 提供了可靠的外部知识源。原创 2025-03-12 20:22:29 · 695 阅读 · 0 评论 -
[笔记.AI]MCP(Model Context Protocol 模型上下文协议)——AI的“USB-C接口”
MCP (Model Context Protocol)是一种开放协议,标准化了 AI 应用如何向 LLMs 提供上下文。它被比喻为 AI 应用的 USB-C 端口,提供了一种通用的连接方式,使 AI 模型能够与各种数据源和工具集成。例如,描述它为“一个开放协议,标准化了应用程序如何向 LLMs 提供上下文”,而强调其目标是帮助前沿模型产生更相关、更准确的响应。MCP(Model Context Protocol) 于 2024 年 11 月发布,目前还处于早期发展阶段。原创 2025-03-12 14:38:19 · 1038 阅读 · 0 评论 -
OpenManus 开源项目介绍
OpenManus 是一个开源项目,旨在复制 Manus AI 代理的功能。Manus 是一个由中国团队开发的通用 AI 代理,擅长自主执行复杂任务,如旅行规划、股票分析等。根据,Manus 被描述为能够将思想转化为行动的 AI,特别是在工作和生活中的各种任务上。OpenManus 的目标是将这些能力带入开源社区,使开发者能够贡献和修改代码。从 GitHub 仓库和相关文章如,可以看出 OpenManus 是一个快速开发的原型,由 MetaGPT 的核心贡献者构建,仅用 3 小时就完成了初始版本。原创 2025-03-10 15:30:19 · 1179 阅读 · 0 评论 -
Leave it to Manus —— Manus AI Agent 技术介绍
Manus 被设计为处理复杂和动态任务的通用 AI Agent,与传统 AI 助手(如提供建议或答案的聊天机器人)不同,Manus 能够独立完成整个任务流程。例如,它可以规划旅行行程、分析 Tesla 股票、为中学教师创建动量定理的互动课程、比较保险政策、进行 B2B 供应商采购等。这些能力使其在实际应用中具有显著优势。从官方网站Manus的描述来看,Manus 的名字源自拉丁语“手”,象征其将思想转化为行动的能力,体现了其作为 AI Agent的核心理念。原创 2025-03-07 14:00:00 · 1134 阅读 · 0 评论 -
DeepSeek 开源周:在 AGI 探索中不断挑战自己的极限
DeepSeek 的开源周始于 2025 年 2 月 24 日,发布了 一批生产测试过的 AI 基础设施工具。这些工具旨在支持高效的 AGI(通用人工智能)开发,并为社区提供可构建的基础设施,加速社区创新,推动 AI 技术的发展。也体现了其“无虚言,仅真诚代码”的开发理念。根据,发布的存储库包括:Day 1: FlashMLA - 高效 MLA 解码内核Day 2: DeepEP - MoE 模型训练和推理的通信库Day 3: DeepGEMM - FP8 GEMM 库。原创 2025-03-01 18:24:09 · 1613 阅读 · 0 评论 -
DeepSeek 开源周:第六天的“One More Thing” – DeepSeek-V3/R1 推理系统的概述
重点是介绍 DeepSeek-V3 和 R1 模型的推理系统。强调了系统的优化方法,并分享了在线服务的性能统计数据,以展示其高效性和经济性。原创 2025-03-01 16:14:25 · 507 阅读 · 0 评论 -
DeepSeek 开源周:第五天 - Fire-Flyer 文件系统(3FS)
Deepseek 今天开源的 Fire-Flyer 文件系统(3FS)是一个高性能分布式文件系统,专门为 AI 训练和推理设计。研究表明,它解决了 AI 工作负载中处理海量数据的高效存储需求问题。原创 2025-02-28 14:49:19 · 1016 阅读 · 0 评论 -
DeepSeek 开源周:技术共享与 AI 创新的五天旅程
DeepSeek 开源周不仅是一场技术盛宴,更是对 AI 行业格局的一次深刻影响。通过共享经过实战验证的代码库,DeepSeek 打破了技术壁垒,让更多开发者得以站在巨人的肩膀上创新。正如其口号所说:“没有象牙塔,只有车库能量与社区驱动的进步。” 在接下来的两天里,我们期待看到更多惊喜,也期待这一开源浪潮如何重塑全球 AI 生态。对于开发者而言,现在正是时候前往 GitHub 探索这些工具,把玩代码,加入这场技术革命的浪潮!原创 2025-02-27 14:02:01 · 1820 阅读 · 0 评论 -
[笔记.AI]如何判断模型是否通过剪枝、量化、蒸馏生成?
Loss = α * student_loss + β * distillation_loss # 典型蒸馏损失函数。以下摘自与DeepSeek-R1在线联网版的对话。:实际中常混合使用多种技术,建议结合。或厂商技术白皮书验证模型生成方式。<DS-R1的回复.结束><DS-R1的回复.开始>原创 2025-02-18 16:06:18 · 655 阅读 · 0 评论 -
[笔记.AI]大模型的蒸馏、剪枝、量化 | 模型压缩 | 作用与意义
两种技术常结合使用,例如先蒸馏压缩模型结构,再量化降低计算精度,实现“双压缩”以下摘自与DeepSeek-R1在线联网版的对话。,这次进一步整理蒸馏、量化的作用与意义。<DS-R1的回复.结束><DS-R1的回复.开始>原创 2025-02-18 15:24:33 · 521 阅读 · 0 评论 -
[思考.AI]AI的能力边界?通用与专用模型平衡?人机协作模式?
维度主要矛盾解决方案能力边界效率提升 vs 创造性缺失建立AI能力动态评估白皮书34模型选择通用性 vs 精准度开发领域适配的混合架构56人机协作自动化替代 vs 人类价值保留设计可解释性增强的协作协议710未来需通过技术迭代(如因果推理AI)、制度创新(如AI责任保险)、教育转型(人机协作技能培训)三维度突破现有瓶颈。<DS-R1的回复.结束><GPT4的回复.开始>这些问题触及了人工智能的核心挑战和前景。原创 2025-02-15 16:57:02 · 1084 阅读 · 0 评论 -
[AI.认知]李飞飞团队“50美元”训练出s1-32B,以及研究成果《s1:Simple test- time scaling》,背后的本质?
论文1.李飞飞团队的目标,是探究“如何以极低的成本训练出一款高效率的人工智能推理模型”。他们选择了基于阿里云通义千问(Qwen2.5-32B-Instruct)开源模型进行监督微调(Supervised Fine-Tuning, SFT),而不是从零开始训练全新的模型。这种方式大幅降低了计算成本。原创 2025-02-13 16:59:17 · 461 阅读 · 0 评论