自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(151)
  • 资源 (1)
  • 收藏
  • 关注

原创 AI一周事件(2025年3月31日至4月7日)

Meta发布了Llama 4系列,包括Llama 4 Scout(长文本处理)和Llama 4 Maverick(创意写作),Llama 4 Behemoth(STEM专用)也在预览中。阿里巴巴的通义千问模型在全球开源模型排行榜中位居第一,显示了中国在AI开源生态系统中的领先地位。AI公司Runway推出了Gen-4视频模型,进一步提升了AI在视频生成领域的性能。OpenAI的ChatGPT推出了原生图像生成功能,并向免费用户开放,这进一步推动了AI图像生成技术的普及。, 这可能进一步扩大AI的全球影响。

2025-04-08 14:04:35 276

原创 [思考记录]面对技术名词.保持清醒

不应被这些技术名词的“花架子”唬住,而应看到背后的思想——理解它们为什么而生、解决什么问题、适用与不适用的场景,或者实现手段有哪些参考。毕竟,从结果来评判解决问题方式的优劣,“用小成本且可靠有效解决”会要比“用了高大上的理念和技术解决”更好。即使不了解这些名词,也不影响我们规划行程。但了解之后,可能会感叹——哦,原来我们之前走了“自由行+局部跟团”的混搭模式。记录提醒——对于解决方案或思路和理念类的技术名词,尤其需要保持警醒,先理解“为什么而生”以及“什么场景用”,而不是想着“怎么用”甚至“必须用”。

2025-04-03 15:33:26 103

原创 阿里通义千问发布全模态开源大模型Qwen2.5-Omni-7B

Qwen2.5-Omni 是一个端到端的多模态模型,旨在感知多种模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。(以下借助 DeepSeek-R1 辅助生成),阿里巴巴通义千问团队正式发布并开源了其新一代旗舰模型,这是全球首个支持文本、图像、音频、视频全模态端到端交互的轻量化大模型。该模型以实现多模态能力全面突破,不仅在性能上超越同类闭源模型,更通过开源策略推动AI技术普惠化。

2025-04-01 19:19:55 1043 2

原创 AI一周热点事件(全球AI新闻-2025年3月24日至3月31日)

过去一周,AI及其相关领域在技术和商业层面上发生了多起重大事件,特别是在中国和美国。这些进展不仅展示了AI技术的快速迭代,也反映了中美两国在全球AI竞争中的战略布局。以下是详细分析,旨在为技术编辑提供全面的背景信息。

2025-04-01 14:00:55 909

原创 [笔记.AI]大模型训练 与 向量值 的关系

在预训练阶段(如BERT、GPT的初始训练),模型的嵌入层(Embedding Layer)作为可训练参数,通过反向传播不断优化。词汇“苹果”在初始时可能随机分布,但经过训练后,其向量会靠近“水果”或“公司”(取决于上下文频率)。通用语料训练的向量可能无法准确表示专业术语(如医疗词汇“化疗”需更接近“癌症”而非日常语境)。新词汇(如“元宇宙”)或词义变化(如“直播”从电视到互联网)需更新向量。:解冻所有模型参数(包括嵌入层),向量化的值会随新任务的数据调整。:“合同”等专业术语的向量会更贴近领域语义。

2025-03-29 18:25:18 495

原创 [笔记.AI]初始向量

这些初始向量是模型训练的基础,它们的生成方式直接影响模型的收敛速度和最终性能。使用公开的词向量库(如 Word2Vec 的 Google News 300 维向量,或 GloVe 的 50/100/200/300 维向量)。在某些场景中,模型会直接加载预训练的词向量(如 Word2Vec、GloVe)作为初始值,以加速训练或提升效果。将当前模型的词汇表与预训练词向量库的词汇表对齐,未对齐的 Token 仍随机初始化。适用于大规模预训练模型(如 GPT、BERT 的初始训练阶段)。

2025-03-29 18:05:06 1168

原创 [笔记.AI]向量化

是将文本、图像、音频等非结构化数据转换为高维数值向量(即一组数字)的过程。这些向量能够捕捉数据的语义、特征或上下文信息,使计算机能够通过数学运算(如相似度计算、聚类、分类等)处理和理解非结构化内容。

2025-03-29 17:54:10 492

原创 [笔记.AI]不同大模型的向量化结果差异

(下面借助 DeepSeek-V3 生成)。:例如,BERT-base 的嵌入维度为 768,而 GPT-3 的嵌入维度为 12288(通过多层堆叠实现),向量空间的结构完全不同。:BERT 使用双向注意力,生成的向量包含全局上下文信息;而 GPT 采用单向自回归,向量更侧重左侧上下文。:如 Transformer 层数越多(如 GPT-3 有 96 层),向量经过更多非线性变换,语义抽象程度更高。

2025-03-29 17:53:03 719

原创 DeepSeek-V3-0324 版本升级概要

模型改进与性能提升:推理能力增强:在多个基准测试中表现出显著提升,如MMLU-Pro从75.9提高到81.2,GPQA从59.1提高到68.4,AIME从39.6提高到59.4,LiveCodeBench从39.2提高到49.2。代码执行优化:提高了代码的可执行性,生成更加美观的网页和游戏前端界面。中文写作能力提升:增强了写作风格和内容质量,尤其在中长篇文章写作中表现更佳,对齐R1写作风格。功能增强:多轮交互重写:改进了多轮交互式的重写功能。翻译和写信优化:优化了翻译质量和写信功能。搜索功能增

2025-03-26 13:53:49 714

原创 [新闻.AI] Google DeepMind 发布 Gemini 2.5 Pro 模型

Gemini 2.5 是 Google DeepMind 在 2025 年 3 月 25 日发布的最新 AI 模型。该模型被定位为“思考模型”,能够在其生成响应前进行推理,从而提升性能和准确性。这一特性建立在之前的强化学习和链式思维提示技术之上,延续了 Gemini 系列的创新。

2025-03-26 13:33:12 957

原创 AI一周热点事件(全球AI新闻-2025年3月17日至3月24日)

NVIDIA GTC 2025的公告展示了AI硬件和应用的最新进展,而美国AI立法的激增和公众讨论则反映了社会对AI影响的关注。随着AI继续融入各行各业,保持对这些发展的了解对于技术社区至关重要。

2025-03-25 14:17:34 869

原创 [新闻.AI]国产大模型新突破:阿里开源 Qwen2.5-VL-32B 与 DeepSeek 升级 V3 模型

在MMU、MMMU-Pro、MathVista等多模态基准测试中,32B版本甚至优于72B前代模型,并在MM-MT-Bench主观评估中实现显著进步。同时,其纯文本处理能力也达到同规模(如Mistral-Small-3.1-24B、Gemma-3-27B-IT)的最优水平157。:例如,通过分析交通指示牌照片,结合卡车限速、时间与距离,精确判断“1小时内能否行驶110公里”,展现视觉逻辑推导能力19。:32B模型成为多模态部署的“黄金尺寸”,而代码模型的优化则聚焦实用性与成本控制。

2025-03-25 13:26:55 1077

原创 [笔记.AI]多头自注意力机制(Multi-Head Attention)

多头自注意力最初由Vaswani等人在2017年的论文“Attention Is All You Need”中提出,标志着Transformer模型的诞生。该机制扩展了自注意力,允许模型通过多个并行“头”同时关注输入序列的不同部分。每个头可以学习捕获不同类型的依赖关系,例如短距离的语法结构或长距离的语义关联。根据的内容,多头注意力模块运行注意力机制多次,输出被连接并线性变换。直观上,多个头允许模型以不同方式关注序列部分,例如长距离依赖与短距离依赖。

2025-03-22 19:06:18 979

原创 [思考记录]两则:宏观视角、理想化

昨天听金老师讲解了他初步整理的大模型宏观概念关系图,受益不少。图上不仅是涵盖了诸多概念,更厉害的应该在于把概念之间的关系进行了描述,更直观展现了概念是如何与其他概念相互作用的。帮助从整体的角度去理解,以及透过概念之间的联系去看到各个概念所处的位置、相互影响和作用关系。如果把“概念”比作“个体生物”,那么每个概念就像生态系统中一个独特的物种。而“概念关系图”就像是这些生物共同生活的“生态环境”,在这个生态环境中,生物之间是存在各种联系的。

2025-03-22 18:23:23 217

原创 [新闻.AI]OpenAI推出“下一代语音模型”(gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)

OpenAI 于2025 年 3 月 20 日在API中推出“下一代语音模型”(三款新的语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)——提供语音转文本及文本转语音的能力,并具备领先的准确性和可靠性。支持用户通过自然语言与 AI Agent 系统深度交互,帮助提升客服中心、会议记录等复杂场景中的实用价值。(下面借助 Grok 3 生成)

2025-03-21 13:36:15 757

原创 AI一周热点事件(2025年3月10日至3月17日)

谷歌的Gemini AI应用更新谷歌在3月15日更新了其Gemini AI应用,扩展了自定义AI专家“Gems”的可用性,免费提供给18岁以上用户(不包括伊利诺伊州和德克萨斯州的某些用户)。更新包括研究助理功能、更深层次的个性化以及与Google应用(如Photos、Tasks、Calendar、Notes)的扩展连接。这些功能此前仅限于Gemini Advanced用户,现在对更多Google Workspace客户开放。

2025-03-18 13:52:24 1158

原创 [笔记.AI]数据集——大模型的“教科书” | 数据集的细分、作用和意义

这些是大型文本语料库,用于初始训练,使模型学习语言模式、语法和广泛的知识。预训练数据集通常规模巨大,例如The Pile有800 GB,Common Crawl涉及数TB的数据。

2025-03-15 19:02:07 1251

原创 [思考记录]关于AI辅助&独立思考

发现问题->请教AI->形成自己的理解和问题->AI->尝试落地实践。但手欠,去试着问了下AI,发现它的分析总结比我透彻。|-挑战AI的回答:拿到AI的分析后,试着反驳或补充,比如“如果情况变了,这个还成立吗?|-设定独立思考时间:在请教AI前,给自己15-30分钟先想一想,强迫自己尝试解决问题。|-保持独立:先自己思考,再用AI验证和扩展,最后通过实践消化成自己的东西。|-先自己思考,再用AI:确保你有自己的基础,而不是被动接受AI的答案。|-保持批判性:别把AI的回答当“标准答案”,要学会质疑和调整。

2025-03-15 18:51:54 196

原创 OpenAI 推出系列新工具,简化 AI Agent 的开发

可在Responses API中使用,适用于gpt-4o和gpt-4o-mini模型,包括引文支持。也在Chat Completions API中通过gpt-4o-search-preview和gpt-4o-mini-search-preview模型提供。在SimpleQA基准测试中,gpt-4o得分90%,gpt-4o-mini得分88%,相比没有搜索的GPT-4.5(63%)有显著提升。默认情况下,业务数据不会用于训练模型,详情见。提供实时信息和引文,支持gpt-4o和gpt-4o-mini。

2025-03-12 20:47:18 1167

原创 [笔记.AI]KAG(知识增强生成 Knowledge Augmented Generation)

KAG 被定义为一种结合大型语言模型(LLM)与知识图谱的框架,旨在通过结构化知识增强生成内容的准确性和相关性。根据的内容,KAG 整合了知识图谱的推理能力与 LLM 的语言生成灵活性,为专业领域(如医疗、法律和政府服务)提供了新的可能性。另一研究进一步强调了 KAG 在专业领域的应用潜力,特别是在处理复杂查询时。知识图谱是一种结构化知识表示,包含实体及其关系,为 KAG 提供了可靠的外部知识源。

2025-03-12 20:22:29 629

原创 [笔记.AI]MCP(Model Context Protocol 模型上下文协议)——AI的“USB-C接口”

MCP (Model Context Protocol)是一种开放协议,标准化了 AI 应用如何向 LLMs 提供上下文。它被比喻为 AI 应用的 USB-C 端口,提供了一种通用的连接方式,使 AI 模型能够与各种数据源和工具集成。例如,描述它为“一个开放协议,标准化了应用程序如何向 LLMs 提供上下文”,而强调其目标是帮助前沿模型产生更相关、更准确的响应。MCP(Model Context Protocol) 于 2024 年 11 月发布,目前还处于早期发展阶段。

2025-03-12 14:38:19 993

原创 [思考记录]工作于过去&为未来而工作

停留在“编码者”的工作方式已经属于过去式,而未来或许要转变为“问题解决者”和“创新者”。这就需要将关注点从单一功能的实现中跳出来,比如:去关心和思考产品整体、去理解整个系统的架构、结合业务知识和用户体验等,提出更有价值的解决方案和思路。又或者,基于AI工具思考探索新的工作流程、框架设计,以及其他新的可能性。这样,无疑也会提升个人的价值并带来更大的工作成就感。

2025-03-10 18:38:17 164

原创 OpenManus 开源项目介绍

OpenManus 是一个开源项目,旨在复制 Manus AI 代理的功能。Manus 是一个由中国团队开发的通用 AI 代理,擅长自主执行复杂任务,如旅行规划、股票分析等。根据,Manus 被描述为能够将思想转化为行动的 AI,特别是在工作和生活中的各种任务上。OpenManus 的目标是将这些能力带入开源社区,使开发者能够贡献和修改代码。从 GitHub 仓库和相关文章如,可以看出 OpenManus 是一个快速开发的原型,由 MetaGPT 的核心贡献者构建,仅用 3 小时就完成了初始版本。

2025-03-10 15:30:19 1091

原创 Leave it to Manus —— Manus AI Agent 技术介绍

Manus 被设计为处理复杂和动态任务的通用 AI Agent,与传统 AI 助手(如提供建议或答案的聊天机器人)不同,Manus 能够独立完成整个任务流程。例如,它可以规划旅行行程、分析 Tesla 股票、为中学教师创建动量定理的互动课程、比较保险政策、进行 B2B 供应商采购等。这些能力使其在实际应用中具有显著优势。从官方网站Manus的描述来看,Manus 的名字源自拉丁语“手”,象征其将思想转化为行动的能力,体现了其作为 AI Agent的核心理念。

2025-03-07 14:00:00 1113

原创 [思考记录]AI时代下,悄然的改变

尝试用 xAI-Grok 去了解DS开源周的信息,有那么点被Grok的输出惊艳到。“请你以技术编辑的角色,重点参考官方文档,介绍DeepSeek开源周的内容,写一篇技术分享文章。”,得到的文字看起来很是舒服,内容靠谱、结构清晰,并且还没什么“机器味”。不禁想到以前,要写这么一篇相对严谨靠谱的技术文章,还是不容易的,特别是要花不少功夫核对相关信息的准确性、严密性。而现在,借助AI工具,只需要想好主题,甚至都不需要先读原始资料就能搞定。内心中不由再次感慨,技术和时代在变。

2025-03-01 20:33:23 175

原创 DeepSeek 开源周:在 AGI 探索中不断挑战自己的极限

DeepSeek 的开源周始于 2025 年 2 月 24 日,发布了 一批生产测试过的 AI 基础设施工具。这些工具旨在支持高效的 AGI(通用人工智能)开发,并为社区提供可构建的基础设施,加速社区创新,推动 AI 技术的发展。也体现了其“无虚言,仅真诚代码”的开发理念。根据,发布的存储库包括:Day 1: FlashMLA - 高效 MLA 解码内核Day 2: DeepEP - MoE 模型训练和推理的通信库Day 3: DeepGEMM - FP8 GEMM 库。

2025-03-01 18:24:09 1575

原创 DeepSeek 开源周:第六天的“One More Thing” – DeepSeek-V3/R1 推理系统的概述

重点是介绍 DeepSeek-V3 和 R1 模型的推理系统。强调了系统的优化方法,并分享了在线服务的性能统计数据,以展示其高效性和经济性。

2025-03-01 16:14:25 498

原创 DeepSeek 开源周:第五天 - Fire-Flyer 文件系统(3FS)

Deepseek 今天开源的 Fire-Flyer 文件系统(3FS)是一个高性能分布式文件系统,专门为 AI 训练和推理设计。研究表明,它解决了 AI 工作负载中处理海量数据的高效存储需求问题。

2025-02-28 14:49:19 969

原创 [笔记.AI]AI知识科普提纲

2.2.2检索增强生成(RAG, Retrieval-Augmented Generation)2.2.1提示词工程(Prompt Engineering)2.1.2.1Deepseek-V3&R1的分析。2.2.3模型微调(Fine-tuning)1.2.1模型:模型、大模型、模型参数。1.2.3生成式AI & 判别式AI。备注:主要从概念理解,绕开了一些技术实现。2.2.4Agent(智能体)2.1.2各模型特点。2.2大模型的应用模式。1.1什么是什么AI。2.4模型微调/训练。

2025-02-27 15:17:56 201

原创 DeepSeek 开源周:技术共享与 AI 创新的五天旅程

DeepSeek 开源周不仅是一场技术盛宴,更是对 AI 行业格局的一次深刻影响。通过共享经过实战验证的代码库,DeepSeek 打破了技术壁垒,让更多开发者得以站在巨人的肩膀上创新。正如其口号所说:“没有象牙塔,只有车库能量与社区驱动的进步。” 在接下来的两天里,我们期待看到更多惊喜,也期待这一开源浪潮如何重塑全球 AI 生态。对于开发者而言,现在正是时候前往 GitHub 探索这些工具,把玩代码,加入这场技术革命的浪潮!

2025-02-27 14:02:01 1792

原创 [思考记录.AI]面对当下大模型,自己的一些感受

AI就从研究背景、技术核心、成果与争议、研究本质等方面进行了整理归纳,并给出最后概括性总结——通过高效利用现有基座模型、精细化数据筛选及动态推理控制技术,探索低成本优化模型的可行性,但未颠覆基础模型训练的高资源依赖特性,并且附上了相应的来源参考。比如借助AI在线搜索,以前可能需要向相关专家了解,或者查阅较多资料来得到的信息,现在则变得相对容易。通用大模型的学识渊博,什么都知道,但它也做不到百分百的正确(多个不同类的通用/专用模型结合各自工具,相互去验证和纠偏,是否是进一步提升结果质量的方式?

2025-02-27 12:02:26 302

原创 [笔记.AI]如何判断模型是否通过剪枝、量化、蒸馏生成?

Loss = α * student_loss + β * distillation_loss # 典型蒸馏损失函数。以下摘自与DeepSeek-R1在线联网版的对话。:实际中常混合使用多种技术,建议结合。或厂商技术白皮书验证模型生成方式。<DS-R1的回复.结束><DS-R1的回复.开始>

2025-02-18 16:06:18 636

原创 [笔记.AI]大模型的蒸馏、剪枝、量化 | 模型压缩 | 作用与意义

两种技术常结合使用,例如先蒸馏压缩模型结构,再量化降低计算精度,实现“双压缩”以下摘自与DeepSeek-R1在线联网版的对话。,这次进一步整理蒸馏、量化的作用与意义。<DS-R1的回复.结束><DS-R1的回复.开始>

2025-02-18 15:24:33 503

原创 [思考.AI]AI的能力边界?通用与专用模型平衡?人机协作模式?

维度主要矛盾解决方案能力边界效率提升 vs 创造性缺失建立AI能力动态评估白皮书34模型选择通用性 vs 精准度开发领域适配的混合架构56人机协作自动化替代 vs 人类价值保留设计可解释性增强的协作协议710未来需通过技术迭代(如因果推理AI)、制度创新(如AI责任保险)、教育转型(人机协作技能培训)三维度突破现有瓶颈。<DS-R1的回复.结束><GPT4的回复.开始>这些问题触及了人工智能的核心挑战和前景。

2025-02-15 16:57:02 1047

原创 [思考记录.AI]Deepseek-R1的联网搜索,是什么?

目前的DS-R1联网搜索,它本质上是什么呢?        大模型本身的预训练数据中并不包含最新的联网信息,并且大模型并不能直接联网搜索。那么,DeepSeek-R1 的联网版是个什么呢?从当前的理解看,其本质上应该算是一种“搜索智能体”(解决信息搜索场景的 AI Agent):1.大模型作为“大脑”提供认知能力(如语言理解、策略生成、分析推理)2.搜索智能体通过工具调用(如联网搜索、数据库查询的等)扩大模型的知识边界,以及解决数据滞后问题。结合起来,就实现了时效性更强的智能交互。

2025-02-15 16:09:21 1726

原创 [AI.认知]李飞飞团队“50美元”训练出s1-32B,以及研究成果《s1:Simple test- time scaling》,背后的本质?

论文1.李飞飞团队的目标,是探究“如何以极低的成本训练出一款高效率的人工智能推理模型”。他们选择了基于阿里云通义千问(Qwen2.5-32B-Instruct)开源模型进行监督微调(Supervised Fine-Tuning, SFT),而不是从零开始训练全新的模型。这种方式大幅降低了计算成本。

2025-02-13 16:59:17 458

原创 [笔记.AI]deepseek-r1的不同版本(满血版、蒸馏版、量化)

蒸馏版(Distill):是指将大型模型(教师模型)的知识转移到较小的模型(学生模型)中,以保持性能的同时减少计算资源的需求;|-使用DeepSeek-R1完整版作为教师模型(671B),迁移到Qwen/Llama等开源架构(1.5B-70B);AIME2024(79.8%)/MATH-500(97.3%)/MMLU(90.8%),超越OpenAI o1。32B蒸馏版AIME2024(72.6%),超越Qwen2.5-32B(55.5%)提供1.5B/7B/8B/14B/32B/70B等多尺寸。

2025-02-10 20:20:58 7752

原创 [笔记.AI]Deepseek-R1 各参数版本的蒸馏模型对比

3.上下文处理能力:32B模型相比14B模型在长文本理解任务中的准确率提升18%(基于MMLU测试 - Massive Multitask Language Understanding)2.代码生成质量:7B模型可生成基础函数代码,14B模型能实现完整算法(如快速排序),32B模型支持API级代码生成(含异常处理)- 32B模型在处理8K上下文时,关键信息捕捉准确率达92%,而14B模型仅74%- 7B模型在10步以上数学推导中准确率仅54%,32B可达89%人类专家水平:F1 89-92%(相同测试集)

2025-02-10 20:18:48 959

原创 [思考记录.AI]关于Deepseek-r1的思维链

以前在使用某些AI大模型时,为了获得相对更好的输出,一种方式是在提示词上下功夫——除了交代任务背景,甚至建议对复杂任务预设处理步骤、提供模板案例等。夸张点说就是,做个功能页面,将所需方法及其主体逻辑都描述出来(近乎去写出伪代码)。这显然还是比较费事(但也有研究说,部分模型仅通过添加"请逐步思考"等引导语也可显著提升输出质量)。而在使用 Deepseek-R1 或 ChatGPT-o 时,似乎并不推荐这样用了。

2025-02-10 12:00:27 1477

原创 [思考记录]思维转变

其核心,其实是从思维上去转变,从“完成任务”转变为去“解决问题”,从传统的“执行者”角色转变为“思考者”和“问题解决者”。年前和队友们一起交流了“认知和思考”的话题。小范围交流后,初步形成一个共识——带着思考做事情。通过这样的方式,习惯于去思考“为什么”、“该怎么”、“这样就对么”等,从而尝试摆脱机械性做事。这,是接下来要去思考和交流的又一个话题。

2025-02-10 11:55:56 107

Visual Basic 6 Client Websocket Control 1.11 BETA

vb6的websocket客户端组件! 免费有源码,可以直接使用!

2022-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除