开心的AI频道-优快云博客

原创 OpenAI宣布ChatGPT集成到苹果操作系统，将带来哪些新功能？

以后用苹果手机、平板、电脑，都能直接用上 ChatGPT 的各种 AI 功能，不用在不同软件之间跳来跳去，不管是写文章、看图说话，还是跟 AI 聊天，都变得超级方便。有了 ChatGPT 的加持，Siri 就像换了颗“智慧芯”，不仅听得懂更复杂的问题，回答也更贴心、更人性化。想象一下，当AI真正融入到我们的日常生活中，手机可能会变得更懂你，更贴心，就像一个真正的智能助手。对苹果来说，这是个比较明确的选择。更厉害的是，你写文章的时候，还能让OpenAI新发布的Sora帮你配图，让你的文章更生动！

2025-02-03 10:00:00 2293

原创 GPT-5终于来了，真的是一个跨时代的转折点吗？

在基础能力上，GPT-5的事实性错误减少65%到78%，上个版本模型被吐槽最多的谄媚行为，也被削减到了6%以下，同时引入了安全补全机制，在面对有害的请求时，会提供安全的引导。在很多领域里，有非常强劲的竞争对手，Anthropic的Claude，Google的Gemini、XAI的Grok，所以它现在不是一个全方位绝对领先的模型了。在核心能力上，最大的核心突破是代理能力，这个代理能力可以专注于一个长期的多步骤任务，可以连续调用工具，并且会记住上下文，也可以规划复杂的工作流，包括在执行的过程中还可以自我修正。

2025-08-18 15:47:53 798

原创大家平时都是怎么用AI的？

VIP兑换码：meng）天工Agent的优势在于，只需要给他简单的指令，比如告诉他根据一个小节做成一页PPT，之后它会调用工具生成大纲，规划每页的内容，自动套用模版和快速布局。输入需求后，它会根据我的主题自动规划搜索关键词，筛选了200多个网页，最后给了一份2万字的深度研究报告。我首先想到的就是天工Agent，市面上那些“一分钟一键生成PPT”的工具，只能生成一个雏形，但是可用度并不高，会漏掉很多关键信息。我是一个AI领域的博主，我需要时刻关注AI动态，但是我最近的主业工作太忙了，没时间去各个平台刷信息。

2025-08-07 12:00:00 736

原创 OpenAI推出o3-pro推理模型，实际体验如何？

他现在的工作流程变成了：自己提想法，o3-pro写代码，然后他自己来测试和改进，就像在和一个博士后合作，效率很高。其次我发现它的思维很发散，能从一个点发散出多个点，为了防止它多想，需要给它提供尽可能多的任务背景、意图、目标、效果这些上下文资料，让它更好的理解用户意图。最后我看到一个很形象的比喻，O3-Pro像是一个12岁的高智商天才，它非常擅长分析与调用工具，它会是一个很好的协调器。最近我一直在使用o3-pro，顺便在X上看了一些用户的反馈，可以说说我的使用体验，顺带给大家提供一些思路。

2025-08-06 16:29:07 801

原创如果DeepSeek花和ChatGPT一样多的钱训练，DeepSeek会超越ChatGPT吗

我觉得，这个问题确实没办法简单用是或不是来回答。资金当然是训练大模型的必需条件，但绝对不是砸钱就一定能成功的。根据规模定律，大语言模型的效果并不仅取决于花了多少钱训练，更关键的是：模型参数（N）、数据规模（D）以及训练的计算资源（C）。所以我们不如换个角度，把这个问题看成是两种发展模式的PK：一边是大力出奇迹的OpenAI，另一边是追求高效的DeepSeek。

2025-07-30 11:12:28 508

原创手机P图，用豆包说句话就行了

抠出来的人像或者商品，可以换到任何背景上。让你的朋友圈照片，看起来与众不同。处理过的背景看起来很自然，看不出修改的痕迹。上传一张图，再告诉豆包你想要的风格。上传一张自拍，告诉豆包你想换个什么发型。比如，想把路边的海报换成自己的名字。图片里的文字打错了，或者想改个内容？其实这个是图像模型的通用问题，改成中文就是会乱码，大家也知道中文的形态变化很大）（图源网络，若涉及侵权，请联系我删除；（图源网络，若涉及侵权，请联系我删除；（图源网络，若涉及侵权，请联系我删除；（图源网络，若涉及侵权，请联系我删除；

2025-07-09 11:48:07 406

原创谷歌Gemini推出定时任务功能：用一句话就能设置自动提醒

我是一个AI类的博主，我需要关注每日的AI动态，但是我最近的主业工作太忙了，没时间去逛论坛，所以这样设置后，我每天都能收到AI行业的最新动态汇总，非常方便，非常建议Grok也推出同样的功能。我比较吃马斯克的那一套，所以我会关注他的动态，但是由于他每天X发的太频繁了，会漏下一些重要动态，所以这样设置后可以及时了解马斯克相关企业的最新动向。做为一个打工人，下午三点是最忙的时候，很多时候都会忘记收盘时间，所以设置一个定时任务帮我快速了解当天股市整体情况（说实话，最近两个月都没有交易了）。

2025-07-08 12:00:00 326

原创别再手动记笔记了！我用这款AI，把2小时的视频压缩成5分钟阅读

现在用AI好记：上传会议录音或录屏文件，AI好记不仅能把语音转成文字，还能自动识别不同的发言人。比如某个专业词汇或人名识别错了，可以使用“全局纠错”功能，改一次，全文同步修正。遇到没看懂的地方，点击文字，视频就会自动跳转到那个时间点，回顾复习。过去的做法：打开视频，以1.5倍速播放，手动截图PPT，在笔记本上记下要点。一节课下来，手忙脚乱，效果还不好。或者，边看边用零散的笔记App记录，信息分散，难以形成体系。简单来说，AI好记能把任何音视频内容，快速转换成可以编辑、总结、搜索的智能笔记。

2025-07-07 11:52:29 890 1

原创每周帮你节省20小时的10个高效DeepSeek提示词

分析[插入你的工作领域]中的顶尖从业者，列出我可借鉴的核心经验，以提升工作效率。“我正在撰写一篇关于[插入主题]的博客，但想不出吸睛标题。“我想学习[插入目标技能]，请设计30天学习计划，帮助零基础新手入门提升。“总结[插入书名]（作者：[插入作者名]），列出最重要的核心观点与启示。“分析以下文本的写作风格，并围绕[插入主题]撰写200字指南。“用简单易懂的语言解释[插入主题]，确保零基础者也能轻松理解。“我想[插入任务/目标]，请为该目标生成[插入期望成果]。附加要求：演讲时长不超过15分钟”

2025-07-06 23:39:03 269

原创不同场景AI应用盘点

6. Captions —— 人工智能虚拟形象与视频编辑工具（比如自动添加字幕、矫正眼神交流）2. Meta Imagina —— 在 Meta 应用里生成你自己、家人和朋友的人工智能图像。3. Gamma —— 借助人工智能制作演示文稿、文档和网站，用于展示你的创意。1. Delphi —— 人工智能文本、语音及视频克隆工具，用于和受众互动交流。2. HeyGen —— 用于内容创作的人工智能虚拟形象，也能给你的视频做翻译。4. Runway、Kling、Vieagle —— 人工智能视频生成工具。

2025-07-05 22:54:33 393

原创为什么ChatGPT代表了美国AI，Deepseek代表了中国AI？

可以说，OpenAI的发展得益于成熟的创投体系和科技巨头的帮扶，而DeepSeek更多是靠创始人的远见、团队的执行力，还有国家层面的支持。最后，说ChatGPT和DeepSeek分别代表美国AI和中国AI，不光是因为它们各自的技术创新，更因为它们是在两国不同的科技战略、产业生态、文化价值观和政策环境下成长出来的。直接反映了两国监管环境和社会文化要求的不同：ChatGPT体现了美国倡导的某种程度上的言论开放，而DeepSeek则体现了中国对AI必须“可控可用”的明确态度。（DeepSeek整理）

2025-07-04 21:47:52 1003

原创字节出品：这个免费图标库，让你的PPT更好看

做PPT两小时，找图标一小时。好不容易找到个图标，要么风格不搭，要么颜色不对，要么就是有水印不能用……IconPark就是一个免费、可商用、能在线修改样式的超级图标库。它不仅解决了我们找图标难、改图标烦的问题，还能让你的PPT看起来更统一、更专业。IconPark的定位是“一个为设计师和前端工程师量身打造的图标解决方案”。只需要在网站上勾选几个选项，就能重新修改图标的颜色、大小、线框粗细、端点/拐角类型等。，简单来说，它有三大好处，让你告别找图标的烦恼。它对开发者极其友好，提供了代码支持：。

2025-07-03 17:18:57 413

原创阿里通义千问再升级：Qwen-VL让AI看图、改图更轻松

提示词：做一张高质量咖啡店宣传海报，画面以温暖柔和的阳光色调为主，背景是一家温馨文艺风格的咖啡馆室内场景，窗边洒落阳光，桌上摆放拉花精致的拿铁咖啡、烘焙甜点和书籍。但是图片中间的文字翻车了，其实这个问题是AI图像模型的一个挑战，主要是因为模型在训练过程中学习的标准汉字太少了，而且汉字本身笔画又复杂，超出了当前模型在像素级别上精确模仿的能力范围。但整体来说，对于一些简单的图片修改是可以完成的。使用体验：效果比较符合提示词的要求，将原图中的可爱猫咪转变为戴着墨镜的酷猫风格，改完之后猫猫变胖了，花纹也变了。

2025-07-02 17:52:25 427

原创 OpenAI上线新一代编程神器Codex，有哪些技术亮点？程序员的工作会被彻底颠覆吗？

在我看来，Codex确实是个颠覆性的工具，大程度地改变了我们写代码、做项目的方式，让开发者能把更多精力放在创新和架构的顶层设计上。简单来说，Codex是一款基于云的软件工程代理，能够独立处理复杂编程任务，背后是codex-1（codex-1是OpenAI o3的一个版本，OpenAI指出codex-1比o3生成“更干净”的代码）。虽然Codex代表了AI辅助编码领域的重大进步，但必须要承认它的局限性：现阶段来安是无法替代人类开发人员，Codex缺乏经验丰富的程序员的创造性解决问题能力和直觉。

2025-07-01 12:00:00 544

原创教程|别再只用文字提示了，GPT-4o结合图像做UI是更高效的选择

【可直接套用】提示词范例：“请根据左图的结构和内容，应用右图的视觉风格来生成一张新图片。请将界面从浅色主题改为深色主题，使用简洁的深色背景，并在主体元素的周围留出更多空间。可以是其他应用的截图、一张摄影作品，或任何能代表你想要的色彩、质感、光影和整体美学风格的图片。本教程将教你用GPT-4o的图像生成能力，只需两张参考图片和一句指令，就能快速生成设计稿。具体设计要求：“将界面从浅色主题改为深色主题，使用简洁的深色背景，并在主体元素的周围留出更多空间”风格图：告诉AI怎么画，即界面的视觉风格、颜色和质感。

2025-06-30 12:00:00 369

原创又发现一个宝藏网站！不用剪辑不用配音，一键生成科普视频

它能把任何硬邦邦的知识点，不管是抽象的数学公式（二次函数），还是复杂的生物过程（光合作用），都给做成动画小视频。我上学的时候，物理学的很费劲，在我看来那些原理很抽象，课本上写的东西看不见摸不着，比如“光的折射”，一个静态图没啥感觉。提示词：制作一个光的折射实验动画，清晰展示一束光线从空气射入水中时，传播路径是如何发生偏折的。请用动画演示a²+b²=c²的证明过程，并举一个生活中的例子。提示词：用一个生动的比喻，解释什么是Transformer里的自注意力机制。用一个生动的比喻，解释什么是自注意力机制。

2025-06-29 12:00:00 345

原创通义千问用法合集：从做网站到写报告，精选5个高效场景

例如，可以选用“混合专家语言模型”的 Qwen3-235B-A22B 来处理极其复杂的任务，也可以选择“稠密模型” Qwen3-32B 或是性能卓越的 Qwen2.5-Max。我的指令 (Prompt)：“为公司内部的‘人工智能创新日’活动创建一个15秒的宣传视频。首先先说我使用的是一个新的网站，可以自由选择模型（在官网默认使用最新模型，百炼可以根据任务选择不同的模型）。使用感受：它生成的图片比较符合我的要求，可以插入到PPT中，可以减少了网上寻找的时间，以及可以根据具体需求来定制绘图。

2025-06-28 20:25:50 797

原创微信里藏着个AI助手？腾讯元宝入驻微信，这些隐藏功能你知道吗？

之前我粗略估计过，每日使用腾讯系的产品超过十小时，微信是使用场景和时长最多的一个产品，在微信中接入元宝，融合了我们的日常社交和工作场景。这种生态融合我觉得做的比较好的是谷歌，它已经在很多谷歌系的产品中融入Gemini，像腾讯这种多生态的产品矩阵，可以同步接入，比如腾讯会议、企业微信等。使用感受：元宝的总结能力相当不错，不是简单的摘抄，而是真正理解文章后的精炼概括。使用感受：对于经常需要用微信处理文档的职场人士来说，可以把文件直接发给元宝，并给它相应的指令，它能够理解上下文，进行智能问答。

2025-06-26 23:03:07 1106

原创实测Kimi-Researcher后，我发现写报告缺的不是信息，而是洞察！

不仅分析了欧美日等发达国家的养老模式，还深入探讨了北欧的"积极老龄化"理念、日本的"社区综合照护"体系，以及德国的长期护理保险制度。毕竟，在这个信息化时代，我们需要的不是更多的信息，而是更好的洞察。问题设计要有层次：不要问"新能源汽车怎么样"这种过于宽泛的问题，而是要具体到"从技术创新、市场表现、投资价值三个维度分析特斯拉与比亚迪的竞争优势"。政策脉络梳理：从2014年的"9·30"新政开始，逐一分析了十年来影响北京楼市的重大政策，包括限购、限贷、限价、限售等。有趣的是，我能看到它在研究过程中的思考轨迹。

2025-06-26 13:03:37 1041

原创我用豆包AI，把PDF文档做成了播客节目

在半年多前给大家推荐过谷歌和NotebookLM，当时觉得很惊艳，奈何只能输出英文播客，前几天豆包上新了AI播客功能，能把PDF文件或者网页链接，一键变成真人对谈式的播客。在电脑浏览器上，右键点击页面 -> 选择“检查”（Inspect）-> 切换到“网络”（Network）标签页 -> 选择“媒体”（Media）-> 播放播客，你就能找到那个音频文件（通常是m4a或mp3格式），右键打开或直接保存即可！想听点什么，但传统APP的“朗读全文”功能，那机械的AI音，听得人昏昏欲睡...

2025-06-25 12:00:00 555

原创每日arXiv论文AI助手：自动生成摘要，并高亮你的关注点

你想看英文摘要怎么办？你可以直接 Fork 它的代码库，通过修改几个简单的变量，就能轻松将爬取类别切换成 cs.AI 或 stat.ML，或者把摘要语言换成 English。设置完成后，主页上所有符合你偏好的论文都会被自动高亮出来，所有个性化设置都保存在你的本地浏览器中，非常方便。整个过程全自动，你每天醒来，看到的都是AI为你精心准备好的“学术头条”。无论是在办公室用电脑，还是在通勤路上用手机，这个工具的界面都做了精心适配。它的Slogan非常吸引人：“AI帮你读论文，每天自动更新划重点”。

2025-06-24 10:04:43 427

原创建议收藏！搞懂这50个大模型面试题，AI求职路上不踩坑（五）

当面对一个新任务时，即使模型从未见过类似任务的训练样本，只要以适当的自然语言提示（prompt）形式呈现任务，它就能利用其语言理解能力进行合理的推断。大语言模型（Large Language Model，LLM）是一种基于深度神经网络，通常采用 Transformer 架构的人工智能模型，通过在海量文本语料上进行训练，具备自然语言理解与生成能力。每一层的输入可以同时访问整句信息，有助于更稳定的反向传播。’”，模型并未专门接受“情感分类”任务的训练，但仍可通过语言上下文的理解，做出“正面”这样的预测。

2025-06-23 12:00:00 476

原创建议收藏！搞懂这50个大模型面试题，AI求职路上不踩坑（四）

例如，Google的Switch Transformer就是MoE的代表，其在保持或提升准确率的同时，仅使用常规模型10%的计算资源，从而实现更大规模、更高性价比的预训练。统一架构(Unified Architecture)：采用Transformer 解码器（Decode Only）+混合专家（MoE）架构，将图像、视频等平面数据划分为32x32的视觉token，与文本token统一编码为一维序列，打破模态边界，实现跨模态处理能力的深度融合，从而提升参数利用效率并简化模型结构设计。

2025-06-22 22:43:07 570

原创建议收藏！搞懂这50个大模型面试题，AI求职路上不踩坑（三）

在像主成分分析（PCA）这样的技术中，选择具有高特征值的特征向量可以在保留大部分方差的同时降低维度，从而为大语言模型的输入处理实现高效的数据表示。Softmax函数在注意力机制中的作用是：将每个查询（Query）对所有键（Key）的相似度得分转化为一组归一化的注意力权重，使得它们之和为1，从而形成一个概率分布，用于加权值（Value）。在语言建模中，它确保模型为正确的下一个token分配高概率，从而优化性能。Softmax具有放大差异的特性，得分更高的键会获得显著更大的权重，从而引导模型关注最相关的信息。

2025-06-21 12:00:00 442

原创建议收藏！搞懂这50个大模型面试题，AI求职路上不踩坑（二）

大语言模型使用子词分词（Subword Tokenization）来处理OOV，这类技术不直接把词当作最小单位，而是将词拆分为更小的可学习单元（子词、字符组合、常见词根等），这样几乎所有单词都能被分解表示，彻底消除OOV 问题。在预训练期间，像BERT这样的模型学习对50%的正例（连续的）和50%的负例（随机的）句子对进行分类。灾难性遗忘是指：在微调（Fine-tuning）一个已经预训练好的大语言模型时，模型在学习新任务时遗忘了之前学到的知识，导致泛化能力下降或旧任务性能退化。

2025-06-19 12:00:00 644

原创建议收藏！搞懂这50个大模型面试题，AI求职路上不踩坑（一）

在文本生成过程中，集束搜索会探索多个候选词序列，在每一步保留前k个最优的候选（即束），而贪婪解码在每一个时间步（token 生成点）只选择当前概率最高的 token，不考虑未来的可能性或整体句子的连贯性。集束搜索是一种宽度优先的搜索策略，在文本生成过程中，它在每一步保留Top-k条概率最高的部分序列（k就是beam width），同时扩展这k条路径中每一条的下一个token，保留新的top-k路径，重复，直到生成终止符或达到最大长度。低温（如0.3）会倾向于选择高概率的token，产生可预测的输出。

2025-06-18 12:00:00 610

原创告别低效Prompt！火山引擎PromptPilot智能优化你的AI指令

我没有从一个简单的请写拒信开始，而是在PromptPilot的调试界面，构建了一个结构化的指令模板。右侧的变量内容区可以让我随时填入一个具体候选人的信息，点击生成，立刻就能看到效果，调试和迭代的速度非常快。我没有写任何复杂的Prompt，只是在PromptPilot里创建了「视觉理解 Solution」任务，上传了图片，并用一句话描述了我的目标。最终，它会自动优化我最初的Prompt，让他在无需参照物的情况下，也能生成更符合我心意的创意内容。这是一个典型的复杂视觉任务，远超单个Prompt的处理能力。

2025-06-17 11:39:56 1789

原创告别低效！Google Gemini官方提示词指南，职场人都在偷偷学！

提示词：“为我的新业务，一家咖啡店与视频游戏咖啡馆结合，生成创意和引人注目的标志想法。风格选项：我对这些方法持开放态度——让我们看看这三种风格中的一些例子进行比较：现代和趣味：大胆的色彩，有趣的图形，也许是像素艺术美学。时尚和极简：干净的线条，几何形状，对两种主题的更微妙的提示。在Gemini Advanced中，你可以使用“将此设为提示词：[原始提示词文本]”来让Gemini帮你改进提示词。下面，我们来看看Gemini在实际工作场景中的应用，搭配上指南中的提示词，看看如何让你的工作事半功倍！

2025-06-16 09:57:46 859

原创 Gemini 2.5 Flash：对比OpenAI o4-mini与自家2.0，该如何选？

o4-mini 可以理解图像内容并结合你的文字要求，直接生成一张高质量的数字设计图，甚至可以帮你生成界面的基础布局代码。的上下文窗口，Pro版本计划扩展到200万。100万Token的超大上下文窗口，模型可以一次性阅读和理解全文，然后根据你的指令，精准地抽取出所有相关条款并进行总结。你是一位产品经理，手绘了一张音乐 App 的界面草图，希望快速将其转化为一个数字化的视觉模型，并和设计师讨论。2.5 Flash 的设计更强调“先思考，后回答”，这让它在处理需要严谨逻辑链条的任务时，相比前代更有优势。

2025-06-16 09:28:26 723

原创 LLM中的MCP是什么，它的底层原理怎么理解？

模型上下文协议（MCP）是一种标准化接口，旨在帮助大语言模型（LLM）动态连接外部数据源和工具。其采用客户端-服务器架构，通过JSON-RPC2.0协议实现通信，支持标准输入输出和HTTPSSE两种连接方式。MCP的出现显著简化了AI系统与多种工具间的集成复杂度（从N×M降到N+M），使模型能够实时获取外部信息并执行操作。相比传统API集成、OpenAI插件或RAG等方法，MCP更具通用性和扩展性。

2025-06-13 09:22:16 787

原创 OpenAI大模型命名真滴乱，现在OpenAI大模型能力顺序排名是什么？

所以简单说，o3和o4-mini这些，并不是像GPT-3到GPT-4那样大版本迭代，更像是基于GPT-4o架构的各种优化版或者缩水版，看具体需求、速度和支持什么模态来用。GPT-4o mini是它的小号经济版，支持图像和文本输入，输出文本，主力模型忙不过来的时候可以切换。GPT系列是OpenAI最早发布也是最知名的语言模型，先有 GPT-3，然后是 GPT-3.5，再是 GPT-4。能接收图片输入，输出文字。虽然有新的模型出来了，但在需要超大上下文和高效聊天的场景，GPT-4 Turbo还是有它的价值。

2025-06-04 22:40:24 839

原创如何评价OpenRouter这样的大模型API聚合平台？

当然，用户也可以根据自己的需求调整，如果对吞吐量要求高，可以优先考虑吞吐量高的供应商，甚至可以设置供应商的优先级顺序或将特定供应商列入白名单。OpenRouter在不断地加入新模型，比如最新的Gemini 2.5 Pro、Claude 3.7，也有前几天刚刚开源的Qwen3系列模型，也在计划增加新功能，社区也挺活跃的。模型切换简单，省了不少开发时间。如果某个供应商模型卡住了，它还会自动切换到备用的模型，尽量保证你的服务不断线。虽然它会帮你选便宜的，但万一便宜的挂了，自动切换到贵的供应商，费用可能就上去了。

2025-05-24 21:55:28 1029

原创如何最简单、通俗地理解什么是NLP？

NLP让计算机理解人类语言，处理79%的非结构化文本数据。其核心流程包括：分词（将文本拆分为词语）、归一化（词干提取和词形还原）、语法分析（词性标注和依存句法）。应用涵盖情感分析、机器翻译、信息检索等。现代NLP采用机器学习方法，包括数据预处理、特征提取和模型训练（传统算法和深度学习模型如Transformer）。从规则系统到深度学习，NLP技术持续演进，深刻影响着我们的生活和工作。

2025-05-23 23:15:22 924

原创如何构建一个简单的AI Agent（极简指南）

让我们开始深入了解吧！- 设置环境：安装 Python，然后用 pip 安装所选框架（如 pip install langchain ）。- 获取 API 密钥：对于人工智能模型（如 OpenAI），注册并获取 API 密钥。定义：人工智能代理是一种感知环境并采取行动以实现目标（如聊天、任务自动化）的程序。- 连接模型：关联模型，如 OpenAI 的 GPT（需 API 密钥）。- 定义工具：添加代理可使用的功能，如网络搜索或记忆功能。- 外部工具：集成 API（如天气代理的天气 API ）。

2025-05-22 21:40:54 473

原创谷歌2025年I/O开发者大会热点总结

这项新订阅服务提供对谷歌最先进AI模型的访问权限，并在Gemini、NotebookLM、Flow等应用中放宽使用限额，同时包含Chrome版Gemini和Mariner项目的优先体验权。该应用整合了Veo、Imagen和Gemini技术，可根据文本提示或图片生成8秒视频片段，并配备场景搭建工具，支持将片段拼接成更长的AI生成视频。双方将推出一款基于安卓XR平台的混合现实智能眼镜，目前细节尚未完全披露，但已知将集成Gemini模型，具备广视角，并内置摄像头和麦克风。5. Imagen 4与Veo 3升级。

2025-05-21 22:52:51 571

原创大模型推理框架，SGLang和vLLM有哪些区别？

像内容生成、推荐、单轮问答这种，vLLM靠着PagedAttention和ContinuousBatching，以前确实很能打，吞吐量高，单卡就能扛上百并发。也支持张量并行（号称零冗余优化内存），有分布式调度器能智能分配请求给不同GPU，还能抢占低优先级任务，甚至能跨机器做流水线并行，扩展性很强。不光是简单的问答，像多轮对话、让模型规划任务、调用外部API，或者生成类似JSON格式的内容，它都可以做。不像以前那样傻等，凑齐一批再处理，vLLM能动态地往批量处理里加新请求，尽量让GPU一直干活，提高利用率。

2025-05-19 13:01:46 882

原创推理大模型与普通大模型的区别是什么？

推理大模型与普通大模型在工作机制、训练方法和应用场景上存在显著差异。普通大模型如ChatGPT通过预训练和微调实现语言理解和生成，适用于聊天、内容创作等广泛场景。

2025-05-18 16:38:03 1071

原创阿里通义千问 Qwen3 系列模型正式发布，该模型有哪些技术亮点？

阿里发布的Qwen3系列模型，包括2款混合专家（MoE）模型和6款密集模型，标志着开源AI技术的显著进步。Qwen3通过MoE架构和稀疏激活机制，有效降低了计算成本和硬件需求，使得大规模模型如Qwen3-235B-A22B在资源消耗上更为经济。

2025-05-17 11:04:53 982

原创 OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

OpenAI最新发布的GPT-4.1系列模型，包括GPT-4.1、GPT-4.1mini和GPT-4.1nano，标志着公司在战略上的重要调整，专注于特定领域、性价比和开发者需求。这些模型在编码、指令遵循和处理长文本方面进行了显著改进，知识库更新至2024年6月。最大的亮点是100万token的上下文窗口，极大地提升了处理海量信息的能力，如复杂代码库分析和长文档翻译。性能上，GPT-4.1在编码测试中表现优异，远超GPT-4o和GPT-4.5。此外，新模型在成本效益上也有显著提升，查询成本降低了约26%。

2025-05-16 21:44:09 565

原创为什么deepseek没有诞生在顶尖科研机构中科院？

再加上幻方量化提供的资金非常独特，没有传统VC那种要求短期回报的压力，给了DeepSeek极大的自主权和试错空间，这也是体制内科研项目很难比拟的。我们可以打个简单的比方。而中科院这样的大型研究机构呢，更像是一艘航空母舰，实力雄厚，能执行各种复杂的战略任务，但启动和转向都需要时间和规划，它的目标是保障一片广阔海域的长期安全与繁荣（比如，推动整个国家某一科学领域的持续进步）。很多行业内的专家也认同创业公司在AI领域的优势，他们提到，创业公司通常效率更高，决策更快，更能快速调整方向，也更贴近用户和市场需求。

2025-05-15 18:37:06 831

空空如也

空空如也