吴脑的键客-优快云博客

原创冲刺1w粉丝，感恩有你！优快云，我们来了！

我们需要的互联网，不是一个能被随意关闭的垃圾桶，而是一个开放、自由、安全的空间。亚伦的故事提醒我们，互联网的未来不仅依赖于技术的进步，更依赖于每个人的觉醒与行动。是你们的留言给了我坚持下去的勇气，最终成功解决了问题，并将解决方案分享给了更多需要的人。还记得刚开始在优快云分享技术文章时，我只是一个默默无闻的小白，怀揣着对技术的热爱，小心翼翼地敲下每一行代码，写下每一篇博客。那时的我，从未想过有一天，我的粉丝数会突破四位数，甚至向着1w的目标迈进！喜悦的是，我的努力得到了认可，我的分享帮助到了更多人；

2025-02-17 14:03:06 464

原创【Nividia开源世界模拟器组件】Cosmos Tokenizer: 一套图像和视频神经标记器

我们介绍的英伟达 Cosmos 令牌生成器是一套图像和视频令牌生成器，它推动了可视化令牌生成技术的发展，为可扩展、稳健、高效地开发大型自动回归变换器（如 LLM）或扩散生成器铺平了道路。Cosmos Tokenizer 是英伟达 Cosmos 的核心组件，Cosmos 是一个开发人员优先的视频基础模型平台，旨在帮助物理人工智能开发人员更好、更快地构建他们的物理人工智能系统。给定一幅图像或视频，宇宙标记器输出连续潜像或离散标记。

2025-01-07 17:10:29 1567 1

原创【Nvidia开源世界模拟器】Cosmos-1.0-Diffusion：基于扩散的世界基础模型套件

在根据我们的服务条款下载或使用时，开发人员应与其内部模型团队合作，以确保该模型符合相关行业和用例的要求，并解决不可预见的产品滥用问题。Cosmos 扩散模型是一系列基于扩散的世界基础模型，可从文本、图像或视频输入生成动态、高质量的视频。：如果您绕过、禁用、降低或规避模型中包含的任何技术限制、安全防护栏或相关安全防护栏超参数、加密、安全、数字版权管理或验证机制，您在 NVIDIA 开放模型许可协议下的权利将自动终止。对于更高端的 GPU，用户可以根据下面提供的数据选择最合适的卸载策略。

2025-01-07 16:58:16 1606

原创如何使用 condacolab 为 Google Colab 安装 Conda 软件包

Conda 是一种流行的开源软件包管理系统，可以让你轻松地安装、管理和更新项目的软件包和依赖项。它常用于数据科学和机器学习项目，因为它提供了一种管理不同版本软件包和依赖项的简单方法。Conda 适用于不同的平台，包括 Windows、macOS 和 Linux。Google Colab 是一个基于云的笔记本环境，可以让你在浏览器中编写和执行 Python 代码。它基于 Jupyter Notebook，提供一系列功能，包括访问 GPU 和 TPU 等强大的硬件资源。

2024-12-10 14:30:35 1155

原创【AI绘画重磅开源】Stable Diffusion 3.5 Large 和 Large Turbo 让任何人都拥有商业模型的快乐

Stable Diffusion 3.5模型发布，图像生成更真实，性能提升，并专注于多样化输出和易用性。StabilityAI昨天发布了其全新的Stable Diffusion 3.5系列 AI 图像模型，与之前的3.0版本相比，这次升级显著提高了图像的逼真度、对提示的响应能力以及文本渲染效果。与 SD3.0 类似，Stable Diffusion 3.5有三个版本——大型版 (8B)、大型加速版 (8B Turbo) 和中型版 (2.6B)。

2024-10-25 09:23:40 2600

原创 Llama 3.2：利用开放、可定制的模型实现边缘人工智能和视觉革命

在我们发布 Llama 3.1 模型群后的两个月内，包括 405B - 第一个开放的前沿级人工智能模型在内，它们所产生的影响令我们兴奋不已。虽然这些模型非常强大，但我们也认识到，使用它们进行构建需要大量的计算资源和专业知识。我们也听到一些开发人员说，他们没有这些资源，但仍然希望有机会使用 Llama 进行构建。正如 Meta 创始人兼首席执行官马克-扎克伯格（Mark Zuckerberg）今天在 Connect 大会上所分享的，他们不必再等待了。

2024-09-26 09:16:42 2459

原创啊？不会这就是草莓吧？OpenAI发布最新模型——OpenAI o1-preview

解决难题的全新系列推理模型。9.12 开始提供我们开发了一系列新的人工智能模型，旨在花更多时间思考后再做出反应。与以前的科学、编码和数学模型相比，它们可以推理复杂的任务，解决更难的问题。今天，我们将在 ChatGPT 和我们的应用程序接口中发布该系列的第一个模型。这是一个预览版，我们期待定期更新和改进。在发布此版本的同时，我们还将对目前正在开发中的下一次更新进行评估。

2024-09-13 08:16:23 1419

原创【AI绘画】FLUX：这款新的人工智能图像生成器非常善于创造人手

Black Forest Labs 发布了三种 FLUX.1 文本到图像模型：高端商业 "pro "版、非商业使用的中端开放权重 "dev "版和更快的开放权重 "schnell "版（"schnell "在德语中意为快速）。Black Forest Labs 声称，其模型在图像质量和文本提示的遵从性等方面优于 Midjourney 和 DALL-E 等现有选择。

2024-08-04 09:26:03 2773 1

原创如何快速下载huggingface大模型

Stackoverflow 上有个AI开发入门的最常见问题 How to download model from huggingface?，回答五花八门，可见下载 huggingface 模型的方法是十分多样的。其实网络快、稳的话，随便哪种方法都挺好，然而结合国内的网络环境，断点续传、多线程下载等特性还是非常有必要的，否则动辄断掉重来很浪费时间。基于这个考虑，对各类方法做个总结和排序：

2024-08-03 12:35:19 2634

原创 Meta推出全新大语言模型“Llama 3.1”

Meta公司高管表示，该模型主要用于为Meta公司内部和外部开发者的聊天机器人提供动力，并拥有广泛的新功能，包括改进的推理能力，可以帮助解决复杂的数学问题或立即提取一整本书的要点。“我认为，对于人工智能助手来说，最重要的产品将是它有多智能，”扎克伯格在接受系列节目The Circuit with Emily Chang的采访时表示，“我们正在打造的Llama模型是世界上最先进的模型。扎克伯格希望开放使用的策略将推动该公司的产品成为其他成功初创企业和产品的基础，令Meta在行业的远期发展中拥有更大的影响力。

2024-07-24 09:41:14 722

原创大教堂和小集市正在AGI上上演

世界上的建筑可以分两种：一种是集市，天天开放在那里，从无到有，从小到大；还有一种是大教堂，几代人呕心沥血，几十年才能建成，投入使用。当你新建一座建筑时，你可以采用集市的模式，也可以采用大教堂的模式。一般来说，集市的特点是开放式建设、成本低、周期短、品质平庸；大教堂的特点是封闭式建设、成本高、周期长、品质优异。而AGI正分为两派：闭源企业派和开源自由派。但无论哪种形式，都将推动着ML走向全新的高位宇宙。

2024-05-31 10:30:20 1173

原创【全网瞩目】OpenAI春季发布会结束，一夜过后又惊喜——GPT4O，新的 LLM 标准诞生了

虽然昨天我就一直关注到OpenAI的主页提示，即将发布春季直播，而且也有很多媒体透露没有Sora，可能是AI Search等等，但是没想到结果还是这么惊喜。就连OpenAI方面也在直播前几天透露，不是搜索引擎，而是GPT的优化。然而，OpenAI在主打产品AI模型上花了更多心思，拓展多模态功能，让用户可以免费玩转文字、图片和语音输入。

2024-05-14 09:01:17 937

原创大算力时代已经到来

计算机发展到现在，早已经历了大数据时代，而现如今国家也注意到国民大数据的重要性，而给予保护性条款和制度的建立。我觉得这只是早已注定的结局，但是未来该走向何方，着眼当下，我们互联网人早已身处在答案之中——大算力（Big Computing Power）时代。回顾2019年，Nvidia宣布下一代的的显卡将会具备光追技术。而在随后2020年，区块链大佬就发现Nvidia的系显卡对原系算力的提升有着难以置信的显著表现。就此大算力时代也彻底拉开了序幕。当然，许多3A大作也可以在4k画质下突破百帧。随后，AMD也在2

2022-08-06 17:58:32 1356

原创一个程序员应怀揣武侠梦

一个程序员应怀揣武侠梦在美国的硅谷，许多有梦想的青年都有着一份属于自己的美国梦。在他们的眼中，总会让人感受到一种想要改变世界的朝气。难道其他地方的青年们没有属于自己的梦想吗？答案明显是每个人都拥有着。我从小就被金庸先生和古龙先生笔下的“江湖”给深深的吸引着。在那里，权贵并不重要，更重要的是友情、亲情、国士无双的情怀。每一个身处在江湖中的人都始终贯彻着属于自己的人生信条。我觉得这样的人一定很热爱这个江湖。相比之下，计算机行业也是一种“江湖”。在AT&T的肯•汤普森先生和丹尼斯•里奇先生创作出 Un

2021-03-07 17:47:51 390 1

原创合成数据立功！AccVideo实现高质量视频生成、速度飙升8. 5倍

在人工智能视频生成领域，扩散模型以其卓越的性能备受瞩目。然而，其固有的迭代去噪特性导致生成过程耗时且计算成本高昂，成为制约其广泛应用的关键瓶颈。近日，来自B北京航空大学、香港大学和上海人工智能实验室的研究团队联合发布了一项名为 AccVideo 的创新技术。该方法通过一种新颖高效的蒸馏方法，并结合合成数据集，成功将视频扩散模型的生成速度提升了惊人的8.5倍。现有的视频扩散模型在生成高质量视频方面表现出色，但其迭代式的去噪过程需要大量的推理步骤。

2025-03-29 09:16:42 414

原创阿里通义千问QVQ-Max视觉推理模型：开启多模态推理新纪元

在人工智能领域，多模态推理一直是研究的热点和难点。随着技术的不断进步，如何让机器像人类一样，通过视觉、文本等多种模态信息进行深度思考和推理，成为了众多科研团队追求的目标。近日，阿里通义千问团队推出的QVQ-Max视觉推理模型，为这一领域带来了新的突破和惊喜。

2025-03-29 09:06:33 515

原创告别低质信息图！清华、微软联手打造BizGen，一键生成专业级幻灯片和海报，让你的内容瞬间高大上！

别担心，你的救星来了!清华大学、微软研究院等顶尖机构联手推出了一款名为BizGen的秘密武器，它就像一位技艺高超的设计大师，能够根据你提供的文章内容，瞬间变幻出专业水准的信息图和幻灯片，让你的工作效率直接起飞!你可以把它想象成一个拥有65万个设计模板的宝藏，每一个模板都标注了各种元素的精确位置和功能，这为BizGen的学习和理解复杂的商业设计奠定了坚实的基础。它凭借其独特的技术优势和卓越的生成质量，极大地降低了制作专业级信息图和幻灯片的门槛，让每个人都能轻松地将复杂的信息转化为引人入胜的视觉内容。

2025-03-28 10:46:44 465

原创北京智源开源 RoboBrain ：从抽象到具体的机器人操纵统一脑模型

近年来，多模态大语言模型（MLLM）的快速发展极大地推动了人工通用智能（AGI）的研究进展。通过利用来自互联网的海量多模态数据并结合自监督学习技术，MLLMs 在视觉感知和理解人类语言指令方面表现出了非凡的能力。然而，尽管 MLLMs 在一般任务中的表现令人印象深刻，但在具身场景中仍面临巨大挑战，尤其是在长视距操作任务中。在机器人学中，长视距操纵任务是机器人执行复杂任务的核心能力之一。这些任务通常涉及多个步骤和长期互动，例如 "在厨房准备一杯茶 "或 “在仓库完成物品分类”。

2025-03-28 07:24:17 709

原创阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

我们对 Qwen2.5-Omni 进行了全面评估，与类似规模的单模态模型和封闭源模型（如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro）相比，Qwen2.5-Omni 在所有模态中都表现出强劲的性能。此外，在单模态任务中，它在语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）和语音生成（Seed-tts-eval 和主观自然度）等领域表现出色。

2025-03-27 10:12:10 1252

原创清华大学开源Video-T1：测试时扩展助力视频生成质量飞跃

然而，传统的视频生成模型往往需要通过增大基础模型的参数量和预训练数据来提升性能，这不仅意味着高昂的计算资源需求，还限制了模型在实际应用中的灵活性。清华大学开源的Video-T1通过创新的测试时扩展策略，为视频生成领域提供了一种新的、有效的提升质量的方法。随着进一步的研究，我们有理由相信TTS技术将在视频生成领域发挥越来越重要的作用，为视频生成技术的发展和应用带来更多的可能性。例如，在描述“一只戴着太阳镜的猫在泳池边担任救生员”的视频中，经过TTS处理后的视频中，猫的形象更加清晰，救生员的动作也更加自然。

2025-03-27 08:28:20 933

原创王炸！DeepSeek-V3-0324悄然发布：6850亿参数免费商用，Mac也能跑的编程神器

DeepSeek-V3-0324的震撼，不仅在于技术指标的飞跃，更在于它证明了顶级AI可以同时做到开源、免费、高性能。当硅谷还在争论"闭源模型是否更安全"时，DeepSeek用代码向世界宣告：真正的技术革命，永远属于那些把星辰大海写进开源协议的人。现在，打开你的Mac，启动那个352GB的模型文件吧——AI编程的全民时代，已经来临。

2025-03-25 11:54:26 2095

原创新测试挑战 AI 智能水平：ARC-AGI-2 让顶尖模型碰壁

根据 Arc Prize 排行榜，诸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “推理型” AI 模型在 ARC-AGI-2测试中的得分仅在1% 到1.3% 之间，而更为强大的非推理模型，例如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 的得分也大约在1%。与此同时，Arc Prize 基金会还宣布了2025年的 Arc Prize 竞赛，挑战开发者在 ARC-AGI-2测试中达到85% 的准确率，而每个任务的花费仅为0.42美元。

2025-03-25 11:40:54 375

原创视觉语言AI新突破！伯克利发布TULIP模型，性能大幅超越现有技术

在人工智能领域，视觉语言模型的发展一直是研究的热点。如今，加州大学伯克利分校的研究团队带来了令人振奋的消息，他们发布了全新的TULIP（Towards Unified Language-Image Pretraining）模型，这一模型在视觉语言预训练方面取得了重大突破，尤其在以视觉为中心的任务中表现出色，克服了现有对比学习模型（如CLIP）的诸多局限。

2025-03-25 11:37:16 478

原创 AMD推出开源项目“GAIA”实现本地大模型高效运行

AMD宣布推出专为本地运行大语言模型（LLM）设计的开源应用GAIA，目前支持Windows平台。GAIA是一款生成式AI应用，可在Windows PC上实现本地化私密运行LLM，并针对锐龙AI 300系列处理器进行了优化。GAIA基于ONNX TurnkeyML的Lemonade SDK开发，采用检索增强生成（RAG）技术，支持Llama、Phi等主流模型。AMD提供普通版和混合版安装方案，普通版兼容任意Windows设备，混合版专为锐龙AI 300系列优化。

2025-03-24 09:12:35 242

原创 RTX 5060 Ti完整规格流出显存带宽增幅巨大：2K游戏甜点卡再进化

RTX 5060 Ti的升级策略十分明确：在CUDA核心和频率缓步提升的同时，通过GDDR7显存的带宽革命，弥补了128bit位宽的历史短板。对于2K分辨率游戏玩家和轻度创作用户而言，16GB版提供了更大的显存冗余，而8GB版则以更亲民的价格抢占主流市场。不过，考虑到AMD RX 9060系列的价格攻势和RTX 40系的清仓优惠，消费者不妨等待上市后实际评测与价格稳定再做决定。毕竟，在DLSS 4.0技术的加持下，这款“带宽怪兽”能否真正成为新一代性价比之王，还需时间验证。

2025-03-24 09:09:39 812

原创 OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后，OpenAI并未停下在该领域探索的脚步，现在这家ChatGPT的创造者再次发力，推出了三款全新的自主研发语音模型，分别为:gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe。目前，这些新模型已经率先通过应用程序接口（API）向第三方开发者开放，开发者们可以利用它们打造更智能的应用程序。

2025-03-24 08:51:03 1120

原创腾讯混元自研深度思考模型「T1」正式发布

混元T1正式版在大规模强化学习的基础上，针对数学、逻辑推理、科学和代码等理科难题进行了专项优化，从而实现了推理能力的显著提升。同时，在CEval、AIME、Zebra Logic等中英文知识及竞赛级数学、逻辑推理的公开基准测试中，混元T1也展现出了业界领先推理模型的水平。这是工业界首次将混合Mamba架构无损应用于超大型推理模型，有效降低了传统Transformer结构的计算复杂度，减少了KV-Cache的内存占用，从而显著降低了训练和推理成本。近日，腾讯正式推出了其自研的深度思考模型——混元T1正式版。

2025-03-24 08:44:42 235

原创字节推文生图框架InfiniteYou ：可保持人脸特征，场景随便换

InfuseNet就像一位技艺高超的化妆师，通过“残差连接”这种精细的操作，在增强人脸相似度的同时，还不破坏原有的生成能力。这种精细化的训练策略，能够显著提升文本和图像的对齐度，让生成的图像更符合你的文字描述，同时还能提高图像质量和美观度，并有效缓解“换脸”后常见的面部复制粘贴问题。简单的说，这是一款文本到图像的生成模型，它的厉害之处在于，能够根据你输入的文字描述，生成带有你个人身份特征的高质量图像。这可不是简单的换脸App能比的，它更注重的是在灵活变换场景和内容的同时，精准保留你的身份特征。

2025-03-22 09:53:31 563

原创运动可控！阶跃星辰 Step-Video-TI2V 图生视频模型开源

首先，引入图像条件以提高生成视频与原图的一致性。与传统的cross-attention方法不同，该模型采用了更直接的方式，将图像对应的向量表示与DiT第一帧对应的向量表示直接进行channel维度的拼接，从而确保生成的视频与输入图片高度一致。与现有的开源图生视频模型相比，Step-Video-TI2V不仅在参数规模上提供了更高的上限，其运动幅度可控能力还能平衡视频生成结果的动态性和稳定性，为创作者提供了更灵活的选择。同时，它支持多种尺寸的图生视频，无论是横屏、竖屏还是方屏，都能满足不同平台的需求。

2025-03-21 10:01:20 557

原创 Meta杨立昆：人类将是未来AI的主人，而不是被其毁灭

3月19日，商业内幕报道，Meta首席人工智能科学家杨立昆表示，超级AI即将到来，但至少目前它不会取代人类。杨立昆周二在GTC大会上表示：“嗯，在某些时候AI可能会取代人类，但我认为人们不会接受这种情况，对吧？我的意思是，我们与未来的AI系统的基本关系是，我们将成为它们的老板。我们会有一群超级聪明、出色的AI员工为我们工作。我不知道你们怎么想，但我喜欢和比我聪明的人一起工作。这是世界上最棒的事情。”包括OpenAI的山姆・奥特曼和xAI的马斯克在内的人工智能行业领袖，常常将超级AI的出现描述为人类的关键时

2025-03-21 09:40:09 211

原创当机器人学会 “看懂” 三维世界：SpatialLM 如何破解具身智能的空间认知困局

在人工智能技术飞速发展的今天，机器对空间的理解和认知能力正逐渐成为研究的热点。SpatialLM作为一种创新的三维大型语言模型，正在这一领域掀起一场革命。本文将带你深入了解SpatialLM的核心技术、应用场景及其对未来的深远影响。

2025-03-21 09:30:47 1147

原创 LG开源EXAONE Deep模型，号称韩国首个自研推理AI模型

除了强大的32B版本，LG AI Research 还同步开源了“轻量级模型 EXAONE Deep-7.8B”和“端侧模型 EXAONE Deep-2.4B”。轻量级模型在只有32B模型 24% 大小的情况下，竟然保持了高达 95% 的性能。而更小巧的端侧模型，在只有 7.5% 大小的情况下，也拥有 86% 的性能。LG AI Research 的官方人士还透露，早在今年二月份，他们就预告了即将开源DeepSeek R1级别模型的计划，如今看来是“说到做到”。，超越了同等参数规模的其他推理AI模型。

2025-03-20 14:03:08 905

Agent Q.pdf-Agent Q: Advanced Reasoning and Learning for Autono

Grok-314B模型磁力链接

image模型，yolov3.pt

image模型，tiny-yolov3.pt

retinanet-resnet50-fpn-coco-eeacb38b.pth

densenet121-a639ec97

inception-v3-google-1a9a5a14.pth

空空如也