普通网友-优快云博客

原创 SPO：如何优化提示词？大模型最懂如何优化自己！开源自监督提示词优化工具，让AI自主优化提示词

本文介绍由DeepWisdom与香港科技大学联合研发的SPO框架，通过自我监督机制实现大语言模型提示优化，仅需3个样本即可达到SOTA效果，优化成本降低至传统方法的1.1%-5.6%。

2025-02-27 23:19:18 1922

原创手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型，创建个性化 AI 助手

DeepSeek R1 + LobeChat + Ollama：快速本地部署模型，创建个性化 AI 助手

2025-02-04 21:21:16 3547

原创 VideoChat：高效学习新神器！一键解读音视频内容，结合 AI 生成总结内容、思维导图和智能问答

VideoChat 是一款智能音视频内容解读助手，支持批量上传音视频文件并自动转录为文字。通过 AI 技术，它能快速生成内容总结、详细解读和思维导图，并提供智能对话功能，帮助用户更高效地理解和分析音视频内容。

2024-11-24 23:38:55 1631

原创 WebChat：开源的网页内容增强问答 AI 助手，基于 Chrome 扩展的最佳实践开发，支持自定义 API 和本地大模型

WebChat 是一个基于 Chrome 扩展开发的 AI 助手，能够帮助用户理解和分析当前网页的内容，支持自定义 API 和本地大模型。

2024-11-17 20:26:55 2114

原创最佳实践！使用 GraphRAG + GLM-4 对《红楼梦》全文构建中文增强检索

`graphrag-practice-chinese`是一个 GraphRAG 的应用实例，项目特点在于提供了替换 OpenAI 模型的方法，并通过修改原有提示和切分文档的方法。

2024-10-15 18:32:14 1874

原创 Kiss3DGen：基于图像扩散模型的3D资产生成框架

Kiss3DGen是一个创新的3D资产生成框架，通过重新利用预训练的2D图像扩散模型，高效生成、编辑和增强3D对象，支持文本到3D、图像到3D等多种生成任务。

2025-04-01 00:57:50 344

原创 AutoGLM沉思：智谱AI推出首个能“边想边干“的自主智能体！深度研究+多模态交互，颠覆传统AI工作模式

AutoGLM沉思是由智谱AI推出的一款开创性AI智能体，它突破性地将深度研究能力与实际操作能力融为一体，实现了AI从被动响应到主动执行的跨越式发展。

2025-04-01 00:19:33 373

原创 OpenDeepSearch：搜索引擎革命！这个开源深度搜索工具让AI代理直接读懂网页，复杂问题一键拆解

OpenDeepSearch是基于开源推理模型的深度搜索工具，通过语义重排和多源整合优化检索效果，支持与AI代理无缝集成，提供快速和专业两种搜索模式。

2025-03-31 23:23:46 428

原创 Hi3DGen：2D照片秒变高精度模型，毛孔级细节完爆Blender！港中文×字节×清华联手打造3D生成黑科技

Hi3DGen是由香港中文大学、字节跳动和清华大学联合研发的高保真3D几何生成框架，通过法线图中间表示实现细节丰富的3D模型生成，其双阶段生成流程显著提升了几何保真度。

2025-03-31 23:21:58 505

原创 Qlib：华尔街颤抖！微软开源金融AI量化投资神器，助力智能投研

Qlib是微软亚洲研究院推出的开源AI量化投资平台，提供从数据处理、模型训练到组合管理的全流程支持，内置高性能数据基础设施和多种机器学习模型。

2025-03-31 23:20:58 390

原创 32B小模型竟能吊打百亿参数？GLM-4-Air-0414：智谱AutoGLM沉思背后的模型，智能体开发迎来新纪元

GLM-4-Air-0414是智谱公司推出的320亿参数开源基座模型，通过优化预训练数据和对齐策略，在工具调用、联网搜索和代码生成等智能体任务中展现出卓越性能。

2025-03-31 23:20:03 665

原创 FinGPT：华尔街颤抖！用股价训练AI，开源金融大模型预测股价准确率碾压分析师，量化交易新利器

FinGPT是基于Transformer架构的开源金融大模型，通过RLHF技术和实时数据处理能力，支持情感分析、市场预测等核心功能，其LoRA微调技术大幅降低训练成本。

2025-03-31 23:19:08 534

原创智谱推出深度思考模型 GLM-Z1-Air：推理速度相较DeepSeek-R1提升8倍，成本降低至1/30

GLM-Z1-Air是智谱公司基于GLM-4-Air-0414开发的深度思考模型，通过推理数据增强和对齐优化，在数理推理性能上达到顶尖水平，同时大幅提升推理效率并降低运行成本。

2025-03-31 23:18:01 465

原创智谱AI新突破！GLM-Z1-Rumination：新一代沉思模型，推动AI助手进入“高智商+高自主“的新阶段

GLM-Z1-Rumination是智谱推出的新一代沉思模型，通过扩展强化学习训练实现长程推理能力，支持动态工具调用与自我验证机制，显著提升AI自主研究能力。

2025-03-31 23:16:49 354

原创 PaddleSpeech：百度飞桨开源语音处理神器，识别合成翻译全搞定

PaddleSpeech是百度飞桨团队推出的开源语音处理工具包，集成语音识别、合成、翻译等核心技术，基于PaddlePaddle框架提供高性能解决方案。

2025-03-30 20:16:16 872

原创 ChatAnyone：阿里通义黑科技！实时风格化肖像视频生成框架震撼发布

阿里巴巴通义实验室推出的ChatAnyone框架，通过高效分层运动扩散模型和混合控制融合技术，实现高保真度、自然度的实时肖像视频生成。

2025-03-30 20:15:21 384

原创 PhysGen3D：清华等高校联合推出，单图秒变交互式3D场景

PhysGen3D是清华等高校联合开发的创新框架，通过单张图像重建3D场景并模拟物理行为，实现从静态图像到动态交互的突破性转换。

2025-03-30 20:14:27 630

原创 OmniSQL：开源文本到SQL神器！自然语言秒转查询到复杂多表连接等SQL需求

OmniSQL是开源的文本到SQL转换模型，通过创新的数据合成框架生成250万条高质量样本，支持7B/14B/32B三种模型版本，能处理从简单查询到复杂多表连接等各种SQL需求。

2025-03-30 20:13:32 658

原创 ObjectMover：港大联合Adobe打造图像编辑黑科技，移动物体光影自动匹配

香港大学与Adobe联合研发的ObjectMover模型，通过视频生成先验迁移技术，实现图像中物体的自然移动、删除和插入，自动保持光影一致性。

2025-03-30 20:12:38 602

原创 Vibe Draw：涂鸦秒变3D模型！开源AI建模神器解放创意生产力

Vibe Draw 是一款基于AI技术的开源3D建模工具，通过Next.js和FastAPI构建，能将用户绘制的2D草图智能转化为3D模型，并支持文本提示优化和场景构建。

2025-03-30 20:11:44 539

原创 Math24o：SuperCLUE开源的高中奥数推理测评基准，85.71分屠榜

Math24o是首个针对高中奥林匹克数学竞赛的中文大模型测评基准，采用2024年预赛真题实现自动化评估，为模型数学推理能力提供客观衡量标准。

2025-03-30 20:09:57 500

原创 RoboBrain：智源开源具身大脑模型，32B参数实现跨机器人协作

智源研究院推出的开源具身大脑模型RoboBrain，通过多阶段训练策略和模块化设计，在任务规划、可操作区域感知和轨迹预测等机器人核心能力上实现突破性进展。

2025-03-30 20:09:02 910

原创 BizGen：长文秒变信息图！AI排版黑科技碾压PPT，十语种一键出图

清华大学与微软联合推出的BizGen AI工具，能自动将长篇文章转化为专业信息图和幻灯片，支持10种语言和多种风格，排版准确率远超同类产品。

2025-03-28 23:30:15 349

原创 TxGemma：谷歌DeepMind革命药物研发！270亿参数AI药理学家24小时在线

谷歌推出专为药物研发设计的TxGemma大模型，具备药物特性预测、生物文献筛选、多步推理等核心能力，提供20亿至270亿参数版本，显著提升治疗开发效率。

2025-03-28 23:29:18 890

原创 DistilQwen2.5-R1：蒸馏黑科技！32B推理能力塞进3B小模型，推理速度狂飙300%

阿里巴巴最新发布的DistilQwen2.5-R1系列模型通过知识蒸馏技术，在保持高性能的同时大幅降低计算资源需求，7B模型性能甚至可媲美32B大模型。

2025-03-28 23:28:24 630

原创 TripoSG：3D生成新纪元！修正流模型秒出高保真网格，碾压传统建模

TripoSG 是 VAST AI 推出的基于大规模修正流模型的高保真 3D 形状合成技术，能够从单张图像生成细节丰富的 3D 网格模型，在工业设计、游戏开发等领域具有广泛应用前景。

2025-03-28 23:27:30 655

原创 TripoSR：开源3D生成闪电战！单图0.5秒建模，Stability AI颠覆设计流程

TripoSR是由Stability AI和VAST联合推出的开源3D生成模型，能在0.5秒内从单张2D图像快速生成高质量3D模型，支持游戏开发、影视制作等多领域应用。

2025-03-28 23:26:36 459

原创 TripoSF：3D建模内存暴降80%！VAST AI新一代模型细节狂飙82%

TripoSF 是 VAST AI 推出的新一代 3D 基础模型，采用创新的 SparseFlex 表示方法，支持 1024³ 高分辨率建模，内存占用降低 82%，在细节捕捉和复杂结构处理上表现优异。

2025-03-28 23:25:41 436

原创 QVQ-Max：阿里通义新一代视觉推理模型！再造多模态「全能眼」秒解图文难题

QVQ-Max是阿里通义推出的新一代视觉推理模型，不仅能解析图像视频内容，还能进行深度推理和创意生成，在数学解题、数据分析、穿搭建议等场景展现强大能力。

2025-03-28 23:24:46 417

原创谷歌DeepMind联手牛津推出Bolt3D：AI秒速3D建模革命！单GPU仅需6秒生成3D场景

牛津大学与谷歌联合推出的Bolt3D技术，能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景，基于高斯溅射和几何多视角扩散模型，为游戏、VR/AR等领域带来革命性突破。

2025-03-27 22:17:09 275

原创 Oliva：语音RAG革命！开源多智能体秒解复杂搜索，实时对讲颠覆传统

Oliva是一款基于Langchain和Superlinked的开源语音RAG助手，通过实时语音交互在Qdrant向量数据库中进行语义搜索，支持多智能体协作处理复杂查询任务。

2025-03-27 22:16:14 520

原创阿里开源多模态全能王 Qwen2.5-Omni：创新Thinker-Talker架构，全面超越Gemini-1.5-Pro等竞品

阿里开源Qwen2.5-Omni多模态大模型，支持文本、图像、音频和视频输入，具备实时语音合成与流式响应能力，在OmniBench等基准测试中全面超越Gemini-1.5-Pro等竞品，提供免费商用授权。

2025-03-27 22:15:21 896

原创 Cosmos-Reason1：物理常识觉醒！NVIDIA 56B模型让AI懂重力+时空法则

Cosmos-Reason1是NVIDIA推出的多模态大语言模型系列，具备物理常识理解和具身推理能力，支持视频输入和长链思考，可应用于机器人、自动驾驶等场景。

2025-03-27 22:13:32 771

原创 Fin-R1：上海财大开源金融推理大模型！7B参数竟懂华尔街潜规则，评测仅差满血版DeepSeek3分

Fin-R1是上海财经大学联合财跃星辰推出的金融领域推理大模型，基于7B参数的Qwen2.5架构，在金融推理任务中表现出色，支持中英双语，可应用于风控、投资、量化交易等多个金融场景。

2025-03-27 22:12:37 900

原创 Video-T1：视频生成实时手术刀！清华腾讯「帧树算法」终结闪烁抖动

清华大学与腾讯联合推出的Video-T1技术，通过测试时扩展（TTS）和Tree-of-Frames方法，显著提升视频生成的连贯性与文本匹配度，为影视制作、游戏开发等领域带来突破性解决方案。

2025-03-27 22:11:42 648

原创 TaoAvatar：手机拍出电影级虚拟人！阿里3D高斯黑科技让动捕设备下岗

阿里巴巴最新推出的TaoAvatar技术，通过3D高斯溅射实现照片级虚拟人实时渲染，支持多信号驱动与90FPS流畅运行，将彻底改变电商直播与远程会议体验。

2025-03-26 19:32:09 906

原创 pdf-craft：PDF秒转Markdown/EPUB！接入DeepSeek轻松生成电子书，自动整理目录、注释和引文

pdf-craft是一款专注于处理扫描书籍PDF的开源工具，能精准提取正文内容并转换为Markdown/EPUB格式，通过AI算法解决跨页连贯性问题，是学术研究和电子书制作的利器。

2025-03-26 19:31:15 869

原创 Mureka V6：10语种AI音乐工厂！昆仑万维「声场黑科技」颠覆作曲

昆仑万维推出的Mureka V6 AI音乐创作基座模型，支持10种语言歌词生成和纯音乐创作，通过自研ICL技术实现声场优化，覆盖爵士/电子/流行等多元风格，为音乐爱好者和专业创作者提供高效工具。

2025-03-26 19:30:21 279

原创 Gemini 2.5 Pro：谷歌「思维可视化」核弹！100万token生吞3本《战争与和平》

谷歌Gemini 2.5 Pro突破性支持100万token上下文窗口，在推理、代码生成和多模态处理方面全面超越GPT-4.5，即将扩展至200万token处理能力。

2025-03-26 19:29:27 937

原创 Mureka O1：全球首款「思维链」音乐大模型！昆仑万维让AI作曲自我进化

昆仑万维推出的全球首款音乐推理大模型Mureka O1，引入思维链技术实现多轮自我优化，支持10种语言AI音乐创作，具备音色克隆、风格控制等特色功能，为开发者提供API和微调服务。

2025-03-26 19:28:33 777

空空如也

空空如也