玩转AI小能手-优快云博客

原创 HivisionIDPhotos：告别照相馆！证件照生成1秒搞定

分为标准照（文件较小）、高清照（文件稍大）、排版照（默认1795*1205，即6寸相纸的尺寸，方便直接打印成实体照片，还很贴心地默认给出了裁切线，见下图）。包括一寸、二寸等7款常规尺寸，教师、公务员、会计、四六级、计算机、研究生、社保卡、驾照、美签、日签、韩签等场景，并且还可以自定义像素和尺寸。因此，我们在选择原始图片时，应该尽量包含完整的发型、肩膀，像素尽可能清晰，方便后期AI有更充足的操作空间。蓝、白、红、黑、深蓝、浅灰、美式证件照（美剧或美国高中毕业相册中常见的背景，如下图）。能不能帮忙直接旋转呢？

2025-07-22 09:25:39 1021

原创 Qwen3：大模型“卷王”出炉，魔法打败魔法

整体来看， Qwen3给出的回答中，虽然部分事项的真实可行性不高，但瑕不掩瑜，它给出的既包括整体策略、行动步骤、关键话术，还提供了关于风险预案、备用方案、后续优化等方面的建议，可以说完整且合理。创意写作作为Chatbot的看家本领，Qwen3的表现基本符合预期。只靠235B参数就横扫各大基准，不仅性能全面超越OpenAI o1和DeepSeek-R1，部署成本也只需要性能相近模型的三分之一，堪称大模型界的新任“卷王”。可以看到下图，Qwen3切换为了思考模式，思考过程使用的是英语，但是答案使用的是德语。

2025-07-17 11:45:07 422

原创 GLM-4.1V-Thinking：价值月薪5万的AI助理来了！

对于更复杂的任务，比如对多页、多语言ppt或pdf理解分析方面，虽然GLM目前支持图片、视频、PPT和PDF格式的文档上传，但AppMall实测下来，现有的9B小版本在视频和文档分析方面比较受限，表现并不好。对不少用户来说，使用市面主流大模型的最大痛点，是AI的智能化程度不够高，做不到像人一样理解给定素材（尤其是图像、视频、文档等多模态素材），导致许多任务承载不了，所谓的AI助理秒变鸡肋。可以看到，GLM很快就开始了思考过程，最终给出了与标准答案一致的回答，证明其在数学科学推理领域的跑分实至名归。

2025-07-16 09:28:21 837

原创告别AI焦虑，精华速成看这篇就够了

除了上文介绍的几款AI工具之外，还有40+款全球潮流AI应用已上线，涵盖AI绘图、AI对话、AI视频、AI语音、AI工具、MCP等领域，用户只需开设一次账户，甚至无需安装、部署，即可一站式在线灵活使用全站应用。一方面，我们可以通过过程的展现，第一时间判断AI的理解是否跑偏、即时纠正，保证答案方向的准确和高效。兼具语音克隆、语速控制、多语言（比如中英文夹杂的文字，也可以还原人的语气，不会卡顿）、情感表达（比如愉悦、悲伤、愤怒可以通过语气语调实现传播），还支持双人对话，方便比如播客制作等场景。

2025-07-11 09:18:49 422

原创 OmniGen2：会改稿的AI生图“狠角色”

背景是模糊的水域，营造出宁静氛围，整体给人一种自然、惬意的感觉，展现出猫咪在户外放松的状态，仿佛在享受这片刻的闲适时光。得出的结论是：作为AI生图应用的基础功能，文生图方面OmniGen2的整体表现中规中矩、无可厚非，更擅长偏实景类生图，对于需要想象力的内容，整体表现还是略显“塑料感”。物体增删方面，通过提示词，要求AI去掉左侧穿红色外套的人。这次使用非常口语化的英文提示词“Raise his hand”，2分钟后可以看到，生成图片效果不错，手已经举起来了，并且没有违和感，手部细节也做到了零幻觉。

2025-07-09 09:22:25 853

原创 Dia：活人感的一小步，AI语音的一大步

的基础性能进行测试，先虚拟一段发生在火车站的对话场景，火车快开了，A催促B快上车，B抱怨行李太重，A开玩笑说B拎着行李的样子像企鹅，并提出帮忙，同时嵌入笑声(laugh)、叹气(sigh）、咳嗽(cough)等情绪，测试自然度。其次，在默认参数设置下，尝试了几组不同的提示词、不同长度的参考音频，结果发现，生成的最终文件中总是会缺失前两句，应该是系统自带bug，使用时可以铺垫2句无用的文字在前面。在抱怨鞋子和行李时，AI的语气、停顿和重音也非常自然，笑声、咳嗽声的展现方式也并不突兀，活人感诚不我欺。

2025-07-02 13:19:46 779

原创 Omost：AI生图“脑补侠”，搞定提示词so easy

现在AI生图应用越来越多，性能也愈发强大，但可能很多人没有意识到，这个场景下最大的用户痛点其实是——编写解说词prompt，用户不得不绞尽脑汁去想整个画面的布局、细节、颜色，甚至要转换软件求助于其他AI，极大影响着用户体验。自身的特性，可以说非常适合“炼丹师”或AI小白前期试用，或者对AI生图有轻度需求的上班族，可以以最高的性价比、最灵活的模式，触达AI生图场景。的用户界面和其他主流的AI生图软件，基本上大差不差，右侧是提示词输入区、思考过程/A生图区，左侧是参数调节，包括基础参数、进阶参数。

2025-07-02 09:21:19 585

原创 AI生成3D一手实测：卖家秀vs买家秀，差一个宇宙

正是在这样的背景下，LGM（即 Large Gaussian Model，大型多视角高斯模型）由北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者联合提出，旨在依靠一张二维图片，就可5秒生成同款3D物体。同时，negative prompt可以理解为保证结果水准的外框和标尺，目前默认的设置就是去掉难看、不清晰、像素模糊、不自然色彩、糟糕光线等效果，这项参数保持默认就可以。，即可通过首页或搜索功能安装LGM，低至2.3元/小时，按分钟计费，无需安装部署，即可一键在线体验。

2025-06-24 17:17:08 1165

原创 AI视频生成：不是Veo用不起，FramePack更有性价比

以本次使用的图片为例，图片是即梦AI绘制，提示词为：设计师（处在画面左下的位置）坐在屏幕前修改文件，向右侧着头，听着周围的4个同事正在给出的修改意见，设计师的表情平和、略带微笑，双手敲击着键盘。最终，能让图片的角色动起来，动作和镜头还算连贯自然，由于片段的时长较短（5s以内），最适合短剧、片段生成、视频草图等内容创作场景，还可以脑洞大开，用它来做gif图和表情包。，却首次通过技术的升级，让普通设备、普通人、高性价比玩转AI高质量视频成为可能，1句话+1张图，就能自动生成一段5秒高一致性的视频。

2025-06-09 13:23:11 1395

原创 AI小剧场：同事哭的上气不接下气，我却掩盖不住自己的笑容

2025-05-29 17:28:53 95

原创手把手教你用MCP打造AI个人助手

值得注意的是，如果在AppMall后台MCP管理界面，对某款MCP进行了删除，再重新安装，那么绑定的“密码”——那款http开头的地址就会产生变化，需要在Cherry Studio进行更新，才不会报错。当AI技术的发展和对生活的渗透成为大势所趋，即使不是技术相关岗位的普通人，也值得用开放的心态，挖掘AI工具的价值，尽可能更早、更多地接触AI工具，才能够在时代的浪潮面前，积累“跟得上”的底气。MCP的价值，就是通过类似“外挂”的形式，拓宽大模型本身的能力半径，让大模型成为胜任更多细分应用场景的AI好助手。

2025-05-26 16:09:10 2064

原创如果觉得人生艰难，就看看DeepSeek这5句封神回复

3. **人性护城河**：艺术、伦理、情感联结等需要“不完美温度”的领域，人类仍是唯一主体——AI可以模仿诗歌，但写不出真正的人生痛感。3. **关系筛选**：用10年后的标准选择当下交往的人，优质关系是信息、机会与情感支持的乘数效应，劣质关系则是隐形的时间税。1. **锚定当下**：用五感抓取此刻的物理存在（触摸桌面的纹理、感受呼吸的温度），焦虑本质是对"不存在"的恐惧。3. **对比法则**：苦乐是感知的阴阳两极，若删除所有痛苦，剩余的愉悦也会因参照系消失而贬值，如同没有阴影的光。

2025-05-20 10:31:48 1222

原创四步走，讲透普通人如何抓住AI风口

所以，建议普通人一开始接触AI，可以先去找那种高性价比的AI工具集合站，比如appmall.ai，可以一站式使用40余款AI应用工具，涵盖AI绘图、AI对话、AI视频、AI语音等等，价格低至2.3元/小时。所以，基于对主流AI工具的了解，我们需要做的，是结合自身的情况，立足专业、立足真实的需求，思考哪些AI工具可以“为我所用”AI是未来的风口，这个是毫无疑问的，尽早调整心态，多拥抱和探索AI，不管是在职场获得更多机会，还是给自己的生活创造更多趣味和可能性，你掌握的AI技能，都会成为你的加分项。

2025-05-19 15:54:03 1067

原创体制内、考公党必看！公文写作AI外挂到底怎么用？

很多人用AI，直接就随手发“帮我写一篇汇报材料”，需求非常虚无缥缈，AI只能随机发挥，结果就是用不了。使用大语言模型的核心，在于“提示”，也就是把自己的需求精准地转化为一段完整的提示词，AI才能交付符合我们心意和预期的成果物。它的优势是擅长结构化输出，是写格式合规、文风正式的“八股文”的好手，可以为我们解决灵感枯竭、资料筛选、素材搜索的宝贵时间和精力，但是最终审核、润色还得靠自己，这才是安全、高效、靠谱的使用方法。的深度思考算是一个特色，通过展现思考的过程，也便于我们更好地把控最终生成的公文的质量。

2025-05-16 11:29:33 620

原创 4款AI助你高效打工，牛马也有光明未来

相比大而全的“满血版”，目前像appmall.ai这种主流聚合站提供的R1-Distill版本的参数量更小，在完全能够覆盖日常办公高频需求的基础上，也能实现更小的算力消耗、更快的应答速度，可以说是让打工人真正做到得心应手、高效办公的AI伙伴。就成了打工人非常好的伙伴：只要你能用文字精准描述自己对图片内容的需求，HiDream现已上线appmall.ai，使用它就可以实现分钟级交付，不满意可以随便改，从不抱怨、从不拖延。今天就来盘点一下，有哪些常见、好用、简洁的AI工具，可以帮助打工牛马提升生产力。

2025-05-14 16:20:00 768

原创 HiDream-I1：AI绘画，点石成金

HiDream-I1是一个拥有170亿参数的开源图像生成基础模型，并且在 huggingface 的文本到图像排行榜排名超过了 flux，以秒级的速度实现业界领先的图像生成质量，尤其是在提示词的遵循以及出图的质量以及美感上表现的都是相当的不错。一位有着发光蓝色纹身的生化武士，身背一把收在全息护甲中的武士刀，穿行于热闹的集市。所以在使用过程中，在提示词里越能用文字更具体、精准的表达想要的感觉，最终生成的图片质量越高、细节越丰富，这既是一个比较重要的使用技巧，也是几乎一切AI文生图大模型的使用门槛。

2025-05-07 14:10:39 1186

原创 12条AI行业风向观察笔记

很少有人再提“AI四小龙”（商汤、旷视、依图、云从），C位变成了“AI六小虎”——月之暗面（Kimi）、百川智能（搜狗王小川）、智谱AI（清华系）、零一万物（李开复）、Minimax+阶跃星辰（都在上海，都是产品驱动）。许多企业都从以往单纯关注产品的能力，转向客户需求驱动、关注PMF（Product Market Fit），指的是产品市场匹配度，即产品如何和市场需求相结合，从而实现商业化的落地。商业落地必须做差异化，不能用自己的短板和竞争对手的长板去竞争，比如模型做不过国外那些开源的，就没必要做。

2025-04-28 16:35:42 736

原创数字人AI应用大对决：谁是你的创作利器？

总而言之，这些应用各有所长，现在访问appmall.ai，只需花费低至2.3元/小时，即可一站式体验和使用，还可以在不同应用之间来回切换，非常便捷。LivePortrait顾名思义，就是让照片动起来，这个功能其实和SkyReels-A1有些许类似，从实测体验来看，表情捕捉和真实性不如A1。A1在数字人场景主打“让照片动起来”，需要通过图片里的人脸/环境+视频里的动作/表情，生成一个新的视频。V1的数字人原型主要来自于创作者用文字的描述，支持非常细节的描述，然后投喂给AI，进行数字人生成。

2025-04-23 14:42:19 1154

原创 Agent助你开启超级外挂：4款主流AI应用大比拼

这四款应用各有特色，现在登录appmall.ai，即可一站式试用和灵活切换上述应用，价格低至2.3元/小时。举例而言，当你想要订一张机票，Agent会先通过分析明确你的需求，然后打开你手机或电脑里的订票App，自动填写或调用你的身份信息，自动调用另一个支付App，然后完成订票全过程，更像一个专属的智能秘书。Agent 既不是 Siri 或者小爱同学的升级版，也不是 ChatGPT等对话大模型的变体，而是一种“自主智能体”。它能分析目标、拆解目标、感知环境、调用外部工具，然后完成目标。

2025-04-22 14:44:13 722

原创智能学习新革命！用 Flowise 算力，让知识吸收“飞”起来

每天面对书本中海量的知识，却因为复杂的概念、繁杂的章节而感到无从下手？想要快速掌握重点，却苦于没有合适的学习工具？别担心，【AppMall】为您带来破局之道！我们深知学习过程中的痛点，现在隆重推出——Flowise！无需复杂的操作，只需简单3步，即可拥有您的专属智能学习伙伴，让您的学习之旅焕然一新！我们在【AppMall】中为您精心打造的独立、易用的Flowise应用。您可以在这个专属空间内，快速部署和训练您的智能学习助手，轻松应对学习中的各种问题。

2025-04-14 10:09:21 237

原创 AniPortrait：视频或音频驱动，人人都是歌手！

AniPortrait 是腾讯游戏 “知己” 工作室开发的开源项目，专注于音频驱动的真实肖像动画合成。其核心功能是将静态人脸图片与音频输入结合，生成口型同步、表情自然的动态视频，支持虚拟偶像、影视制作、教育互动等场景。技术架构基于多模态扩散模型与3D 面部重建算法，通过两阶段处理流程音频特征提取与 3D 面部建模和2D 关键点投影与扩散模型渲染。

2025-04-14 10:08:14 245

原创 Stable Video Diffusion：手搓视频，3步生成电影级画面

Stable Video Diffusion是Stability AI发布的视频生成大模型，基于Stability AI原有的Stable Diffusion文生图模型，Stable Video Diffusion可实现文生视频。‌。

2025-04-10 14:21:48 827

原创 Ollama Open WebUI：无需代码！本地运行强大 AI！

我们隆重推出 Ollama Open WebUI，一个让你在本地就能运行强大人工智能模型的开源 Web 界面。Ollama Open WebUI 就像一个神奇的工具箱，已经为你准备好了各种强大的 AI 模型，包括最新潮的。你可以尝试各种不同的问题，让 AI 为你写故事、出主意、甚至进行简单的头脑风暴！现在，无需复杂的配置和深厚的专业知识，你也可以轻松拥有属于自己的 AI 大脑！在输入框中输入一个你感兴趣的问题，比如： “让LLM帮你写代码！打开你的浏览器，访问我们的产品页面。只要点点就能快速构建环境。

2025-04-10 14:20:55 240

原创 GPT-SoVITS：5 步实现 AI 语音克隆

GPT-SoVITS是基于深度学习的语音合成框架，通过整合的自然语言理解能力与的声纹特征建模技术，实现了「文本 – 语音」的高保真映射与个性化声音克隆。

2025-04-10 14:19:00 1397

原创 IOPaint：一键修图神器，迅速实现智能擦除，替换对象功能

IOPaint 是一款免费开源的 AI 图像处理工具，基于先进的 AI 模型（如 LaMa、Stable Diffusion 等），专注于图像修复、擦除、扩展和内容替换。

2025-03-26 15:40:49 565

原创 CogVideo：强大的高清视频生成工具

CogVideo 是由智谱 AI 联合清华大学开发的开源视频生成模型，其升级版 CogVideoX 于 2024 年发布，集成于智谱的 AI 视频生成工具清影（Ying）中。该模型基于多模态技术，支持通过文本或图片生成高质量视频，具备快速响应、高指令遵循能力和物理世界运动还原等特点，适用于教育、影视、营销等多个领域。

2025-03-26 15:39:06 513

原创 FishSpeech：中日英文生语音，自然流畅

不少AI语音合成软件的生成作品都缺乏“人味”，而流畅自然的语音交互体验却逐渐被更多AI应用场景所需要。今天要介绍的就是Fish Audio出品的一款文本转语音（TTS）解决方案——FishSpeech，其在中文语音生成场景下的出色表现如同一骑绝尘，几乎能够达到接近人类自然语音的效果。在实测中，差不多长度的中文文本的生成速度最快>英文文本>日文文本。但是从语音文件本身来说，有起承转合，准确率也接近100%，而且语速和语调都比较自然，高度还原native speaker。下面就让我们一起来看看吧~

2025-03-26 15:35:51 839

原创 ChatTTS：最像真人的文生语音工具是怎样炼成的？

现在如果告诉你，有一款新的AI工具ChatTTS，你只需输入一段文字，AI就能声情并茂地全文读出来，不仅支持中英文混合，还能恰到好处地加入语气词和停顿，完胜Azure，那么你想不想试试呢？也提供了【清理所有wav文件】按钮，在任务操作需要一键清空时，十分方便。它采取了目前最先进的深度学习算法，在音调、情感表达、多语言识别方面极其出色，可以生成非常逼真的语音，不仅开源，而且还在不断迭代升级。从默认音色的流畅度来看，中英文的混合生成确实没有痕迹，但是中文符号短剧方便，比如低至约2.3元/小时，略显生涩。

2025-03-26 15:34:09 632

原创方言语音克隆哪家强？阿里CosyVoice放大招

这表示使用系统自带的音色，配合输入合成文本，进行内容的生成。流式推理好处就是可以实时生成，应答速度快，更适合智能客服等需要即时回复的场景，但是缺点也比较明显，对文本整体涵义理解内容不够，尤其在跨语种生成的场景下可能会表现不理想，所以在不赶时间的前提下，我们一般选“否”，不使用流式推理。CosyVoice 是阿里开源的一款创新的多语言语音生成大模型，无论是语音质量，还是细节精准度上都表现卓越，能够应对零样本语音生成、跨语言声音合成，还可以模仿非常自然的人类语音，包括笑声、咳嗽和呼吸。下面就一起来看看吧~

2025-03-25 09:57:20 2263

原创 SkyReels-A1：影帝级微表情，拉Sora下神坛

SkyReels-A1是昆仑万维推出的国内首个SOTA级别基于视频基座模型的表情动作可控算法，对标Runway的Act-One，支持视频驱动的电影级表情捕捉，实现高保真微表情还原，将为包括提升短剧在内的AI内容创作的生产效能提供高效的助力。和大部分图片视频生产软件类似，左侧上传源图片，右侧上传驱动视频，就可以用图片里的人脸/环境+视频里的动作/表情，生成一个新的视频了。可以看到，生成的过程很快，用时并不长，而且效果十分流畅，连视频里的一些微表情（闭眼、撇嘴等）都保留的很好。

2025-03-21 10:35:49 391

原创 Paints-UNDO：一张图生成绘画全过程

大多数AI应用都在“创造未来”，即基于此时此刻的素材和idea，生成时间轴之后的作品，而今天AppMall要为大家介绍的这款应用Paints-UNDO则主打一个“回溯往昔”，上传一张图片即可自动生成从一张白纸到这幅作品的创作全过程。根据上一步关键帧的拆分，很快就可以生成过程视频，因为步骤设定在50，所以视频非常细化，最终长达26秒。有一些绘画走的是实景照片类风格，看起来就像一幅拍摄的照片，那么对于这个类型的绘画过程的还原，基本上Paints-UNDO就会比较勉强，可以说是驴唇不对马嘴。

2025-03-20 14:38:03 992

原创 InstantID：只要2张图片，一键生成独具风格的定制化照片

InstantID是一种基于扩散模型的图像生成技术，由小红书的InstantX团队开发。它能够在不需要大量训练的情况下，仅通过一张参考图像生成具有各种风格和姿势的定制化图像，同时保持高保真度。

2025-03-20 12:10:26 365

原创 PuLID：只需1张图，快速生成高定制个性化身份

PuLID全称（Pure and Lightning ID Customization），是一种先进的文本到图像生成技术，由字节跳动的研究团队开发‌。PuLID能够在单张参考图像的基础上，快速生成具有高度个性化特征的图像和视频，同时在维持身份ID的精确度和图像的可塑性方面展现了卓越的性能‌。PuLID应用场景PuLID可以应用于各种需要个性化身份定制的场景，例如在社交媒体平台上生成具有高度个性化的头像、名片等。

2025-03-20 12:09:36 504

原创 48 小时倒计时！AppMall 专属算力让不可能成为现实

新品发布会需要一段 “柯基犬跳格子舞” 的创意视频，既要展现狗狗的灵动跳跃，又要呈现光影下毛发的自然飘动。现在，AppMall 万相 2.1 专属算力环境为您破局！当您还在为动物运动轨迹发愁时，竞争对手已通过 AppMall 万相 2.1 专属算力环境完成了创意迭代。稍后，如你所见提示词被增强了，点击生成视频后，耐心等待一会就可以看到可爱的柯基在跳格子舞了。“柯基犬跳格子舞，慢动作展示关节运动，毛发在阳光下呈现丝绸光泽，背景是绿色草坪”所有计算在企业专属环境中运行，数据全程本地化处理，确保创意素材不泄露。

2025-03-14 17:00:21 244

原创实测万相2.1文生视频大模型：能歌善舞、能写会画，堪比四栖艺术家

她衣袂飘飘，裙上白梅隐约，眉眼低垂含愁。阿里最新开源的视频生成模型阿里万相Wan2.1火遍全网，不仅迅速在全球权威垂直类榜单VBench上登顶，完胜‌Sora，更在整个AI界，乃至内容创意领域一石激起千层浪，开启了视频生成的无限可能。提示词越详细，生成视频效果会越好，但也不宜过长，否则会影响万相2.1大模型的理解，生成过程的时长也会被无限拉长（实测一般长度提示词至少需要300s以上的生成时长）。万相2.1的用户界面非常简单，一共分为3个区域：（左上）提示词输入，（左下）优化参数，以及（右侧）结果生成。

2025-03-05 11:26:53 2508

原创 FaceChain一键搞定简历照——毕业&求职季送女友的特别心意

比起那些千篇一律的鲜花、包包，一套高质量的毕业照或简历照，更能助力她在求职路上自信闪耀。爱她，就为她一键生成专属美照，无需技术，只有满满心意！

2025-02-27 16:44:44 844

原创 PhotoMaker：一脸在手，百变我有

（3）值得注意的是，目前提示词仅支持英文（可先使用其他AI工具进行翻译，然后复制过来），并且必须包含img的字眼，比如一张婴儿图片，需键入a baby img，否则系统会因为无法识别而提示错误。（2）先从上传一张原始人像图片开始，同时在【prompt】提示词输入框中，详细描述想要生成的图片的样式，包括但不限于：颜色、场景、人物服饰、装饰、背景等。PhotoMaker是一个由南开大学和腾讯PCG实验室开发的人工智能系统，它的核心功能是文生图，同时允许用户通过调整特定的参数来定制生成的图像。

2025-02-25 18:01:57 431

AppMall的博客