- 博客(70)
- 收藏
- 关注
原创 Gemini 2.5 Pro指标屠榜登顶主流大模型
指标领先:与o3 - mini、GPT4.5、Claude3.7sonnet、Grok3和Deepseek r1等,目前都是主流模型去做对比,Gemini 2.5 Pro在多数指标评测中占优,尤其在视觉能力和长文本能力方面表现突出。Gemini 2.5 Pro目前处于领先,但大模型行业竞争激烈,OpenAI拟推o3和o4 - mini,Claude 3.7或为过渡版本,Qwen3也即将推出,后续模型更新值得期待。客户端、小程序使用,也可于开发者平台调用API。
2025-04-11 10:24:59
88
原创 Cursor上使用MindCraft API
然后我们打开高通智匠(MindCraft AI)的开发者平台,进入到API KEY的栏目,我们可以看到这里能创建API KEY,还有API BASE URL。好了以后我们随便创建一个新文件,点击右上角打开Chat,然后选择“ask”模式,选择模型列表里的模型,就可以用了。我们看一下高通智匠的平台上支持哪些模型,这里有列出能够调用的大模型。首先我们打开Cursor,进入到设置,进入Models,这里我们可以看到有很多模型,我们看下面这个“OpenAI API KEY”。
2025-03-07 14:59:48
361
原创 将任意模型变成Deepseek R1
比如说大家可以用qwen-plus这种性价比很高,上下文也比较长的模型,也能用doubao-1.5-pro这种性能强价格低的模型,成本能省个五六倍都不止。首先我们要知道推理模型的格式一般是分为“思考过程”和“回复用户”两个部分,在原生推理模型中,思考过程是用<think></think>标签包起来的,在API端则是用了reasoning_content字段用于调用。我们分别试一下模型的默认输出和开启预设指令后的输出。我们先进到高通智匠的客户端,我们去选择一个预设指令,用提示词的方法来实现推理模型的效果。
2025-03-06 17:53:48
311
原创 DeepSeek Janus多模态模型,有何独特之处?
尽管Janus系列在同级别参数模型中展现出技术优势,但在行业顶尖的LLM、图像识别及生成模型面前,尚存在不小差距,因此目前该系列的学术价值高于实用价值,但其潜在前景令人期待。值得注意的是,这些新型多模态模型的开发主要由中国机构推动,例如Emu-3由北京智源人工智能研究院(BAAI)主导,而Show-O的团队则来自字节跳动和新加坡国立大学。区别于传统的多模态模型(一般涉及图像/视频识别,或使用多个独立的模型进行协同工作),Janus系列通过单一模型整合了文本处理、图像识别与图像生成的功能。
2025-02-24 18:43:08
505
原创 Qwen2.5新春三连发——Qwen2.5-1M, Qwen2.5-VL, Qwen2.5-Max
Qwen2.5新春模型三连发,分别发布了Qwen2.5-1M长上下文模型,Qwen2.5-VL视觉模型以及Qwen2.5-Max旗舰款模型。
2025-02-12 19:05:15
1425
原创 妈妈再也不担心我用deepseek卡了
在高通智匠(MindCraft AI)的客户端上接入了deepseek官方,阿里云,百度云,腾讯云,火山引擎(字节跳动),硅基流动(Pro版),六家厂商部署的原版满血deepseek模型,包括deepseek v3和deepseek r1。高通智匠(MindCraft AI)这个应用,可以使用PC客户端,网页版和手机小程序版,也支持API的调用。不仅如此,还可以设定提示词,文件交互,创建个人知识库,网页渲染,图表生成,联网搜索,划词对话,截图对话等等,功能比deepseek官网还丰富。
2025-02-11 09:28:57
243
原创 豆包1.5系列登顶国内外模型-----解读与使用
这次发布了四个型号,doubao-1.5-pro-32k, doubao-1.5-pro-256k, doubao-1.5-lite-32k, doubao-1.5-vision-pro-32k,价格全部与上一个版本doubao模型一致,加量不加价。Doubao-1.5-lite 在轻量版语言模型中处于全球一流水平,在综合(MMLU_pro)、推理(BBH)、数学(MATH)、专业知识(GPQA)权威测评指标持平或超越 GPT-4omini、Cluade 3.5 Haiku。4、模型基本规格与计费。
2025-01-23 17:59:21
2471
原创 DeepSeek R1模型解读与使用
下面有个图表,这里可以重点关注DeepSeek-R1-Distill-Qwen-32B这个模型,这也是他们官方标注的,基座采用了Qwen32B的模型,在数学,代码,复杂问题的测试集中跟o1-mini一个水准,远高于GPT4o,Claude3.5-Sonnet,DeepSeek-V3。相比国内的推理模型,价格不算便宜,但性能目前确实最好的,通义千问QWQ预览版输入价格3.5元/百万tokens,输出7元/百万tokens,智谱GLM-ZERO预览版,输入输出10元/百万tokens。这是官方的性能评测图。
2025-01-22 17:48:25
16358
原创 智谱四大免费模型GLM-4-FLASH系列
例如,GLM-4-Flash和GLM-4V-Flash在知识问答、文案生成、图像识别和图片打标签等基础任务中表现良好,能够高效完成相关任务。智谱AI目前发布了四大免费模型,分别是文本模型GLM-4-Flash,图片识别模型GLM-4V-Flash,图片生成模型CogView-3-Flash,视频生成模型CogVideoX-Flash。智谱AI是目前国内模型厂商中产品线最全的一家,不仅产品线全,免费模型也是很全,提供了四种不同的免费模型:文本生成、图片识别、图片生成和视频生成。免费模型,支持视频生成。
2025-01-21 18:08:58
815
原创 MiniMax-Text-01——模型详细解读与使用
RULER是一个基于长上下文的基准,评估模型在处理较长文本时的能力,能够处理更多的信息输入(如超过8k字符)。Gemini2.0FLASH分数最高,MiniMax优于claude3.5sonnet和gemini1.5pro,但是比gpt4o低。点评:长文本下指标的对比测试,再更长文本的情况下,有明显优势。长文本处理的准确率远远领先于大部分模型,与minimax最相近的是gemini1.5pro。远远领先于其他模型。先来看整体指标,以下图表分为三块指标,分别是文本能力,多模态能力以及长文本能力。
2025-01-20 10:35:37
1100
原创 用AI工具解读Git项目代码
本教程将介绍如何利用高通智匠(MindCraft AI)的API和AI代码编程工具Cline,免费解读Git项目的代码。通过简单的步骤配置和操作,用户可以轻松实现对项目结构的深度分析,无论是新手还是经验丰富的开发者都能从中受益。通过高通智匠的API和Cline工具,用户可以轻松实现对Git项目代码的高效解读,无需任何编程基础或额外成本。这一工具不仅适用于新手,也对经验丰富的开发者提供了极大便利。
2025-01-13 10:05:29
958
原创 各品牌大语言模型汇总
2024年大语言模型快速发展,应用广泛。面对众多选择,我们整理了一份各大语言模型汇总表格,提供清晰参考,助您了解各模型参数截止日期为2025年1月8日)。
2025-01-08 17:38:19
892
原创 免费GEMINI模型使用及API调用
该模型分为两个版本:gemini-2.0-flash-exp 和 gemini-2.0-flash-thinking-exp-1219。预计未来收费模式可能与GPT-4o类似,甚至更低,因为Gemini 1.5 Pro的价格仅为GPT-4o的一半,Gemini 2.0 FLASH对标可能还不是gpt4o,而是gpt4o-mini。:最大输出长度同样为8K,能够生成详细的推理结果。:最大输出长度为8K,适用于生成较长的文本内容。:最大上下文长度为40K,适合推理任务。:支持文字和图片输入,不支持视频输入。
2025-01-06 18:32:46
2346
原创 2024年大模型使用总攻略
2024年,大模型市场竞争异常激烈,各厂商纷纷推出新模型并调整价格策略。性价比王者,输入3元/百万tokens,输出9元/百万tokens。(腾讯混元):256K上下文,MOE架构,适合大文件摸底。输入3元/百万tokens,输出9元/百万tokens。(智谱):免费视觉模型,基础任务表现良好。(智谱):免费视觉模型,基础任务表现良好。:256K上下文,免费,适合大文件摸底。(讯飞星火):免费模型,适合基础任务。(智谱):旗舰视觉模型,支持视频识别,(智谱):10元/百万tokens,
2025-01-02 16:31:26
1174
原创 Deepseek V3性能比肩顶尖模型:解读与使用
Deepseek在年关前发布了V3版本,并对模型做了比较详细的介绍,首先我们来看一下模型的参数与指标。
2024-12-27 16:55:54
13101
原创 QVQ-72B通义千问视觉推理模型:简评与使用
通义千问团队刚刚发布了QVQ-72B-Preview,这是一个专注于增强视觉推理能力的模型,可以理解为视觉版的QWQ。
2024-12-26 17:07:55
768
原创 豆包视觉大模型Doubao-vision-pro-32k——模型简评与使用
智匠MindCraft近期整合了全新的视觉大模型——Doubao-vision-pro-32k。该模型具备32K的上下文长度,支持多图识别功能,暂不支持视频识别。
2024-12-13 09:41:35
2720
原创 无限免费使用视觉大模型GLM-4V-FLASH——模型简评与使用
另外,智匠MindCraft的开发者平台提供了便捷的API接口,用户可以通过调用GLM4V-FLASH的API集成到自己的项目中。这些建筑物的外观设计独特,有的墙面是玻璃材质,反射出周围的灯光;例如,有一个巨大的鹿形雕塑位于画面的右侧,它由木材制成,表面涂有金色的漆,看起来非常醒目。观景台的栏杆是金属材质的,中间有一根高高的立柱发出白色的光。相比之下,智谱的旗舰视觉大模型,GLM-4V-PLUS的看图作诗能力就强了很多。点评:识别的细致度相当可以了,完全不是免费模型应付一下的样子。3.图片不大于5MB。
2024-12-12 10:19:21
1620
原创 沉浸式翻译使用MindCraft API
怎么在沉浸式翻译上使用多种大语言模型,比如说gpt4o, deepseek, 通义千问,智谱等等。1、首先进入“沉浸式翻译”插件,“设置”——“翻译服务”,选择“OpenAI”。
2024-12-06 13:58:02
855
原创 2024年10~11月大模型更新汇总
2024年10~11月大模型更新汇总: 通义千问、文心一言、minimax、腾讯混元、百川智能、零一万物。
2024-12-03 09:35:32
1064
1
原创 腾讯hunyuan-large模型使用及API调用
根据提供的评测报告,Hunyuan-Large在多项指标上领先于Llama3.1-405B。与Qwen2.5 72B相比,在重叠的测试指标中,Hunyuan-Large表现出一定的优势,但在数学方面仍略逊于Qwen2.5 72B。总体而言,Hunyuan-Large在综合性能上优于Llama3.1、GPT-4o和Claude3.5 Sonnet。腾讯混元最新发布的开源模型Hunyuan-Large,是目前业界已开源的最大MoE(Mixture of Experts)模型之一。
2024-11-13 09:32:01
1211
原创 GPT o1 模型使用及API调用
智匠MindCraft最新加入的o1-preview和o1-mini模型。本文将详细介绍这两款模型的技术参数、应用场景及价格对比。根据官网的介绍,o1模型用了三次推理完成一次回复,是一个典型的。:登录开发者平台,选择对应的o1模型,调用API接口进行开发。:适用于需要高精度推理的复杂任务,如法律咨询、科研分析等。:适用于快速响应和经济高效的场景,如编程辅助、数学计算等。下载官方PC客户端,可选择o1模型使用。:107元/百万tokens。:426元/百万tokens。:22元/百万tokens。
2024-11-11 18:25:34
1722
原创 打造开放式语音智能体
随着AI大模型的技术趋于成熟,语音交互将成为用户界面形式。通过结合大语言模型,不仅能够实现更智能的语音交互,还能更智能地控制设备。输入的内容大致语音文件、模型配置和机器人设定,输出主要是识别和合成文字,以及合成的语音链接,还有情绪值。今天介绍一款开放式语音智能体,这是一款集成了语音输入、语音合成、大语言模型和情绪识别的语音智能体。该平台支持跨平台使用,用户可以根据需求选择不同的大语言模型、语音合成和语音识别模型,实现高效、自然的语音交互。这个语音智能体可以应用于智能硬件、智能家居、客服系统等领域。
2024-10-23 11:03:19
496
原创 FastGPT上使用多种大语言模型
首先我们在智匠MindCraft上注册账号并创建API KEY,参考接口调用文档,查看我们能调用哪些模型。我们可以看到这个开发平台上整合了主流的大语言模型,并且是兼容openai接口的。docker compose 部署时修改配置文件。注册MindCraft并创建API KEY。修改成需要的模型型号,并填入相关参数。填入API KEY以及API地址。选择模型,然后输入文字,对话测试。修改 config文件。
2024-10-17 18:45:49
666
原创 AI魔改视频教程
需要注意的是,视频生成过程中可能需要多次尝试和调整提示词,以达到理想的效果。在当今数字化时代,AI技术的应用已经渗透到各个领域,其中视频内容的魔改成为了一种新兴的创意表达方式,也是当今AI视频生成比较常用的一种应用。最后,生成的视频可以导入到剪辑工具中,与原视频进行拼接,完成AI魔改视频的制作。作为一款强大的AI工具及开发平台,为用户提供了便捷的视频生成功能,本文章就来讲解一下如何用AI魔改视频。在选择模型后,用户需要准备一个原视频,并从中截取一帧作为生成视频的基础。导入原视频尾帧,写视频生成提示词。
2024-10-17 18:42:39
1215
原创 One API上使用MindCraft API
MindCraft API整合了多种大语言模型,通过使用这个API就不需要去注册和管理多个平台账号。注册时有赠送额度,并且与官方同价。注册MindCraft平台并创建API KEY2、打开One API,进入“渠道”,并创建新渠道。
2024-10-14 17:56:16
289
原创 DIFY上使用多种大语言模型(MindCraft API)
首先我们在智匠MindCraft上注册账号并创建API KEY,参考接口调用文档,查看我们能调用哪些模型。我们可以看到这个开发平台上整合了主流的大语言模型,并且是兼容openai接口的。然后我们在DIFY上,进入“设置——模型供应商”,选择“OpenAI API Compatible”注册MindCraft并创建API KEY。输入模型名称,API KEY,和API地址。进入DIFY的设置界面。
2024-10-11 18:08:31
1086
原创 一站式AI视频/图片生成:模型使用及API调用
智匠MindCraft整合了三个主流品牌的图片生成模型:flux.1、OpenAI的DALL·E 3以及智谱的CogView3-plus。此外,用户还可以利用“AI帮我想”功能,让AI自动生成或优化提示词。对于开发者而言,智匠MindCraft提供了丰富的API接口,涵盖了上述所有多模态AI模型的功能。智匠MindCraft作为一款通用的AI工具及开发平台,不仅支持跨平台使用,还集成了多种大语言模型和多模态AI模型。通过将视频尾帧图片抽取并生成新的视频片段,再拼接回原视频,实现创意视频编辑效果。
2024-10-11 10:03:21
743
原创 一站式大语言模型API调用:快速上手教程
智匠MindCraft是一个强大的AI工具及开发平台,支持多种大语言模型和多模态AI模型。本文将详细介绍如何通过API调用智匠MindCraft中的大语言模型,帮助开发者快速上手。使用会话数据接口,输入session_token,实现长期历史对话记录。修改参数,选择合适的模型进行测试。在开发者平台中找到接口文档,选择LLM大语言模型部分。替换示例代码中的API KEY为自己的API KEY。使用获取模型接口查看支持的模型及其参数。进入开发者平台,创建API KEY。查看代码示例,了解基本的调用方法。
2024-09-29 17:44:04
888
2
原创 智匠MindCraft 1.2.11版本发布:全面提升多模态能力,新增视频识别功能
用户现可直接上传视频至智匠MindCraft平台,选择GLM4-V-PLUS或Qwen-VL-Max进行视频识别。支持最大8K和32K tokens上下文长度的视频处理,但建议上传较短视频,以优化识别效果。本次更新中,智匠MindCraft推出全新的视频识别功能,进一步强化了其多模态能力,支持视频/图片合成及多模态智能体的API接口调用。升级通用语音模型识别接口,增加阿里SenseVoice支持,实现多国语言、情绪识别及音频状态(如说话、笑声、掌声等)的准确识别。新增MiniMax模型,优化视频合成效果。
2024-09-23 09:51:32
350
原创 通义千问2.5全系升级:模型使用及API调用
通义千问的最近开源了QWEN2.5系列模型,为用户和开发者提供了更高效、更具成本效益的AI解决方案。用户和开发者可以在智匠MindCraft的PC客户端或手机小程序上直接使用这些模型,或通过开发者平台调用API。注册即送额度,满足基本使用需求。
2024-09-23 09:41:57
1950
原创 一站式语音识别服务:中文、方言、多语言全覆盖
智匠MindCraft的语音识别技术不仅展现了其在多语言和方言处理上的强大能力,还通过灵活的模型选择和API集成,为用户提供了高度定制化的解决方案。在当今全球化与多元化的社会背景下,语音识别技术的需求日益增长。智匠MindCraft凭借其先进的语音识别功能,不仅覆盖了标准的中文识别,还扩展到了多种方言和多国语言的识别,为用户提供了一站式的语音转文本解决方案。智匠AI的语音识别模型库中包含了广泛的语言和方言选项,无论是普通话、粤语、闽南语,还是英语、法语、西班牙语等,都能精准识别并转换为文本。
2024-09-19 09:10:40
744
原创 腾讯混元首个多模态模型——hunyuan-vision
腾讯混元发布多模态模型hunyuan-vision,具有4K的上下文,成本为18元/百万tokens。
2024-09-12 09:00:00
519
原创 GPT4o最新更新,成本降低,增加最大输出和结构型输出
gpt-4o-2024-08-06:综合成本降低40%,输入成本为18元/百万tokens,输出成本为72元/百万tokens,最大输出tokens升级至16K。支持结构型输出(Structured Output)点评:GPT4o降价后,价格竞争力又上来了,甚至比不少国产模型都便宜。与此同时,升级了16K的输出上限,并且支持结构型输出,性能也在同步升级。
2024-09-11 09:00:00
897
原创 DeepSeek缓存命中技术,成本降低10倍
DeepSeek发布最新的缓存命中技术,有效降低成本至0.1元/百万tokens,适用于文件读取和固定提示词。点评:由于token消耗大部分是在系统提示词中,妥善使用确实可以极大降低成本,同时还能保证较高的输出质量。今天就分享到这里,在智匠AI(MindCraft AI)上可以体验到最新更新的模型。
2024-09-09 20:30:00
937
原创 通义千问更新数学大模型及视觉多模态
Qwen2-VL,这是通义千问最新的视觉大模型,在8月底发布各项指标对标目前最先进的视觉模型,在多项指标占有优势,并且可以识别视频。具体性能可能要评测,具有32K的上下文处理能力,成本是20元/百万tokens,比GLM4V-Plus贵一倍,但比国外对标的模型便宜。Qwen2-Math,这是通义千问专门为数学场景优化的模型,其数学能力指标甚至超越了GPT4o, Claude3.5 Sonnet, Deepseek Coder等顶流模型,目前从指标来看是最强的数学模型。
2024-09-09 10:20:40
535
原创 智谱AI八月全面升级
其中GLM4V-PLUS,本身拥有不俗的性能,成本大幅下降,同时上下文达到了8K,实用性大幅增强,目前识别一张手机图片的成本大约1分钱,非常实用。并且智谱还拥有视频生成模型,可能是国内最全面的大模型公司。:超长上下文模型,支持高达1百万tokens的上下文,成本为1元/百万tokens。:升级版视觉多模态模型,上下文扩展至8K,成本降至10元/百万tokens。:文生图模型升级,成本降低40%,支持更多种分辨率,生成一张图的成本为6分。:旗舰版模型,性能升级,成本降至50元/百万tokens。
2024-09-06 18:24:42
412
原创 智匠MindCraft:一站式AI模型API调用平台
智匠MindCraft提供了一站式的AI模型解决方案,通过单一API接口,用户可以轻松调用多种主流AI模型,涵盖大语言模型、图片生成、视频生成、语音识别和语音合成等多个领域。
2024-09-05 10:25:50
1205
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人