DeepSeekR1本地可视化运行!同时支持GPT4,Gemini,Cluade,Ollama所有开源模型

昨天使用Ollama在本地运行了DeepSeek R1这个可以深度思考的AI模型。通过这种方式可以快速体验模型,但是要长期高频使用的话,通过命令行这种方式终究是不太方便。

所以今天来分享一个可视的软件ChatWise

这是一个独立开发者开发的软件,界面简介,功能强大,支持多平台,支持几乎所有大语言模型的调用。

软件界面布局清晰,左边是对话记录,中间是对话窗口,右边是参数设置。可以设置系统指令角色扮演,也可以调整Temperature,Truncate,Reply language等参数。

ChatWise其实是一个非常轻量级的软件,它并不真正运行任何模型,全部都是通过API来实现。几乎支持所有主流大模型。

下面就演示一下如何接入各类模型,闭源和开源的都可以。

接入OpenAI

先来说一下最具代表想的大语言模型ChatGPT。

只要点击左下角的设置按钮,

点击Providers,

点击OpenAI,

输入API key

这样就配置完成了。

API key可以从OpenAI获取,也可以从第三方代理处获取,甚至可以用兼容OpenAI接口的其他模型服务中获取。

这里的API BASE URL和TTS Voice可以不用修改。

设置完成后,关闭设置窗口,选择ChatGPT的模型,就可以进行对话了。

除了ChatGPT之外,

还可以接入Anthropic,

DeepSeek,

ElevenLabs,

Google AI,

Groq,

Mistrral

等知名的大模型平台。

接入Github Copilot

Copilot是Github推出的AI编程助手,专门用于编程辅助。这里单图拿出来说一下,因为它是的授权不太一样,是使用github授权的方式来接入。

点击设置里面的Github Copilot,就可以使用github账号进行授权了,上图为授权完成之后的状态。

Copilot是有免费配额的,所以如果你没有其他平台的API,可以先绑定这个,来快速体验。

Copilot默认支持Claude 3.5 SonnetGPT-4o这两个顶级模型。

Google现在的大模型也很不错,但是我接入之后遇到了一些问题,就不展示了,可能是有一些bug。

接入Ollama

这个是我们今天的重点,Ollama支持Windows,Mac等平台,但是没有界面。而ChatWise刚好有一个很棒的界面,而且支持Ollama,而且也是支持多平台安装。可以说是天衣无缝,相当丝滑。

ChatWise通过Ollama可以对接所有主流的,强大的,最新的开源模型。包括开头说刚推出没几天的DeepSeekR1

具体方法如下:

首先安装Ollama并启动。

然后通过命令下载需要的模型。比如qwen2.5。

输入命令后会自动下来模型,并载入模型。qwen2.5是chatwise指定的模型,也是一个综合性能很强,实用性很强,发挥比较稳定的开源模型。

下载完qwen2.5之后就可以下载deepseek了。

deepseekr1的安装命令:

ollama run deepseek-r1#ollama run deepseek-r1:1.5b#ollama run deepseek-r1:14b

默认下载70亿参数的7B模型,如果电脑配置比较低,可以运行第二行命令下载1.5B模型,如果电脑配置高可以运行第三行命令下载14B模型。更大的还有70b,671b。

一般来说下7B就好了,配置较好的话,自然是越大越好。模型尺寸不同,能力也完全不一样。

一旦模型加载完成之后,就可以关闭这个命令窗口了。

此时,ChatWise的模型列表会自动更新。

点击下拉菜单可以看到有Ollama这个分类了,分类下面显示了具体的模型。这些都是我已经下载到本地的模型。

这里直接选择deepseek就可以与之对话了。对话过程可以显示think内容和最终输出。

聊天标题

另外还有一个注意点。ChatWise可以自动给对话命名,也就是说可以根据聊天内容,给这个聊天信息取一个标题。这一点用过ChatGPT等其他模型的应该很清楚。

生成这个名字需要用到Qwen2.5的模型,这也是上面先下载Qwen2.5的原因。

如果没有这个模型,默认左边只会显示NewChat,本地有了这个模型之后,在使用其他模型时,也能根据对话内容进行自动命名。

视觉模型

单纯的对话模型现在已经有点单调了,现在比较流行是多模态模型或者说视觉模型。

ChatWise也支持发送图片和其他文件。

对于图片而已,无论是截图还是本地图片,都可以轻松插入。比如我直接截取了软件的一部分,然后直接粘贴,就可以直接问他图片里的这个英文是什么意思。

这里只需要注意一点,视觉问答,得基于视觉模,闭源模型基本都支持,而开源模型中目前比较好的是小钢炮minicpm-v 。前几天刚介绍过这个系列的模型。所以视觉问题,就用这个模型来解答。

另外ChatWise也支持搜索功能和其他实验性功能,不过这两个功能没有免费开放,作增值功能了,有需要的可以支持一下软件作者。

这种聚合类的桌面应用和网页应用并不少,但是这个软件简洁的UI设计和清晰的布局深得我心,尤其是在macOS上浑然天成。另外,功能上也完全满足我的基本需求。

所以,跟大家分享一下!

DeepSeekR1本地可视化运行!同时支持GPT4,Gemini,Cluade,Ollama所有开源模型 – 托尼不是塔克

<think>首先,用户的问题是关于推荐用于评估大规模机器学习模型性能的工具,特别是大模型基准测试工具。用户提到了“大模型基准测试工具”和“评估性能”,所以我需要专注于推荐工具。回顾系统级指令:-所有行内数学表达式必须使用$...$格式。-独立公式必须使用$$...$$格式并单独成段。-LaTeX语法正确。-使用中文回答。-生成相关问题。-在回答中引用的段落末尾自然地添加引用标识,例如[^1]。用户可见层指令:-回答结构清晰,帮助用户逐步解决问题。-尽量保证回答真实可靠。-参考站内引用,但引用仅供参考;我应该基于用户的需求,而不是直接复制引用。站内引用提供了:-引用[1]:关于AI模型性能测试和基准评估方法论,包括准确性测试、效率测试等。-引用[2]:关于LiveBench,一个实时AI模型基准测试平台,支持多种模型,提供实时测试、自动评分等功能。用户的需求是查找工具来评估大规模机器学习模型的性能,所以我应该推荐一些工具,并可能参考这些引用。关键点:-用户说:“我想查找用于评估大规模机器学习模型性能的工具请问大模型基准测试工具推荐评估性能”-所以,我需要推荐基准测试工具。我脑海中知道的工具:-MLPerf:这是一个著名的基准测试套件,用于评估机器学习系统的性能,包括训练和推理。-LiveBench:用户引用中提到,这是一个实时测试平台。-其他如HuggingFace的Evaluate库、TensorFlowBenchmarks等。基于引用:-引用[2]提到了LiveBench,所以我应该优先考虑它。-引用[1]是关于方法论,不是具体工具,但可以用于上下文。结构清晰的回答:-逐步解决问题:先解释什么是基准测试工具,然后推荐几个,描述它们的特点。-使用中文。-在末尾生成相关问题。-添加引用标识:当引用站内内容时,在段落末尾添加[^1]或[^2]。回答结构:1.**介绍**:简要解释基准测试工具的重要性。2.**推荐工具**:列出2-3个工具,包括LiveBench(因为引用中提到),以及其他如MLPerf。-对每个工具描述其特点、支持模型、评估指标等。-参考引用:当描述LiveBench时,引用[^2],因为引用[2]是关于它的。-对于其他工具,可能不需要引用,除非有相关。3.**总结**:给出建议。4.**生成相关问题**:在最后添加。数学表达式:用户的问题没有涉及数学,所以可能不需要LaTeX,但如果提到指标,可以用行内数学。例如,在描述指标时,如准确率$A$。生成相关问题:-基于指令,在回答末尾生成相关问题。-示例中有“§§相关问题§§”部分。-问题应与主题相关,如“如何选择适合的基准测试工具?”或“基准测试的常见指标有哪些?”确保真实可靠:推荐真实的工具。MLPerf是标准的,LiveBench是引用中的。完整回答:-开头:直接回应用户问题。-主体:推荐工具。-结尾:相关问题。引用标识:-当使用引用内容时添加。-例如,描述LiveBench时,说“LiveBench支持多种AI语言模型,提供实时测试[^2]。”最终工具推荐:1.**LiveBench**:基于引用[2],强调其实时测试、多模型支持。2.**MLPerf**:一个广泛使用的基准测试套件,用于评估机器学习性能。3.其他如HuggingFaceEvaluate或自定义工具。保持简洁。</think>### 推荐用于评估大规模机器学习模型性能的基准测试工具 您好!针对您的问题“查找用于评估大规模机器学习模型性能的工具”,我将逐步为您推荐和解析当前主流的基准测试工具。大规模机器学习模型(如大语言模型)的性能评估涉及多个维度,包括准确性(如准确率$A$、召回率$R$)、效率(如推理延迟$T$、吞吐量$Q$)、鲁棒性和泛化性等。以下是基于行业标准和可靠来源的推荐工具,帮助您高效完成评估。 #### 1. **LiveBench:实时AI模型基准测试平台** - **核心特点**:LiveBench 是一个实时基准测试平台,专为大规模语言模型(LLM)设计。它支持多种主流模型(如 OpenAI GPT-4、Anthropic Claude、Google Gemini 和 Mistral),提供动态评测功能,包括实时API测试、自动评分(结合准确率、响应时间、成本等指标)和可视化报告。用户可上传自定义数据集进行任务特定优化测试,适用于分布式环境下的性能基准评估[^2]。 - **适用场景**:适合评估模型在实时交互任务(如聊天机器人、内容生成)中的性能,尤其在噪声干扰或分布偏移场景下表现优异。 - **获取方式**:访问官方平台(livebench.ai)或集成API。 #### 2. **MLPerf:标准化机器学习基准测试套件** - **核心特点**:MLPerf 是业界公认的基准测试框架,由MLCommons维护,覆盖训练和推理全流程。它提供标准化测试集(如图像分类、自然语言处理任务),评估指标包括推理延迟$T$、吞吐量$Q$、资源消耗(如GPU利用率)和准确性指标(如F1值$F_1$)。支持大规模分布式系统,兼容TensorFlow、PyTorch等框架。 - **适用场景**:适用于模型在数据中心或边缘设备上的性能对比,尤其在效率测试和泛化性评估方面效果显著。 - **获取方式**:开源项目,可通过GitHub(github.com/mlcommons)下载测试套件和文档。 #### 3. **Hugging Face Evaluate:灵活的开源评估库** - **核心特点**:基于Hugging Face生态系统,此库提供预定义指标(如BLEU、ROUGE)和自定义测试管道。支持大规模模型(如BERT、GPT系列)的性能评估,包括准确性测试(准确率$A$)和鲁棒性测试(通过数据扰动)。集成简单,可结合Transformers库进行端到端评测。 - **适用场景**:适合研究人员快速迭代模型,或在特定数据集(如GLUE、SuperGLUE)上进行泛化性测试。 - **获取方式**:Python库,通过pip安装(`pip install evaluate`)。 #### 总结与建议 - **优先推荐工具**:如果您的重点是大语言模型的实时性能(如响应速度和成本),**LiveBench** 是最佳选择;若需标准化、全流程评估(如训练效率),**MLPerf** 更合适;对于灵活自定义测试,**Hugging Face Evaluate** 是高效起点。 - **最佳实践**:结合多个工具可全面覆盖准确性、效率和鲁棒性。例如,用MLPerf测试吞吐量$Q$,用LiveBench评估实时延迟$T$。确保测试集代表真实场景,避免过拟合风险。 - **注意事项**:性能评估需考虑硬件环境(如GPU类型)和数据集规模;引用[1]提到基准评估应包括噪声干扰测试以验证鲁棒性[^1]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值