
autodl
文章平均质量分 70
fly-iot
没什么大不了,一直写代码。
展开
-
【xinference】(10):在autodl上运行xinf和chatgpt-web配置联动,xinf运行qwen-1.5大模型做api后端,使用国内源解决nodejs安装问题。本地运行大模型方法
【xinference】(10):在autodl上运行xinf和chatgpt-web配置联动,xinf运行qwen-1.5大模型做api后端。前端使用chatgpt-web,后端使用xinference 项目做api。第二个是 service ,里面有nodejs的服务接口。配置好环境变量就可以使用 npm 安装了。第一个是web 在当前目录。然后就可以启动成功了。原创 2024-05-31 07:20:39 · 585 阅读 · 0 评论 -
【LocalAI】(6):在autodl上使用4090部署LocalAIGPU版本,成功运行qwen-1.5-32b大模型,占用显存18G,速度 84 tokens / s
【LocalAI】(6):在autodl上使用4090部署LocalAIGPU版本,成功运行qwen-1.5-32b大模型,占用显存18G,速度 84t/s。它允许您在本地使用消费级硬件运行 LLM(不仅如此),支持与 ggml 格式兼容的多个模型系列。支持CPU硬件/GPU硬件。LocalAI 是一个用于本地推理的,与 OpenAI API 规范兼容的 REST API。24G的显存占用了 18G,同时速度还可以。配置成功之后就可以启动了。原创 2024-04-20 23:55:23 · 2218 阅读 · 1 评论 -
【LocalAI】(5):在autodl上使用4090Ti部署LocalAIGPU版本,成功运行qwen-1.5-14b大模型,占用显存8G,原来是cuda-11版本的原因
cuda的硬件版本是 12.4 比如 4090D 的,可以使用local-ai-cuda12-Linux-x86_64 版本。其他的情况,比如 cuda 是12.2 或这 11.8 的情况。就只能使用local-ai-cuda11-Linux-x86_64 的版本了。原创 2024-04-20 16:45:49 · 668 阅读 · 0 评论 -
【xinference】(8):在autodl上,使用xinference部署qwen1.5大模型,速度特别快,同时还支持函数调用,测试成功!
可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。然后就可以查看全部支持的模型进行启动。启动Xinference服务。原创 2024-04-02 23:00:42 · 1947 阅读 · 1 评论 -
【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协议,超级棒的方案
Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协。在autodl上下载项目主要是安装。启动访问之后可以进行安装各种软件了。启动Xinference服务。原创 2024-04-02 22:36:55 · 6225 阅读 · 2 评论 -
【wails】(7):研究发现一个新的项目llama.go,使用纯golang写的代码,下载模型文件,然后可以本地执行了,可以执行,就是模型文件26G,运行速度慢 0.37 token/s
然后在autodl上申请服务器,选择 30G内存的服务器:# 克隆项目: git clone https://github.com/gotzmann/llama.go.git # 然后进入 cd llama.go/ # 执行 make # 然后在 builds 目录里面就有了三个文件: ls builds确实是能运行,目前看不支持最新的 GGUF 文件格式。同时是非量化版本 f32 的,造成模型比较慢。而且这个是 llama的第一代的产品。要是有二代的模型且 int4 版本的就好了。原创 2024-02-27 23:29:56 · 441 阅读 · 0 评论 -
粉丝2000 啦,选对赛道,做正确的事情,粉丝涨到2000说明大家对我做的事情还是非常的认可的,继续坚持中,将相关资料做了视频整理
【chatglm3】(1):docker本地部署,支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务。【xinference】(1):在autodl上,使用xinference部署chatglm3大模型,支持函数调用,使用openai接口调用成功!原创 2024-02-21 23:02:32 · 483 阅读 · 0 评论 -
【Yi-VL-34B】(5):使用3个3090显卡24G版本,运行Yi-VL-34B模型,支持命令行和web界面方式,理解图片的内容转换成文字
使用 Yi-VL-34B模型也是不错的,参数更多。理解能力更强了。可以用来做一些图片处理的审核工作了。可以做出更多的智能工具来了。大模型真的特别方便了。原创 2024-02-07 00:53:53 · 848 阅读 · 1 评论 -
【xinference】(6):在autodl上,使用xinference部署yi-vl-chat和qwen-vl-chat模型,可以使用openai-client调用成功,进行对比测试,各有特色
使用xinference部署yi-vl-chat和qwen-vl-chat模型都可以运行成功,而且各有特色。qwen可以识别具体汽车品牌,但是有些新车是错误的。yi识别比较保守。原创 2024-02-06 21:34:40 · 1434 阅读 · 0 评论 -
使用x86架构+Nvidia消费显卡12G显存,搭建智能终端,将大模型本地化部署,说不定是未来方向,开源交互机器人设计
此外,我们将评估 ChatGLM3 和 Qwen 在特定数据集上,函数调用的准确性, 并分析其出错的潜在原因。函数调用是 OpenAI GPT-4 和 GPT-3.5 Turbo 模型的高级特性,它使得模型能够根据用户指令决定是否调用相应的函数,以结构化的格式返回信息,而不是仅提供普通的文本回答。这使得基于大型语言模型的智能代理能够执行更为复杂的任务,大幅提升了模型的实用性和应用领域的广度。因为模型的运行需要大量的资源消耗,同时也存在热点问题,高峰问题。慢慢的,1-2B的小模型也发展起来。原创 2024-02-06 08:51:04 · 2165 阅读 · 0 评论 -
【xinference】(5):在autodl上,使用xinference部署sdxl-turbo模型,效果好太多了,模型的进步效果更好,图像更加细腻,需要下载52G文件,显存需要20G左右
新的模型生成的图片确实非常不错。但是随机比较大,需要多运行几次才能找到比较好的图片。相同的咒语生成的图片也是每次都不一样。新模型确实比之前的好太多了,坐等出中文模型。原创 2024-02-02 00:09:56 · 1067 阅读 · 0 评论 -
【xinference】(4):在autodl上,使用xinference部署sd-turbo模型,可以根据文本生成图片,在RTX3080-20G上耗时1分钟,占用显存11G
效果上还是不错的,可以画出苹果的细节。但是还是粗糙点,确实因为模型比较小。速度还是不错的。原创 2024-02-01 22:48:33 · 767 阅读 · 0 评论 -
【xinference】(3):在autodl上,使用xinference部署whisper-tiny音频模型,并成功将语音转换成文本,测试成功,还支持音频直接翻译成英文
确实可以运行音频大模型。可以将音频文件转换成文本。可以做啥呢?可以直接录用转文字,或者做字幕。transcriptions 是音频转文本translations 可以直接将音频翻译成英文。使用large 模型就可以翻译:本列表列出香港航空的航点 > 翻译成:还集成了翻译模块。原创 2024-02-01 00:24:08 · 2029 阅读 · 0 评论 -
【大模型研究】(12):在autodl上,使用xinference部署qwen-chat大模型,支持函数调用,使用openai接口调用成功!xinference是国人开发的项目,大家一起支持下!
Xinference 是一个专为大型语言模型(LLM)、语音识别模型和多模态模型设计的开源模型推理平台,支持私有化部署。它提供多种灵活的 API 和接口,包括 RPC、与 OpenAI API 兼容的 RESTful API、CLI 和 WebUI,并集成了 LangChain、LlamaIndex 和 Dify 等第三方开发者工具,便于模型的集成和开发。原创 2024-01-30 23:30:57 · 1454 阅读 · 0 评论 -
【Dify知识库】(12):在autodl上,使用xinference部署chatglm3,embedding,rerank大模型,并在Dify上配置成功,3类接口xinference都是支持部署的
但是 Dify 运行报错,估计下一个版本就会修复了:但是测试接口,都是支持 stream 的:测试接口"messages": [{"role": "user", "content": "北京景点"}],}'原创 2024-01-30 23:03:00 · 4783 阅读 · 2 评论 -
【大模型研究】(1):从零开始部署书生·浦语2-20B大模型,使用fastchat和webui部署测试,autodl申请2张显卡,占用显存40G可以运行
总体上效果还不错。速度也挺快的。需要 40G的显存才可以启动成功。而且可以使用webui 启动成功。原创 2024-01-21 22:00:36 · 2051 阅读 · 1 评论 -
【ChatGLM3】(9):使用fastchat和vllm部署chatlgm3-6b模型,并简单的进行速度测试对比。vllm确实速度更快些。
使用fastchat 和 vllm 简单的对比了下。没有做量化,也没有其他配置。fastchat 是 20 t/s 左右,vllm 是 200+ t/s 速度上确实还是非常不错的。但是发现 vllm 在返回的内容上不如 fastchat 好。原创 2023-12-16 23:21:40 · 5263 阅读 · 0 评论 -
【candle】(2):使用hf-mirror镜像下载TheBloke/Llama-2-7B-GGML的q4_0.bin文件,并设置HF_HOME,example模块可以识别下载的模型
【candle】(2):使用hf-mirror镜像下载TheBloke/Llama-2-7B-GGML的q4。还可以使用 https://aliendao.cn/#/ 进行加速下载。同时不要安装 rust-docs 有 700 多MB ,实在是没有用。原创 2023-12-16 23:16:15 · 1931 阅读 · 0 评论 -
【deepseek】(1):12月1日新大模型deepseek发布!使用3080显卡,运行deepseek-7b模型,可以正常运行WebUI了,速度9 words/s。
终于解决了webui的启动问题。模型发展的速度真的快。速度越来越快了。deepseek的模型使用起来还可以。可以运行7b的模型了。测试了几个简单的问题,还可以。7B模型经过 int8 量化,可以在 12G的3080TI 上面运行。原创 2023-12-09 09:57:39 · 3079 阅读 · 0 评论 -
【deepseek】(2):使用3080Ti显卡,运行deepseek-coder-6.7b-instruct模型,因fastchat并没有说支持这个版本,或者模型有问题,出现死循环输出EOT问题
总结,代码生成支持多个语言的生成,不知道是因为量化还是 fastchat的兼容问题。目前看 deepseek-coder-6.7b-instruct 会有死循环输出 的问题。因为启动的是 int8 量化版本,同时也不是fastchat官方说的兼容的33版本。后续再使用原版33B验证下。原创 2023-12-09 09:52:36 · 3883 阅读 · 2 评论 -
【ChatGLM3】(8):模型执行速度优化,在4090上使用fastllm框架,运行ChatGLM3-6B模型,速度1.1万 tokens/s,真的超级快,高并发
速度确实非常快,但是目前看接口中只有一个 generate 接口。后续可以通过进行优化。没有 /v1/chat/completions 聊天接口。代码是 c++ 的效率是正高。下一个研究项目 candle : 目前已经 10K 星星。原创 2023-12-05 22:50:15 · 5329 阅读 · 3 评论 -
【ChatGLM3】(7):在autodl上,使用A50显卡,使用LLaMa-Factory开源项目对ChatGLM3进行训练,非常方便的,也方便可以使用多个数据集
工具还是非常的简单,可以把机构参数进行设置下。主要就是把参数可视化,同时把结果也可视化。非常的方便。进度也可以看到。原创 2023-12-05 09:07:34 · 4761 阅读 · 7 评论 -
【ChatGLM3】(6):使用1个2080Ti-11G版本,运行ChatGLM3-Int8模型,可以正常运行,速度6 words/s,不支持vllm启动,2张卡速度24 words/s
测试效果还可以,发现不支持 vllm 优化,估计需要进行模型转换。可以使用vllm 启动成功,但是模型不返回内容。同时增加 --load-8bit 可以在 11 G 显卡上运行,占用显存 7G左右。不增加参数,需要2张 2080Ti 11G 的显卡。模型大小就是显存占用大小。需要 12G 多显存。综合看自己测试 2080Ti 还是可以使用的。跑 chatglm3-6b 没有啥问题。原创 2023-12-02 23:06:33 · 3010 阅读 · 1 评论