
大模型
文章平均质量分 67
fly-iot
没什么大不了,一直写代码。
展开
-
在autodl上使用,通义千问2-VL-7B-Instruct,识别图片,比第一代识别的内容更加详细了,还可以识别到背景中的文字了。
默认上 xinf 也支持。但是运行报错。其实也可以按照官方文档的方式去研究部署。估计是代码中参数没有配置对:内存不够造成的了。原创 2024-12-09 08:18:48 · 426 阅读 · 0 评论 -
【xinference】(19):在L40设备上通过Xinference框架,快速部署CogVideoX-5b模型,可以生成6秒视频,速度比409D快一点
速度不算太快,也需要快6分钟了。比4090D要快一点点。原创 2024-09-08 16:39:54 · 596 阅读 · 0 评论 -
【xinference】(18):在autodl上使用4090设备,通过Xinference框架,快速部署CogVideoX-5b模型,可以生成6秒视频,效果还可以,只支持英文。速度6分钟
开源的模型发展的速度还是挺快的。还是可以做制作一些有意思的视频的。原创 2024-09-08 09:50:54 · 893 阅读 · 0 评论 -
【xinference】(14):在compshare上,安装nvidia-docker工具,成功启动推理框架xinference-gpu的docker镜像,并运行大模型,非常简单方便!
Compshare GPU算力平台隶属于UCloud,专注于提供高性价4090算力资源,配备独立IP,支持按时、按天、按月灵活计费,支持github、huggingface访问加速。【xinference】(14):在compshare上,使用nvidia-docker方式,成功启动推理框架xinference,并运行大模型,非常简单方便。然后就可以通过界面启动模型了,支持大语言模型,embedding模型,rerank等。UCloud(优刻得)是中国知名的中立云计算服务商,科创板上市,中国云计算第一股。原创 2024-07-06 22:06:16 · 1860 阅读 · 0 评论 -
【LocalAI】(13):LocalAI最新版本支持Stable diffusion 3,20亿参数图像更加细腻了,可以继续研究下
SD3 Medium 可以根据用户输入的文本描述,重点克服了文生图模型中手部和脸部的挑战,生成足以乱真的的图像。SD3 Medium 还利用其底层的 Diffusion Transformer 架构,高精度地整合了文字元素。根据介绍,Stable Diffusion 3 Medium 模型规格参数达到了 20 亿,可以给用户带来更真实的图片体验。目前用户可以从 Hugging Face 上下载该模型。Stable Diffusion 3 Medium 正式开源。原创 2024-06-23 22:41:03 · 582 阅读 · 0 评论 -
【xinference】(12):目前最全大模型推理框架xinference,发布0.12.2版本,支持qwen2,glm4等主流大模型推理运行,可以对外提供标准的openai的API接口做服务
可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。进行推理,降低延迟,提高吞吐!🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2。原创 2024-06-23 22:22:12 · 1345 阅读 · 0 评论 -
【xinference】(11):在compshare上使用4090D运行xinf和chatgpt-web,部署大模型GLM-4-9B大模型,占用显存18G,速度不错,也挺智能的。
GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。【xinference】(11):在compshare上使用4090D运行xinf和chatgpt-web,部署大模型glm4-9B-chat大模型,显存18G。是python3.12 版本造成的。原创 2024-06-07 08:55:56 · 1526 阅读 · 0 评论 -
【compshare】(4):使用UCloud(优刻得)的compshare算力平台,新增加Llama-factory镜像,可以快速启动,非常方便,部署特别简单,效果不错,不用担心HF网络问题
库少了几个,可以向 compshare 反馈下。可以选择中文,进行参数修改。安装完成缺少的 包之后,就可以启动成功了。原创 2024-06-05 22:28:11 · 415 阅读 · 0 评论 -
【compshare】(3):使用UCloud(优刻得)的compshare算力平台,新增加SD-webui和大模型镜像,可以快速启动,非常方便,部署特别简单...
新的镜像不错,简化了部署使用,更加的方便了。可以很快的搭建SD和大模型的平台了。原创 2024-06-05 09:40:25 · 568 阅读 · 0 评论 -
【xinference】(10):在autodl上运行xinf和chatgpt-web配置联动,xinf运行qwen-1.5大模型做api后端,使用国内源解决nodejs安装问题。本地运行大模型方法
【xinference】(10):在autodl上运行xinf和chatgpt-web配置联动,xinf运行qwen-1.5大模型做api后端。前端使用chatgpt-web,后端使用xinference 项目做api。第二个是 service ,里面有nodejs的服务接口。配置好环境变量就可以使用 npm 安装了。第一个是web 在当前目录。然后就可以启动成功了。原创 2024-05-31 07:20:39 · 585 阅读 · 0 评论 -
特别推荐!在modelscope上可以使用免费的CPU和限时的GPU啦,成功安装xinference框架,并部署qwen-1.5大模型,速度7 tokens/s
在modelscope上可以使用免费的CPU和限时的GPU啦,成功安装xinference框架,并部署qwen-1.5大模型,速度7 tokens/s空闲的时候,会被删除掉。数据不会被保存!单次最长10个小时使用!!原创 2024-05-29 09:02:15 · 1057 阅读 · 0 评论 -
【compshare】(1):推荐UCloud(优刻得)一个GPU按小时租的平台,使用实体机部署,可以方便快速的部署xinf推理框架并提供web展示,部署qwen大模型,特别方便
专注于提供高性价比算力资源,海量GPU,一键部署,即算即用,让AI训练、深度学习、科研计算效率翻倍。需要选择 ubuntu 版本,可以支持最高 12.4 的cuda驱动。测试qwen 大模型速度。因为运行的方式不一样,不使用了需要删除应用。但是界面启动后需要等待下驱动安装。模型之能运行一个,重启再运行即可。下载速度还是非常快的。否则还是会产生费用。是独享的模型创建的。原创 2024-05-26 20:40:08 · 1206 阅读 · 0 评论 -
【LocalAI】(12):本地使用CPU运行LocalAI,测试研究,语音模型已经切换到了hugging faces上了,测试zh_CN-huayan-medium.onnx中文合成成功!!
【代码】【LocalAI】(12):本地使用CPU运行LocalAI,一次运行5个能力,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字模型,文字转语音(只支持英文)原创 2024-05-18 22:06:00 · 833 阅读 · 0 评论 -
【LocalAI】(11):本地使用CPU运行LocalAI,一次运行5个能力,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字模型,文字转语音(只支持英文)
【代码】【LocalAI】(11):本地使用CPU运行LocalAI,一次运行4个大模型,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字模型。原创 2024-05-18 16:57:49 · 924 阅读 · 0 评论 -
【OrangePi】(1):香橙派联合华为精心打造OrangePi AIpro(8T)的硬件,搭载昇腾AI芯片,8TOPS算力...
树莓派4,上面的ollama qwen 大模型测速,0.5b速度 9.6 words/s,1.8b速度 2.8 words/s。硬件还是不错的,也是arm的芯片。理论上可以支持 localai的代码运行。不知道 OrangePi AIpro(8T) 的性能咋样了。香橙派联合华为精心打造,建设人工智能新生态。ubuntu使用的是22.03 的镜像。原创 2024-05-07 23:26:33 · 376 阅读 · 0 评论 -
【LocalAI】(10):在autodl上编译embeddings.cpp项目,转换bge-base-zh-v1.5模型成ggml格式,本地运行main成功
LocalAI的项目里面的embedding 是 bert embedding.不支持BGE 模型,有大神给改造支持了BGE的模型了。原创 2024-05-01 13:27:47 · 607 阅读 · 0 评论 -
【LocalAI】(9):本地使用CPU运行LocalAI,一次运行4个大模型,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字模型
【LocalAI】(9):本地使用CPU运行LocalAI,一次运行4个大模型,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字模型。它允许您在本地使用消费级硬件运行 LLM(不仅如此),支持与 ggml 格式兼容的多个模型系列。支持CPU硬件/GPU硬件。LocalAI 是一个用于本地推理的,与 OpenAI API 规范兼容的 REST API。替换了镜像里面的aio 文件夹。把模型都使用国内镜像进行下载地址替换了。使用了modescope 下载地址。原创 2024-05-01 12:44:21 · 1620 阅读 · 0 评论 -
【LocalAI】(6):在autodl上使用4090部署LocalAIGPU版本,成功运行qwen-1.5-32b大模型,占用显存18G,速度 84 tokens / s
【LocalAI】(6):在autodl上使用4090部署LocalAIGPU版本,成功运行qwen-1.5-32b大模型,占用显存18G,速度 84t/s。它允许您在本地使用消费级硬件运行 LLM(不仅如此),支持与 ggml 格式兼容的多个模型系列。支持CPU硬件/GPU硬件。LocalAI 是一个用于本地推理的,与 OpenAI API 规范兼容的 REST API。24G的显存占用了 18G,同时速度还可以。配置成功之后就可以启动了。原创 2024-04-20 23:55:23 · 2218 阅读 · 1 评论 -
【LocalAI】(5):在autodl上使用4090Ti部署LocalAIGPU版本,成功运行qwen-1.5-14b大模型,占用显存8G,原来是cuda-11版本的原因
cuda的硬件版本是 12.4 比如 4090D 的,可以使用local-ai-cuda12-Linux-x86_64 版本。其他的情况,比如 cuda 是12.2 或这 11.8 的情况。就只能使用local-ai-cuda11-Linux-x86_64 的版本了。原创 2024-04-20 16:45:49 · 668 阅读 · 0 评论 -
【LocalAI】(3):LocalAI本地使用Model gallery,对qwen模型进行配置,使用modescope源下载,本地运行速度快。特别简单!
在linux上使用一个二进制文件,成功运行embeddings和qwen-1.5大模型,速度特别快,有gitee配置说明。它允许您在本地使用消费级硬件运行 LLM(不仅如此),支持与 ggml 格式兼容的多个模型系列。支持CPU硬件/GPU硬件。LocalAI 是一个用于本地推理的,与 OpenAI API 规范兼容的 REST API。本身localai的后端实现就是 llama.cpp ,所以也可以支持qwen大模型。modelscope.cn 进行下载,速度会更快。支持gguf的量化版本。原创 2024-04-09 09:07:38 · 1338 阅读 · 0 评论 -
【LocalAI】(3):终于研究明白了!超级简单!在linux上使用一个二进制文件LocalAI,成功运行embeddings和qwen-1.5大模型,速度特别快,有gitee配置说明
【LocalAI】(3):超级简单!在linux上使用一个二进制文件,成功运行embeddings和qwen-1.5大模型,速度特别快,有gitee配置说明。它允许您在本地使用消费级硬件运行 LLM(不仅如此),支持与 ggml 格式兼容的多个模型系列。支持CPU硬件/GPU硬件。LocalAI 是一个用于本地推理的,与 OpenAI API 规范兼容的 REST API。原创 2024-04-09 09:00:21 · 1181 阅读 · 0 评论 -
【xinference】(8):在autodl上,使用xinference部署qwen1.5大模型,速度特别快,同时还支持函数调用,测试成功!
可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。然后就可以查看全部支持的模型进行启动。启动Xinference服务。原创 2024-04-02 23:00:42 · 1947 阅读 · 1 评论 -
【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协议,超级棒的方案
Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协。在autodl上下载项目主要是安装。启动访问之后可以进行安装各种软件了。启动Xinference服务。原创 2024-04-02 22:36:55 · 6225 阅读 · 2 评论 -
【ai技术】(4):在树莓派上,使用qwen0.5b大模型+chatgptweb,搭建本地大模型聊天环境,速度飞快,非常不错!
特别注意是 docker-compose-linux-armv7 版本,linux版本。安装docker 和 docker-compose 命令。原创 2024-03-23 12:40:30 · 3009 阅读 · 0 评论 -
【ai技术】(3):使用脚本对树莓派4,上面的ollama qwen 大模型测速,0.5b速度 9.6 words/s,1.8b速度 2.8 words/s,也是非常不错了。
【代码】【ai技术】(3):使用脚本对树莓派4,上面的ollama qwen 大模型测速,0.5b速度 9.6 words/s,1.8b速度 2.8 words/s,也是非常不错了。原创 2024-03-21 22:58:45 · 1390 阅读 · 0 评论 -
【ai技术】(2):树莓派3,使用的是armv7的版本,不支持ollama安装,内存1G,推荐使用命令行界面安装,使用raspi-config配置wifi,老设备了运行不了图形界面
树莓派3,安装ollama本地运行ollama大模型,测试速度。原创 2024-03-18 09:04:09 · 764 阅读 · 0 评论 -
【ai技术】(1):发现一个大模型可视化项目,使用nodejs编写的,llm-viz,可以本地运行展示大模型结构。
https://github.com/bbycroft/llm-viz或者镜像:https://gitcode.com/bbycroft/llm-viz.git项目 主要项目有:LLM 可视化:运行推理的 GPT 风格 LLM 网络的 3D 互动模型。 [WIP] CPU 模拟:一个带有完整执行模型的 2D 数字电路图编辑器,展示了一个简单的基于 RISC-V 的 CPU。LLM 可视化 这个项目显示了一个 GPT 风格网络的工作实现的三维模型。也就是说,这是 OpenAI 的 GPT-2、GPT-原创 2024-03-18 08:28:49 · 1111 阅读 · 0 评论 -
【ollama】(8):nvidia-docker在Nvidia Jetson Nano设备,对接chatgpt-web服务,配置成功,可以进行web聊天了,给ollama增加web界面
特别注意是 docker-compose-linux-armv7 版本,linux版本。然后安装docker 执行脚本即可。原创 2024-03-16 23:41:36 · 491 阅读 · 0 评论 -
【ollama】(7):使用Nvidia Jetson Nano设备,成功运行ollama,运行qwen:0.5b-chat,速度还可以,可以做创新项目了
【代码】【无标题】在jetson上安装 ollama。原创 2024-03-16 22:31:43 · 2156 阅读 · 2 评论 -
【ollama】(6):在本地使用docker-compose启动ollama镜像,对接chatgpt-web服务,配置成功,可以进行web聊天了,给ollama增加web界面
Ollama 是一个强大的框架,设计用于在 Docker 容器中部署 LLM。Ollama 的主要功能是在 Docker 容器内部署和管理 LLM 的促进者,它使该过程变得非常简单。它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,例如 Llama 2。使用ollama + chatgpt-web 实现本地大模型执行。然后访问:http://localhost:3002/ 即可。CPU 推荐使用 7b及以下版本。原创 2024-03-14 23:28:11 · 2106 阅读 · 0 评论 -
【ollama】(5):在本地使用docker-compose启动ollama镜像,修改模型存储位置,并下载qwen-0.5b模型,速度飞快
Ollama 是一个强大的框架,设计用于在 Docker 容器中部署 LLM。Ollama 的主要功能是在 Docker 容器内部署和管理 LLM 的促进者,它使该过程变得非常简单。它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,例如 Llama 2。【ollama】(5):在本地使用docker-compose启动ollama镜像,并下载qwen-0.5b模型,速度飞快。原创 2024-03-14 09:04:54 · 6979 阅读 · 0 评论 -
【ollama】(4):在autodl中安装ollama工具,配置环境变量,修改端口,使用RTX 3080 Ti显卡,测试coder代码生成大模型
Ollama 是一个强大的框架,设计用于在 Docker 容器中部署 LLM。Ollama 的主要功能是在 Docker 容器内部署和管理 LLM 的促进者,它使该过程变得非常简单。它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,例如 Llama 2。速度哦还是挺快的,经过一段时间的等待就可以服务启动成功了。原创 2024-03-12 22:45:35 · 7861 阅读 · 0 评论 -
【ollama】(3):在linux搭建环境中,安装golang开发的ollama工具,并且完成启动下载gemma:7b和qwen:1.8b运行速度飞快,支持http接口和命令行模式
然后因为是docker 虚拟环境,需要手动启动服务: ollama serve。项目使用golang+llama.cpp 项目进行开发的。有切换的时间,模型会重新载入到显存。简化了模型的安装,非常的方便。可以发现 支持中文效果也不错。然后启动 gemma:7b。原创 2024-03-12 08:53:01 · 2740 阅读 · 0 评论 -
【ollama】(2):在linux搭建环境,编译ollama代码,测试qwen大模型,本地运行速度飞快,本质上是对llama.cpp 项目封装
然后经过漫长的编译,就而可以生成了在 build 文件夹。里面有相关的liib库了。框架本质上还是使用了 llama.cpp 项目的。需要编译 llama.cpp 的代码,原创 2024-03-09 23:05:45 · 4195 阅读 · 2 评论 -
【fastllm】学习框架,本地运行,速度还可以,可以成功运行chatglm2模型
🚀 纯c++实现,便于跨平台移植,可以在安卓上直接编译🚀 ARM平台支持NEON指令集加速,X86平台支持AVX指令集加速,NVIDIA平台支持CUDA加速,各个平台速度都很快就是了🚀 支持浮点模型(FP32), 半精度模型(FP16), 量化模型(INT8, INT4) 加速🚀 支持多卡部署,支持GPU + CPU混合部署🚀 支持Batch速度优化🚀 支持并发计算时动态拼Batch🚀 支持流式输出,很方便实现打字机效果🚀 支持python调用。原创 2024-03-09 12:22:24 · 1623 阅读 · 0 评论 -
【Tauri】(5):本地运行candle和 qwen 大模型,并测试速度
使用 candle还是非常方便的,使用另外一种方案运行大模型。使用 cpu 速度就慢多了。原创 2024-03-07 08:44:54 · 1372 阅读 · 0 评论 -
【Tauri】(4):整合Tauri和actix-web做本地大模型应用开发,可以实现session 登陆接口,完成页面展示,进入聊天界面
步骤三:设置 crates.io 镜像, 修改配置 ~/.cargo/config,已支持git协议和sparse协议,>=1.68 版本建议使用 sparse-index,速度更快。需要返回标准的 openai api 接口了。整合 tauri 代码和 actix。实现了 server::init。配置rust环境方法。原创 2024-03-07 08:02:15 · 1515 阅读 · 0 评论 -
【wails】(8):发现一个用golang重写llama.cpp的llama.go项目,经测试支持f32模型,半年未更新,找到llama.cpp对应的版本,可以转换f32模型
golang 的代码可以执行 f32 的模型,但是不能执行 f16 和 int4 的模型。这部分工作并没有开发完成。因为模型 有 26G 所以使用 CPU 执行速度并不快,有 0.37 tokens/s。项目目前看已经 10 个月没有更新了。从代码量看,确实都不算太多。可以研究研究里面的算法。原创 2024-03-01 08:21:45 · 973 阅读 · 0 评论 -
【wails】(7):研究发现一个新的项目llama.go,使用纯golang写的代码,下载模型文件,然后可以本地执行了,可以执行,就是模型文件26G,运行速度慢 0.37 token/s
然后在autodl上申请服务器,选择 30G内存的服务器:# 克隆项目: git clone https://github.com/gotzmann/llama.go.git # 然后进入 cd llama.go/ # 执行 make # 然后在 builds 目录里面就有了三个文件: ls builds确实是能运行,目前看不支持最新的 GGUF 文件格式。同时是非量化版本 f32 的,造成模型比较慢。而且这个是 llama的第一代的产品。要是有二代的模型且 int4 版本的就好了。原创 2024-02-27 23:29:56 · 441 阅读 · 0 评论 -
粉丝2000 啦,选对赛道,做正确的事情,粉丝涨到2000说明大家对我做的事情还是非常的认可的,继续坚持中,将相关资料做了视频整理
【chatglm3】(1):docker本地部署,支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务。【xinference】(1):在autodl上,使用xinference部署chatglm3大模型,支持函数调用,使用openai接口调用成功!原创 2024-02-21 23:02:32 · 483 阅读 · 0 评论