
chatgpt
文章平均质量分 78
fly-iot
没什么大不了,一直写代码。
展开
-
【xinference】(15):在compshare上,使用docker-compose运行xinference和chatgpt-web项目,配置成功!!!
【代码】【xinference】(15):在compshare上,使用docker-compose运行xinference和chatgpt-web项目,配置成功!!!原创 2024-07-06 23:54:17 · 1346 阅读 · 0 评论 -
【xinference】(12):目前最全大模型推理框架xinference,发布0.12.2版本,支持qwen2,glm4等主流大模型推理运行,可以对外提供标准的openai的API接口做服务
可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。进行推理,降低延迟,提高吞吐!🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2。原创 2024-06-23 22:22:12 · 1345 阅读 · 0 评论 -
【LocalAI】(12):本地使用CPU运行LocalAI,测试研究,语音模型已经切换到了hugging faces上了,测试zh_CN-huayan-medium.onnx中文合成成功!!
【代码】【LocalAI】(12):本地使用CPU运行LocalAI,一次运行5个能力,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字模型,文字转语音(只支持英文)原创 2024-05-18 22:06:00 · 833 阅读 · 0 评论 -
【LocalAI】(11):本地使用CPU运行LocalAI,一次运行5个能力,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字模型,文字转语音(只支持英文)
【代码】【LocalAI】(11):本地使用CPU运行LocalAI,一次运行4个大模型,embedding模型,qwen-1.5-05b模型,生成图模型,语音转文字模型。原创 2024-05-18 16:57:49 · 924 阅读 · 0 评论 -
【xinference】(8):在autodl上,使用xinference部署qwen1.5大模型,速度特别快,同时还支持函数调用,测试成功!
可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。然后就可以查看全部支持的模型进行启动。启动Xinference服务。原创 2024-04-02 23:00:42 · 1947 阅读 · 1 评论 -
【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协议,超级棒的方案
Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。【xinference】(7):在autodl上,使用xinference一次部署embedding,rerank,qwen多个大模型,兼容openai的接口协。在autodl上下载项目主要是安装。启动访问之后可以进行安装各种软件了。启动Xinference服务。原创 2024-04-02 22:36:55 · 6225 阅读 · 2 评论 -
【Dify知识库】:可能是全网首发!将开源知识库Dify的数据库从Postgresdb切换成MySQL,解决各种兼容的问题,最终可以成功切换,做了很多期视频进行演示,持续研究中
Dify 项目非常不错,代码写的也好,就是数据库是 Postgresdb 的,需要切换成Mysql。不过还好使用的是 sqlAlchomy 切换起来也是非常的方便的。原创 2023-12-30 13:46:29 · 5704 阅读 · 0 评论 -
【大模型知识库】(5):本地环境运行dity+fastchat的BGE模型,可以使用embedding接口对知识库进行向量化,连调成功。
知识库使用起来也是非常的方便的,配置bge的embedding 接口。原创 2023-12-18 23:40:23 · 4347 阅读 · 0 评论 -
【大模型知识库】(4):本地环境运行dity+fastchat的ChatGLM3模型,可以使用chat/completions接口调用chatglm3模型
dify 已经是非常完善的产品了,可以快速的进行配置开发一个聊天应用。同时支持配置提示词。非常方便。还有知识库可以配置使用。原创 2023-12-18 22:48:31 · 1498 阅读 · 0 评论 -
【ChatGLM3】(9):使用fastchat和vllm部署chatlgm3-6b模型,并简单的进行速度测试对比。vllm确实速度更快些。
使用fastchat 和 vllm 简单的对比了下。没有做量化,也没有其他配置。fastchat 是 20 t/s 左右,vllm 是 200+ t/s 速度上确实还是非常不错的。但是发现 vllm 在返回的内容上不如 fastchat 好。原创 2023-12-16 23:21:40 · 5263 阅读 · 0 评论 -
【candle】(2):使用hf-mirror镜像下载TheBloke/Llama-2-7B-GGML的q4_0.bin文件,并设置HF_HOME,example模块可以识别下载的模型
【candle】(2):使用hf-mirror镜像下载TheBloke/Llama-2-7B-GGML的q4。还可以使用 https://aliendao.cn/#/ 进行加速下载。同时不要安装 rust-docs 有 700 多MB ,实在是没有用。原创 2023-12-16 23:16:15 · 1931 阅读 · 0 评论 -
【大模型知识库】(2):开源大模型+知识库方案,docker-compose部署本地知识库和大模型,毕昇+fastchat的ChatGLM3,BGE-zh模型,通过拖拽/配置方式实现大模型编程
通过拖拽的方式可以实现模型的配置编程,可以快速的开发应用。或者提供对外接口,非常的方便。这个只是演示了配置chatglm3 接口的部分。持续研究中。原创 2023-12-16 23:13:38 · 7009 阅读 · 2 评论 -
【deepseek】(1):12月1日新大模型deepseek发布!使用3080显卡,运行deepseek-7b模型,可以正常运行WebUI了,速度9 words/s。
终于解决了webui的启动问题。模型发展的速度真的快。速度越来越快了。deepseek的模型使用起来还可以。可以运行7b的模型了。测试了几个简单的问题,还可以。7B模型经过 int8 量化,可以在 12G的3080TI 上面运行。原创 2023-12-09 09:57:39 · 3079 阅读 · 0 评论 -
【deepseek】(2):使用3080Ti显卡,运行deepseek-coder-6.7b-instruct模型,因fastchat并没有说支持这个版本,或者模型有问题,出现死循环输出EOT问题
总结,代码生成支持多个语言的生成,不知道是因为量化还是 fastchat的兼容问题。目前看 deepseek-coder-6.7b-instruct 会有死循环输出 的问题。因为启动的是 int8 量化版本,同时也不是fastchat官方说的兼容的33版本。后续再使用原版33B验证下。原创 2023-12-09 09:52:36 · 3883 阅读 · 2 评论 -
【ChatGLM3】(8):模型执行速度优化,在4090上使用fastllm框架,运行ChatGLM3-6B模型,速度1.1万 tokens/s,真的超级快,高并发
速度确实非常快,但是目前看接口中只有一个 generate 接口。后续可以通过进行优化。没有 /v1/chat/completions 聊天接口。代码是 c++ 的效率是正高。下一个研究项目 candle : 目前已经 10K 星星。原创 2023-12-05 22:50:15 · 5329 阅读 · 3 评论 -
【ChatGLM3】(7):在autodl上,使用A50显卡,使用LLaMa-Factory开源项目对ChatGLM3进行训练,非常方便的,也方便可以使用多个数据集
工具还是非常的简单,可以把机构参数进行设置下。主要就是把参数可视化,同时把结果也可视化。非常的方便。进度也可以看到。原创 2023-12-05 09:07:34 · 4761 阅读 · 7 评论 -
【ChatGLM3】(6):使用1个2080Ti-11G版本,运行ChatGLM3-Int8模型,可以正常运行,速度6 words/s,不支持vllm启动,2张卡速度24 words/s
测试效果还可以,发现不支持 vllm 优化,估计需要进行模型转换。可以使用vllm 启动成功,但是模型不返回内容。同时增加 --load-8bit 可以在 11 G 显卡上运行,占用显存 7G左右。不增加参数,需要2张 2080Ti 11G 的显卡。模型大小就是显存占用大小。需要 12G 多显存。综合看自己测试 2080Ti 还是可以使用的。跑 chatglm3-6b 没有啥问题。原创 2023-12-02 23:06:33 · 3010 阅读 · 1 评论 -
【Yi-34B-Chat-Int4】使用4个2080Ti显卡11G版本,运行Yi-34B模型,5年前老显卡是支持的,可以正常运行,速度 21 words/s,vllm要求算力在7以上的显卡就可以
11月24日,零一万物基正式发布并开源微调模型 Yi-34B-Chat,可申请免费商用。同时,零一万物还为开发者提供了 4bit/8bit 量化版模型,Yi-34B-Chat 4bit 量化版模型可以直接在消费级显卡(如RTX3090)上使用。但是人家没有说是一张就行,经测试需要 42G 显存原创 2023-12-02 21:08:29 · 4304 阅读 · 1 评论 -
使用autodl服务器,两个3090显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度23 words/s
使用autodl服务器,两个3090显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度23 words/s。随着大模型的参数增加,企业用户再使用的是特别需要大参数的模型了。因为大模型在更加准确。硬件都不是问题。通过多卡的方式可以成功部署。2张 3090,或者 4090 就可以部署 Yi-34B-Chat-int4模型了。但是目前看中文稍微有点小问题,会返回英文,相信很快会迭代下一个版本了。原创 2023-12-01 08:32:37 · 5068 阅读 · 1 评论 -
使用autodl服务器,在A40显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度18 words/s
"messages": [{"role": "user", "content": "北京景点,使用中文回答"}],}'原创 2023-11-30 23:09:35 · 2827 阅读 · 0 评论 -
【大模型知识库】(1):系统架构设计思考/调研。开源项目llm-knowledge-system,部署mysql,seilisearch,milvus,fastchat的ChatGLM3,BGE-zh
项目介绍端口mysql数据库3306搜索库7700milvus向量数据库19530fastchat模型框架,部署chatglm3,BGE-zh8000使用goframe可以快速创建项目。然后就可以进行开发了。在项目的docker-compose 目录下可以直接将各种中间件服务都启动。配置都在各自中间件的目录下面。数据都存储在data目录下面。原创 2023-11-28 21:19:56 · 2561 阅读 · 0 评论 -
【baichuan2】(1):使用 fastchat 部署Baichuan2-13b服务,启动8bit的worker,可以运行openai_api服务和web界面方便进行测试
百川模式13b需要的资源更多。原创 2023-11-25 14:16:03 · 3269 阅读 · 0 评论 -
【ChatGLM3】(5):使用 fastchat 部署ChatGLM3服务,启动8bit的worker,可以运行openai_api服务和web界面方便进行测试。还支持embeddings 接口!
•最先进模型的权重、训练代码和评估代码(例如Vicuna、FastChat-T5)。•基于分布式多模型的服务系统,具有Web界面和与OpenAI兼容的RESTful API。FastChat是一个用于训练、部署和评估基于大型语言模型的聊天机器人的开放平台。可以成功部署 bge-zh 模型进行 embedding 的向量化,还是非常方便的。经过实验,可以发现使用fastchat可以成功部署ChatGLM3 进行对话。需要python3的环境,因为启动模型,需要nvidia的镜像。原创 2023-11-18 23:51:03 · 7318 阅读 · 4 评论 -
【chatglm3】(4):如何设计一个知识库问答系统,参考智谱AI的知识库系统,
通过大语言模型快速搭建本地知识库系统。将本地数据知识结合业务场景应用。非常不错的事情。最重要的是转换格式,做 embedding ,然后存储到向量数据库中。原创 2023-11-16 22:42:45 · 4050 阅读 · 0 评论 -
【chatglm3】(3):在AutoDL上,使用4090显卡,部署ChatGLM3API服务,并微调AdvertiseGen数据集,完成微调并测试成功!附视频演示。
载处理好的 AdvertiseGen 数据集,将解压后的 AdvertiseGen 目录放到本目录下。对于输入输出格式的微调,可使用 inference.py 进行基本的推理验证。AdvertiseGen以商品网页的标签与文案的信息对应关系为基础构造。来下载和将数据集处理成上述格式。完全可以满足内部使用了。原创 2023-11-13 22:56:39 · 4500 阅读 · 1 评论 -
【chatglm3】(2)使用docker运行chatglm3对外的http服务,使用python代码执行函数调用,查询北京天气
【官方教程】ChatGLM3-6B 部署和微调(Function Call、Code Interpreter、Agent)执行函数代码,修改main_tool.py。{‘city_name’: ‘北京’}原创 2023-11-02 21:26:56 · 1232 阅读 · 0 评论 -
【chatgpt】使用docker运行chatglm3,原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务,可以本地运行啦
chatglm3,原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务,可以本地运行。这样就可以开发更丰富的应用了。原创 2023-10-29 21:53:14 · 7012 阅读 · 5 评论 -
【大模型】在linux上使用nvidia显卡,使用llam.cpp框架运行Baichuan-7B 模型,可以成功运在CPU和GPU下运行,int4量化版本速度飞快。
有一点感觉上这个问题必须要具体点,否则百川给出的结果会不一样。这个和chatglm 还是有差距的:同样的问题,chatglm2 结果比较稳定。错误也比较明显,居然返回大雁塔了??!!baichuan 好的一点是新模型发布了。baichuan2 估计会解决这个问题。同时baichuan 可以支持使用 llam.cpp 上面运行。同时还有 13B的模型可以使用,所以要好好的研究下。原创 2023-09-10 23:13:00 · 1828 阅读 · 3 评论 -
【chatglm2】使用Python在CPU环境中运行 chatglm.cpp 可以实现本地使用CPU运行chatglm2模型,速度也特别的快可以本地部署,把现有项目进行AI的改造。
也可以支持英文,但是最后几个字有点问题。最后有点乱码,不知道是不是因为模型裁剪的问题。同时也有可能是原始素材就有这个问题。可以使用docker 在 CPU上面运行 chatglm ,同时安装了 pytorch 的CPU 版本,镜像缩小到 1.5 G了。并且速度也是非常的快了。可以在非GPU的机器上面运行了。可以解决很多问题呢。原创 2023-08-16 08:03:52 · 4985 阅读 · 2 评论 -
【goframe】(2)实现上下文原理,在chatgpt中,经过折腾研究,要做好上下文需要把之前的信息都存储上,再一起发送过去就可以了
chatgpt开发对话上下文,一定要把数据都存储上。使用比较原始的方法,直接在controller 上面编写dao 方法。可以把上下文信息都保存起来,这样在查询的时候非常的方便。原创 2023-03-30 23:18:17 · 6207 阅读 · 1 评论