- 博客(9)
- 收藏
- 关注
原创 pywebio 流式输出,显示为markdown(一)
pywebio作为一个简单易用的前端框架,可以有效与Python生态结合,用于快速开发信息系统,随着大型语言模型兴起,考虑使用pywebio流式输出显示,并最终渲染为markdown,做一个简单的交互界面。首先总结了作者的实现思路与精简代码,然后结合交互界面经验进行改进,此外编写了与LLM服务器交互部分以及测试代码。最后参考中有一篇研究人类阅读速度的文章,可以作为LLM推理速度、交互界面显示速度(人机工程)的参考。
2025-02-09 19:59:03
785
原创 ollama下载、安装与简单使用(windows10虚拟机)
Ollama下载、安装与简单使用(windows10虚拟机)围绕Ollama这一“大模型部署推理”利器,简单介绍了Ollama生态,然后说明了Ollama下载与安装,以及模型的安装方式(直接安装、GGUF导入、其他)与命令行简单使用,最后说明了Ollama的API简单使用、常用命令与应用集成问题。
2025-02-08 23:51:45
778
1
原创 大模型环境安装
因为之前用的Python版本一直是3.8,已经不支持了,一些底层逻辑没法用新技术集成,所以重装为3.12版本Python,并重新搭建支持GPU的大模型(ModelScope、transformers、torch2.3.0+cu118)环境。
2025-02-06 23:32:18
427
原创 LLM部署,并发控制,流式响应(Python,Qwen2+FastAPI)
本文实现了工程实践下并发控制下LLM服务器部署并提供流式响应。使得LLM服务器可以同时处理多个请求,并实现“当请求达到一定数量后,直接拒绝后续的推理请求”功能,防止服务器过载以及排队时间过长影响用户体验(直接告知服务器繁忙)。此外,对于较为复杂的问题(推理复杂、文本过长)生成回答,在并发架构下实现了“边推理便输出内容”的“流式响应”,可有效提高用户体验,优化人机交互实现。使用Python+Qwen2+FastAPI
2024-07-14 21:30:52
8636
15
原创 3050ti、Win10配置Keras2.10(tensorflow-GPU版本)
3050ti、Win10配置Keras2.10(tensorflow-GPU版本)
2024-01-03 19:46:13
1726
3
原创 华为云HECS(云耀云服务器)安装openGauss数据库
在华为云的云耀服务器(Huawei Cloud EulerOS 2.0)安装openGauss(RPM方式,轻量版)
2023-04-11 01:04:44
1726
1
原创 华为云x86_64 openEuler 20.03 64bit 部署Python-web
华为云x86_64 openEuler 20.03 64bit 部署Python-web
2023-02-21 22:43:39
516
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人