悠_逸-优快云博客

原创 pywebio 流式输出，显示为markdown（一）

pywebio作为一个简单易用的前端框架，可以有效与Python生态结合，用于快速开发信息系统，随着大型语言模型兴起，考虑使用pywebio流式输出显示，并最终渲染为markdown，做一个简单的交互界面。首先总结了作者的实现思路与精简代码，然后结合交互界面经验进行改进，此外编写了与LLM服务器交互部分以及测试代码。最后参考中有一篇研究人类阅读速度的文章，可以作为LLM推理速度、交互界面显示速度（人机工程）的参考。

2025-02-09 19:59:03 785

原创 ollama下载、安装与简单使用（windows10虚拟机）

Ollama下载、安装与简单使用（windows10虚拟机）围绕Ollama这一“大模型部署推理”利器，简单介绍了Ollama生态，然后说明了Ollama下载与安装，以及模型的安装方式（直接安装、GGUF导入、其他）与命令行简单使用，最后说明了Ollama的API简单使用、常用命令与应用集成问题。

2025-02-08 23:51:45 778 1

原创大模型环境安装

因为之前用的Python版本一直是3.8，已经不支持了，一些底层逻辑没法用新技术集成，所以重装为3.12版本Python，并重新搭建支持GPU的大模型（ModelScope、transformers、torch2.3.0+cu118）环境。

2025-02-06 23:32:18 427

原创 LLM部署，并发控制，流式响应（Python，Qwen2+FastAPI）

本文实现了工程实践下并发控制下LLM服务器部署并提供流式响应。使得LLM服务器可以同时处理多个请求，并实现“当请求达到一定数量后，直接拒绝后续的推理请求”功能，防止服务器过载以及排队时间过长影响用户体验（直接告知服务器繁忙）。此外，对于较为复杂的问题（推理复杂、文本过长）生成回答，在并发架构下实现了“边推理便输出内容”的“流式响应”，可有效提高用户体验，优化人机交互实现。使用Python+Qwen2+FastAPI

2024-07-14 21:30:52 8636 15