Paddler简介
Paddler是一个专为llama.cpp设计的开源负载均衡器和反向代理工具。它能够感知llama.cpp服务器的状态,实现更加智能和高效的请求分发。与传统的轮询或最少连接等负载均衡策略不同,Paddler了解每个llama.cpp服务器的可用槽位(slots)情况,从而能够更好地处理并发请求。
主要特性
1. 状态感知负载均衡
Paddler使用代理来监控每个llama.cpp实例的槽位状态,确保请求被高效地分发到可用的服务器。
2. 动态扩缩容支持
支持动态添加或移除llama.cpp服务器,便于与自动扩缩容工具集成。
3. 请求缓冲
允许从零个主机开始扩展,通过缓冲请求来等待新的llama.cpp实例启