流式响应(Streaming)
概念解释
流式响应是指在生成响应的过程中,逐步地将生成的部分结果返回给用户。这种方式允许用户在完整响应生成之前就开始处理或打印响应的开头部分,从而大大减少查询的感知延迟。
设置流式响应
要启用流式响应,你需要使用支持流式处理的 LLM。目前,流式处理支持 OpenAI、HuggingFaceLLM 以及大多数通过 LangChainLLM 的 LangChain LLMs。
注意:如果你选择的 LLM 不支持流式处理,将会引发 NotImplementedError。
要使用高级 API 配置查询引擎以使用流式响应,可以在构建查询引擎时设置 streaming=True:
query_engine = index.as_query_engine(streaming=True, similarity_top_k=1)
如果你使用低级 API 来组合查询引擎,则在构造响应合成器时传递 streaming=True:
from llama_index.core import get_response_synthesizer
synth = get_response_synthesizer(streaming=

最低0.47元/天 解锁文章
1027

被折叠的 条评论
为什么被折叠?



