LlamaIndex流式响应:实时获取查询结果
在LlamaIndex中,流式响应功能允许你在生成响应的同时进行流式传输。这意味着你可以在完整响应完成之前就开始打印或处理响应的开头部分。这可以显著减少查询的感知延迟。
设置
要启用流式传输,你需要使用支持流式传输的LLM。目前,OpenAI、HuggingFaceLLM以及大多数LangChain LLMs(通过LangChainLLM)都支持流式传输。
注意:如果你选择的LLM不支持流式传输,将会引发NotImplementedError。
使用高级API配置查询引擎进行流式传输
在构建查询引擎时,设置streaming=True:
query_engine = index.as_query_engine(streaming=True, similarity_top_k=1)
使用低级API配置查询引擎进行流式传输
在构建响应合成器时,传递streaming=True:

最低0.47元/天 解锁文章
2910

被折叠的 条评论
为什么被折叠?



