然后我们来看如何做文本分割的粒度,为什么要做文本分割的交叠分割,是因为如果不做,保留上下文的这种,关键词提取,还有文本分割,以后,存入到es中的话,那么,准确率不高.
缺陷
粒度太大可能导致检索不精准,粒度太小可能导致信息不全面
问题的答案可能跨越两个片段
看个例子:
# 创建一个向量数据库对象
vector_db = MyVectorDBConnector("demo_text_split", get_embeddings)
# 向向量数据库中添加文档
vector_db.add_documents(paragraphs)
# 创建一个RAG机器人
bot = RAG_Bot(
vector_db,
llm_api=get_completion
)
user_query = "llama 2可以商用吗?"
# user_query="llama 2 chat有多少参数"
search_results = vector_db.search(user_query, 2)
for doc in search_results['documents'][0]:
print(doc+"\n")
print("====回复====")
bot.chat(user_query)
We believe that the open release of LLMs, when done safely, will be a net benefit to society. Like all LLMs, Llama 2 is a new technol