RGA DEMO 上部

人多势众

已于 2024-11-03 17:15:33 修改

阅读量299

点赞数 9

文章标签： python

于 2024-11-03 17:12:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_38694958/article/details/143467537

版权

#拆分pdf类型代码块
#pip install pypdf -i https://pypi.tuna.tsinghua.edu.cn/simple  （有版本依赖问题）
#pip install --upgrade cryptography -i https://pypi.tuna.tsinghua.edu.cn/simple


from langchain.document_loaders import PyPDFLoader, NotionDirectoryLoader
from langchain_text_splitters import (
    CharacterTextSplitter,
    RecursiveCharacterTextSplitter,
)
loader = PyPDFLoader("LLM.pdf")
pages = loader.load()

text_splitter = CharacterTextSplitter(
    separator="\n", chunk_size=1000, chunk_overlap=150, length_function=len
)

docs = text_splitter.split_documents(pages)


#pip install langchain_ollama -i https://pypi.tuna.tsinghua.edu.cn/simple
from langchain_ollama import OllamaEmbeddings
embeddings = OllamaEmbeddings(model="lrs33/bce-embedding-base_v1",base_url="http://localhost:11434/")

#pip install -qU langchain-postgres -i https://pypi.tuna.tsinghua.edu.cn/simple
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector


CONNECTION_STRING = "postgresql+psycopg2://postgres:password@192.168.159.130:5432/postgres"

# 矢量存储名
COLLECTION_NAME = "yaofang_test"
# 建立索引库
vector = PGVector.from_documents(
    embedding=embeddings,
    documents=docs,
    collection_name=COLLECTION_NAME,
    connection=CONNECTION_STRING,
    use_jsonb=True,
    pre_delete_collection=True,
)

数据navcat 显示（之所以使用pg 易用,性能高,可控性高，缺点学习成本高基本都是版本依赖问题）

此代码为完成pdf切分chunk到保存pgVector数据库中，代码中LLM.pdf文件为“java 23种设计模式学习资料” 下期代码为从数据库获取向量维度数据通过chain流式返回。

博客等级

码龄8年

33
原创

118
点赞

120
收藏

108
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: langchain V2.0 一些代码块收录

下一篇：: RGA DEMO 下部

最新评论

向量数据库：PGVector 为AI知识库做准备
人多势众: 后续连接着我的RAG DEMO 上下部
向量数据库：PGVector 为AI知识库做准备
人多势众: 补充一下postgresql配置环境变量： vim /etc/profile（末尾添加就行） export PATH=/www/server/pgsql/bin:$PATH export PGHOME=/www/server/pgsql export PGDATA=/www/server/pgsql/data/ export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$PGHOME/lib/ export PATH=$PGHOME/bin:$PATH:$HOME/bin #使配置生效 source /etc/profile
langchain V2.0 一些代码块收录
人多势众: 流式输出代码（后期代码会不但跟进，最后会以UI呈现希望能坚持到从0开始到完成）： # 生成输出解析器 from langchain_core.output_parsers import StrOutputParser output_parser = StrOutputParser() # 将检索索引器和输入内容（问题）生成检索 from langchain_core.runnables import RunnableParallel, RunnablePassthrough setup_and_retrieval = RunnableParallel( {"context": retriever, "question": RunnablePassthrough()} ) def format_docs(docs): return "\n\n".join(doc.page_content for doc in docs) rag_chain = ( {"context": retriever | format_docs, "question": RunnablePassthrough()} | prompt | model | StrOutputParser() ) for chunk in rag_chain.stream("java 共有多少种设计模式"): print(chunk, end="", flush=True)
vue 开发
优快云-Ada助手: Vue入门技能树或许可以帮到你：https://edu.youkuaiyun.com/skill/vue?utm_source=AI_act_vue
java pdf 模板多页数据导出
凹凸路: 每次生成的pdf只有一条数据

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。