文档加载
这涵盖了如何加载目录中的所有文档。 在底层,默认情况下使用 UnstructedLoader。需要安装依赖
pip install unstructured
python导入方式
from langchain_community.document_loaders import DirectoryLoader
我们可以使用 glob 参数来控制加载特定类型文件。请注意,此处它不会加载 .rst 文件或 .html 文件。
loader = DirectoryLoader('../', glob="**/*.md")
默认情况下不会显示进度条。要显示进度条,请安装 tqdm 库(例如 pip install tqdm ),并将 show_progress 参数设置为 True 。
loader = DirectoryLoader('../', glob="**/*.md", show_progress=True)
docs = loader.load()
加载单个文档
from langchain_community.document_loaders import TextLoader
# TextLoader 文本加载器 txt、md、html等文件都可进行加载
loader = TextLoader("./txt/faq-4359.txt",encoding="utf8")
doc = loader.load()
例如
loader1 = TextLoader("./txt/faq-7923.txt",encoding="utf8")
doc1 = loader1.load()
# 输出结果
#[Document(page_content='众测活动\n\n整体介绍:\n\n一、活动定义:众测是以低价试销的形式,通过收集评价、销量等方法,用于测试市场对新商品的反应,用于及时优化销售策略和引导商家改进。\n\n二、优势:众测价通常比较优惠,以