csv
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(file_path='data/专业描述.csv', csv_args={
'delimiter': ',',
'quotechar': '"',
'fieldnames': ['专业', '描述']
}, encoding='utf8', source_column='专业')
data = loader.load()
print(data)
-
'quotechar': '"': 设置了引用字符为双引号(")。在CSV文件中,如果某个字段值本身包含逗号或其他特殊字符,或者整个字段需要被视为一个不可分割的整体,通常会使用双引号将其包围起来。这里的设定告诉解析器如何正确识别和处理被引号包裹的字段值。 -
'fieldnames': ['专业', '描述']: 提供了列名列表。如果CSV文件的第一行没有列名(或者不希望使用第一行作为列名),可以在这里显式指定列名。在这个例子中,列名分别为“专业”和“描述”,对应到CSV文件中两列数据的实际含义。 -
source_column:
'专业'指定了一个特定的列名。这个参数的意义可能依赖于CSVLoader的具体实现细节。在某些上下文中,它可能用于指定作为后续处理主键或关键属性的列,在回溯某一行的时候可能有用
json
from langchain_community.document_loaders import JSONLoader
import json
f

文章介绍了如何使用Python库如CSVLoader处理CSV文件,包括设置quotechar和fieldnames,以及使用JSONLoader加载JSON数据。同时,还展示了如何使用RecursiveJsonSplitter对大型JSON数据进行有效分割。
最低0.47元/天 解锁文章
5060

被折叠的 条评论
为什么被折叠?



