h2ogpt数据清洗开源工具：推荐的开源软件-优快云博客

h2ogpt数据清洗开源工具：推荐的开源软件

【免费下载链接】h2ogpt Private Q&A and summarization of documents+images or chat with local GPT, 100% private, Apache 2.0. Supports Mixtral, llama.cpp, and more. Demo: https://gpt.h2o.ai/ https://codellama.h2o.ai/ 项目地址: https://gitcode.com/gh_mirrors/h2/h2ogpt

在当今数据驱动的世界中，数据清洗（Data Cleaning）是数据分析和机器学习流程中不可或缺的关键步骤。高质量的数据集能够显著提升模型性能和分析结果的可靠性，但现实中的数据往往存在缺失值、重复记录、格式错误等问题。h2ogpt作为一款注重隐私保护的开源AI工具，不仅提供强大的本地问答和文档摘要功能，还集成了多种数据清洗相关的工具和模块，帮助用户高效处理各类数据。本文将详细介绍h2ogpt中可用于数据清洗的核心功能、使用方法及实际应用场景，并推荐相关的开源工具生态。

一、h2ogpt数据清洗核心功能

h2ogpt的设计理念是“100%私有”，其数据处理流程在本地完成，确保敏感信息不泄露。在数据清洗方面，h2ogpt通过多个模块协同工作，支持文本、PDF、图像等多类型数据的预处理和清洗。

1. 文本数据清洗：`src/create_data.py`

src/create_data.py是h2ogpt中专注于文本数据清洗和预处理的核心脚本，提供了从原始文本提取结构化信息、去除噪声、标准化格式等功能。

关键功能：

结构化数据提取：通过parse_rst_file函数解析RST格式文件，提取问答对（Q&A），适用于从文档中抽取结构化知识。

def parse_rst_file(filepath):
    with open(filepath, 'r') as f:
        input_data = f.read()
    # 解析RST文本，提取问题（以"?"结尾）和答案
    # 返回格式：{问题: 答案}

文本分块与过滤：get_sentences函数将长文本按指定长度（如200字符）分割为句子块，去除过短或过长的无效文本，避免数据冗余。
```
def get_sentences(blob, length):
    # 使用nltk分句，确保每个句子块长度不超过length
    # 返回过滤后的句子列表
```

多源数据合并：test_join_jsons函数合并多个JSON格式的数据集，支持按权重分配不同数据源的样本比例，构建综合数据集。

def test_join_jsons():
    files = ['config.json', 'dai_docs.train_cleaned.json', 'dai_faq.json']
    lst = []
    [lst.extend(json.load(open(fil, 'rt'))) for fil in files]
    json.dump(lst, open("merged.json", "wt"), indent=2)

应用场景：

从技术文档（如RST、PDF）中提取结构化问答数据，用于模型微调。
合并多个开源数据集（如OIG、ShareGPT），去除重复和低质量样本，构建训练数据。

2. 文档数据清洗：`src/utils_langchain.py`

src/utils_langchain.py集成了LangChain框架的文档处理能力，支持PDF、HTML等格式文件的加载、分块和元数据清洗，为后续检索增强生成（RAG）提供高质量文档片段。

关键功能：

智能分块策略：split_merge_docs函数根据文档长度和模型上下文窗口，动态调整分块大小，确保每个块的 tokens 数量适配模型输入限制。

def split_merge_docs(docs_with_score, tokenizer=None, max_input_tokens=None):
    # 结合语义分块和递归字符分块，平衡内容完整性和模型输入限制
    # 返回优化后的文档块列表

元数据标准化：_add_meta函数为文档添加哈希ID、文件路径、时间戳等元数据，支持后续去重和溯源。

def _add_meta(docs1, file, headsize=50, filei=0, parser='NotSet'):
    # 为每个文档块添加input_type、hashid、date等元数据

多格式支持：通过path_to_docs函数加载PDF、图像、URL等多类型数据源，自动选择对应解析器（如PyMuPDF解析PDF，Doctr处理图像OCR）。

应用场景：

处理用户上传的PDF报告，提取关键段落并清洗格式错误（如多余空行、特殊字符）。
为RAG系统准备文档库，确保检索到的片段准确且无冗余。

3. 表格数据清洗：`src/pandas_agent_langchain.py`

src/pandas_agent_langchain.py基于LangChain的Pandas Agent，支持表格数据（如CSV、Excel）的自动化清洗，通过自然语言交互完成缺失值填充、异常值检测等操作。

关键功能：

自然语言驱动清洗：create_pandas_dataframe_agent函数创建表格处理智能体，用户可通过自然语言指令（如“删除缺失值超过50%的列”）触发清洗操作。

def create_pandas_dataframe_agent(llm, df):
    # 构建支持Python代码执行的智能体，自动生成清洗逻辑
    return AgentExecutor.from_agent_and_tools(agent=agent, tools=tools)

数据校验与转换：集成pandas库的dropna、fillna、astype等方法，支持缺失值处理、数据类型转换、重复行删除等基础清洗操作。

应用场景：

非技术人员通过对话方式清洗CSV格式的销售数据，例如“将日期列格式统一为YYYY-MM-DD”。
自动化检测表格中的异常值（如数值超出合理范围）并标记，辅助人工审核。

4. 图像数据清洗：`src/image_doctr.py`

src/image_doctr.py基于h2oai/doctr库，提供图像OCR（光学字符识别）和版面分析功能，解决扫描PDF、截图等图像数据中的文本提取和格式清洗问题。

关键功能：

OCR文本提取：H2OOCRLoader类使用预训练的检测（DB-ResNet50）和识别（CRNN）模型，从图像中提取文本内容。

class H2OOCRLoader(ImageCaptionLoader):
    def load(self, prompt=None) -> List[Document]:
        # 加载图像，执行OCR，返回包含文本和元数据的Document列表

版面恢复：space_layout函数根据文本框坐标恢复文档排版，保留段落结构和空格，提升文本可读性。

def space_layout(texts, boxes, threshold_show_spaces=8, threshold_char_width=0.02):
    # 根据文本框位置计算空格数量，恢复原始版面布局

应用场景：

从扫描版PDF（如发票、报表）中提取文本，去除倾斜、模糊等噪声干扰。
清洗截图中的文本（如网页截图），保留表格和列表结构，用于数据录入。

二、h2ogpt数据清洗工作流

h2ogpt的数据清洗流程遵循“多源接入→智能分块→清洗增强→存储检索”的闭环，以下是典型工作流示例：

mermaid

步骤说明：

数据接入：通过src/make_db.py的make_db_main函数加载本地文件（PDF、CSV）或URL数据。
类型适配：根据数据类型选择对应清洗模块（文本→create_data.py，图像→image_doctr.py）。
智能处理：分块、去重、元数据添加，确保数据符合模型输入要求。
存储与应用：清洗后的数据存入向量数据库（如Chroma），用于RAG问答或模型微调。

三、h2ogpt数据清洗工具安装与使用

1. 环境准备

h2ogpt支持Linux、Windows和macOS系统，推荐使用Python 3.10+，通过以下命令安装依赖：

# 克隆仓库
git clone https://gitcode.com/gh_mirrors/h2/h2ogpt.git
cd h2ogpt

# 创建虚拟环境
python -m venv venv
source venv/bin/activate  # Linux/macOS
# venv\Scripts\activate  # Windows

# 安装基础依赖
pip install -r requirements.txt

# 安装数据清洗额外依赖（OCR、表格处理）
pip install -r reqs_optional/requirements_optional_image.txt
pip install -r reqs_optional/requirements_optional_langchain.txt

2. 快速使用示例

示例1：清洗文本数据并合并

# 从RST文件提取问答对
python src/create_data.py --test_scrape_dai_docs_all

# 合并多个JSON数据集
python src/create_data.py --test_join_jsons

示例2：构建RAG文档库

# 将PDF文档转换为清洗后的向量库
python src/make_db.py --user_path ./data --db_type chroma --chunk_size 1024

示例3：表格数据清洗

# 在Python脚本中使用表格清洗智能体
from src.pandas_agent_langchain import create_csv_agent
from langchain.llms import HuggingFacePipeline

# 加载CSV文件并创建智能体
llm = HuggingFacePipeline.from_model_id(
    model_id="h2oai/h2ogpt-4096-llama2-7b-chat",
    task="text-generation",
)
agent = create_csv_agent(llm, "sales_data.csv")

# 自然语言指令清洗数据
agent.run("删除缺失值超过30%的列，并将日期列格式化为YYYY-MM-DD")

四、推荐开源工具生态

h2ogpt的数据清洗能力可与以下开源工具互补，构建完整数据处理 pipeline：

工具名称	功能亮点	适配场景
DuckDB	内存列式数据库，支持SQL清洗JSON/CSV数据	大规模表格数据过滤和聚合
Great Expectations	数据质量校验，自动生成清洗报告	企业级数据合规性检查
PyCaret	低代码机器学习库，集成数据预处理模块	自动化特征工程和异常值检测
Unstructured	多格式文档解析（PDF/HTML/PPT）	非结构化数据批量提取
Dask	分布式计算框架，支持并行数据清洗	超大规模数据集（TB级）处理

五、总结

h2ogpt作为注重隐私的本地AI工具，其数据清洗模块通过create_data.py、utils_langchain.py等脚本，实现了从多源数据接入到高质量样本输出的全流程支持。无论是文本去噪、PDF/OCR处理，还是表格智能清洗，h2ogpt均提供开箱即用的功能，同时兼容LangChain、Pandas等生态工具，满足科研和企业级数据处理需求。

通过结合h2ogpt与推荐的开源工具，用户可构建私有化数据清洗 pipeline，在保护数据隐私的前提下，为AI模型训练和分析提供可靠数据支撑。如需进一步探索，可参考官方文档docs/INSTALL.md和docs/README_LangChain.md。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

h2ogpt数据清洗开源工具：推荐的开源软件