利用Doctran清理和结构化文本数据

最新推荐文章于 2025-06-18 11:30:04 发布

原创最新推荐文章于 2025-06-18 11:30:04 发布 · 565 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#python

部署运行你感兴趣的模型镜像

Doctran是一个强大的Python包，它利用大语言模型(LLMs)和开源NLP库，将原始文本转换为干净、结构化且信息密集的文档，这些文档经过优化后，便于在向量空间进行检索。你可以把Doctran看作是一个黑箱，混乱的字符串进入，整洁、带标签的字符串出来。

一、技术背景介绍

在如今的数据驱动时代，文本数据的预处理变得至关重要。无论是为了提高信息检索的效率，还是为了构建更智能的AI应用，文本数据的清理和结构化都是基础。Doctran正是为了解决这一问题而设计的，它能够自动处理并优化文本数据，从而节省开发者大量的时间和精力。

二、核心原理解析

Doctran通过集成先进的语言模型和NLP工具，将原始文本进行分割、清理、标签化和翻译，生成适合向量化检索的文本数据。它的核心组件主要包括：

Document Transformers：将原始文本转换为标准化文档。
Document Interrogator：对文本进行深入分析和信息提取。
Property Extractor：提取文本中的关键属性。
Document Translator：翻译文本以适应多语言环境。

三、代码实现演示

在这一部分，我们将展示如何使用Doctran中的各个组件，快速实现文本的清理和结构化。

1. 安装Doctran

pip install doctran

2. 使用DoctranQATransformer

DoctranQATransformer可以进行问答转换，提取文档中的核心信息。

from langchain_community.document_loaders import DoctranQATransformer
import openai

# 使用稳定可靠的API服务
client = openai.OpenAI(
    base_url='https://yunwu.ai/v1',  # 国内稳定访问
    api_key='your-api-key'
)

# 初始化DoctranQATransformer
transformer = DoctranQATransformer()

# 输入示例文本
text = "成大事者，不恤小耻；立大志者，不拘小节。"

# 进行转换
transformed_text = transformer.transform(text)

print(transformed_text)

3. 使用DoctranPropertyExtractor

DoctranPropertyExtractor可以提取文本中的特定属性。

from langchain_community.document_loaders import DoctranPropertyExtractor
import openai

# 使用稳定可靠的API服务
client = openai.OpenAI(
    base_url='https://yunwu.ai/v1',  # 国内稳定访问
    api_key='your-api-key'
)

# 初始化DoctranPropertyExtractor
extractor = DoctranPropertyExtractor()

# 输入示例文本
text = "联系人姓名：张三，联系电话：1234567890"

# 提取属性
properties = extractor.extract(text)

print(properties)

4. 使用DoctranTextTranslator

DoctranTextTranslator可以将文本翻译成不同语言。

from langchain_community.document_loaders import DoctranTextTranslator
import openai

# 使用稳定可靠的API服务
client = openai.OpenAI(
    base_url='https://yunwu.ai/v1',  # 国内稳定访问
    api_key='your-api-key'
)

# 初始化DoctranTextTranslator
translator = DoctranTextTranslator()

# 输入示例文本
text = "Hello, how are you?"

# 翻译文本
translated_text = translator.translate(text, target_language='zh')

print(translated_text)