使用Outlines项目从财报中智能提取财务数据的技术实践-优快云博客

使用Outlines项目从财报中智能提取财务数据的技术实践

outlines Guided Text Generation 项目地址: https://gitcode.com/gh_mirrors/ou/outlines

引言：财报数据提取的挑战

在金融分析领域，从企业财报中提取结构化财务数据是一项基础但极具挑战性的任务。美国证券交易委员会(SEC)并未要求企业提供机器可读格式的财报文档，导致这些文档通常以HTML等非结构化格式呈现，给自动化处理带来巨大困难。

传统解决方案通常依赖复杂的解析系统或人工审核，而本文介绍的Outlines项目提供了一种创新的解决思路——利用大型语言模型(LLMs)直接从财报中提取数据并转换为结构化的CSV格式。

技术方案概述

Outlines项目的核心创新在于：

结合LLMs的自然语言理解能力
通过正则表达式精确控制输出格式
实现从非结构化文档到结构化数据的端到端转换

环境准备

首先需要安装必要的Python依赖：

pip install outlines pandas transformers torch==2.4.0 accelerate

注意：这里指定了PyTorch 2.4.0版本以确保CUDA驱动的兼容性。

模型加载与配置

我们选择微软开源的Phi-3 mini模型，这是一个在小型机器上也能高效运行的轻量级模型：

import outlines
import torch

model_name = 'microsoft/Phi-3-mini-4k-instruct'
model = outlines.models.transformers(
    model_name,
    device='auto',
    model_kwargs={
        "torch_dtype": torch.bfloat16,  # 使用bfloat16减少内存占用
    },
)

数据预处理实战

财报原始数据通常包含大量无关信息和复杂格式。以下是从NVIDIA 10-K报告中提取的简化版损益表示例：

income_statement = """
[此处为简化后的财报表格数据]
"""

实际应用中，完整的处理流程包括：

原始HTML文档解析
页面内容筛选(识别包含损益表的页面)
表格数据提取和格式化

数据结构化设计

我们需要明确定义要提取的数据字段及其格式：

# 定义字段类型正则表达式
column_types = {
    "year": r"\d{4}",  # 四位年份
    "integer_comma": r"((-?\d+),?\d+|(-?\d+))",  # 带逗号的整数
    "number": r"(-?\d+(?:\.\d{1,2})?)",  # 带两位小数的数字
}

# 定义要提取的字段
columns_to_extract = {
    "year": "year",
    "revenue": "integer_comma",
    "operating_income": "integer_comma",
    "net_income": "integer_comma",
}

这种设计具有高度可扩展性，添加新字段只需简单更新字典即可。

正则表达式生成器

Outlines的核心功能是生成符合特定格式的输出。我们构建一个CSV格式的正则表达式：

header = ",".join(columns_to_extract.keys())
data_patterns = [column_types[dtype] for dtype in columns_to_extract.values()]
data_line = ",".join(data_patterns)
max_rows = 3  # 通常包含3年数据
csv_regex = f"{header}(\n{data_line}){{,{max_rows}}}\n\n"

生成的复杂正则表达式将确保模型输出严格符合CSV格式要求。

提示工程实践

精心设计的提示词对模型性能至关重要：

def extract_financial_data_prompt(columns_to_extract, income_statement):
    user_prompt = f"""
    [此处为详细的提示词设计]
    """
    return add_instruction(user_prompt)

关键提示要素包括：

明确任务描述
输出格式要求
数据验证规则
财务术语定义
异常处理指导

模型执行与结果验证

配置模型生成器并执行提取：

csv_extractor = outlines.generate.regex(
    model, csv_regex, sampler=outlines.samplers.greedy()
)

csv_data = csv_extractor(
    extract_financial_data_prompt(columns_to_extract, income_statement),
    max_tokens=1024,
)

输出结果可直接转换为pandas DataFrame进行后续分析：

import pandas as pd
from io import StringIO

df = pd.read_csv(StringIO(csv_data))
print(df)

技术优势分析

与传统方法相比，Outlines方案具有以下优势：

灵活性：适应不同格式的财报文档
准确性：通过正则表达式确保输出格式正确
可解释性：明确的规则和验证机制
可扩展性：轻松添加新的数据字段

应用场景扩展

该技术不仅适用于损益表提取，还可应用于：

资产负债表分析
现金流量表解析
财务比率计算
跨公司数据对比

总结与展望

Outlines项目展示了LLMs在金融数据提取中的强大潜力。通过结合自然语言理解和严格的正则约束，我们实现了从非结构化文档到结构化数据的高效转换。未来可进一步优化模型选择、提示工程和验证规则，提升系统的准确性和鲁棒性。

这种技术方案为金融数据分析自动化提供了新思路，有望显著降低数据处理成本，提高分析效率。

outlines Guided Text Generation 项目地址: https://gitcode.com/gh_mirrors/ou/outlines

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考