复杂格式的行式文本提取

本文介绍了一种处理格式复杂文本文件的方法,通过确定数据结构、判断有效数据行以及找出提取字段的规律,从举例的客户报价单数据中提取关键信息。使用集算器SPL脚本,按照文本行的特定规律过滤和解析数据,最终将结果保存到Excel文件,实现了数据的有效提取和转换。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 思路

在数据处理中,有时数据来源于格式复杂的文本文件,要从中提取有用的数据,需从以下几点来思考:

1、 确定要提取数据的结构,有哪几个要提取的字段

2、 确定一行文本是否包含有效数据

3、 从有效数据行中找到提取各字段的规律

不同文本数据的规律可能不一样,但总是要有规律才能解析。

2. 举例

现有一个文本格式的客户报价单数据item.txt如下图所示:

 

 

横线之前的行是复杂的表头,之后的每一行是一条报价记录,记录之间有空行。图中所示只是一个表头和报价记录区,这样的区域在文本文件中会不断地重复出现。红框所示分别是Unit Price和Exp. Date字段列,中间还有Quotation Number、Customer Code、Customer Name字段列,各列数据之间都是空格。

现在需要把文本文件中的报价单数据提取出来,存到Excel文件中如下图所示:

 

 

1、 观察并发现文本中的规律

我们发现这个文本有这样的规律:

(1)少于136个字符的行都没有有效信息,可以跳过

(2)所需数据位于每行59列至136列

(3)把每行有效信息部分按空格为分隔符拆分,若

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值