复杂格式的行式文本提取

原创

于 2021-06-23 09:29:59 发布 · 258 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#excel #esProc #SPL #数据分析

本文介绍了一种处理格式复杂文本文件的方法，通过确定数据结构、判断有效数据行以及找出提取字段的规律，从举例的客户报价单数据中提取关键信息。使用集算器SPL脚本，按照文本行的特定规律过滤和解析数据，最终将结果保存到Excel文件，实现了数据的有效提取和转换。

1. 思路

在数据处理中，有时数据来源于格式复杂的文本文件，要从中提取有用的数据，需从以下几点来思考：

1、确定要提取数据的结构，有哪几个要提取的字段

2、确定一行文本是否包含有效数据

3、从有效数据行中找到提取各字段的规律

不同文本数据的规律可能不一样，但总是要有规律才能解析。

2. 举例

现有一个文本格式的客户报价单数据item.txt如下图所示：

横线之前的行是复杂的表头，之后的每一行是一条报价记录，记录之间有空行。图中所示只是一个表头和报价记录区，这样的区域在文本文件中会不断地重复出现。红框所示分别是Unit Price和Exp. Date字段列，中间还有Quotation Number、Customer Code、Customer Name字段列，各列数据之间都是空格。

现在需要把文本文件中的报价单数据提取出来，存到Excel文件中如下图所示：

1、观察并发现文本中的规律

我们发现这个文本有这样的规律：

(1)少于136个字符的行都没有有效信息，可以跳过

(2)所需数据位于每行59列至136列

(3)把每行有效信息部分按空格为分隔符拆分，若第1个拆分值是数值类型，则此行是报价记录，否则可跳过。第1个拆分值是Unit Price列，第2个是Quotation Number列，第3个是Customer Code列，最后1个是Contract Ex

最低0.47元/天解锁文章

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。