调试经验——快速将PDF格式的Glossary转换为字典格式的技巧(Conversion of non-structured data to structured data)

本文介绍了一种将PDF格式的词汇表快速转换为Excel表格的方法,以便更好地管理和利用这些信息。通过简单的步骤,如复制粘贴及使用Excel公式,可以在短时间内完成大量数据的整理。

需求:

手头有一份PDF格式的Glossary,准备将其中的词条提取到Excel中,并将其合并到现有的知识库中。

 

方法:

1. 新建一个Excel工作表

2. 将PDF中的内容逐页复制到工作表中的B列中(从第二行开始,只需粘贴文本值,删除多余行,保证一个词条仅占用两行(第一行是词条,第二行是词条本身))

3. 复制完成后,在C1中输入“DESC”,在C2中输入公式:=B3,即,将该词条的解释从其下方复制到右方(相当于列转行)

4. 在A1中输入“Flag”,在A2中输入公式:=IF(MOD(ROW(B2),2)=0,0,1),筛选出词条名和词条解释

5. 在A列筛选0值(即所有词条),将会发现B列中只剩下了词条名,而C列种只剩下词条解释

 

通过这种方法,283条词条在20分钟之内顺利的从PDF格式中进入了我的知识库,即,从non-structured (非结构化)数据转换成了结构化数据,非常高效。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值