需求:
手头有一份PDF格式的Glossary,准备将其中的词条提取到Excel中,并将其合并到现有的知识库中。
方法:
1. 新建一个Excel工作表
2. 将PDF中的内容逐页复制到工作表中的B列中(从第二行开始,只需粘贴文本值,删除多余行,保证一个词条仅占用两行(第一行是词条,第二行是词条本身))
3. 复制完成后,在C1中输入“DESC”,在C2中输入公式:=B3,即,将该词条的解释从其下方复制到右方(相当于列转行)
4. 在A1中输入“Flag”,在A2中输入公式:=IF(MOD(ROW(B2),2)=0,0,1),筛选出词条名和词条解释
5. 在A列筛选0值(即所有词条),将会发现B列中只剩下了词条名,而C列种只剩下词条解释
通过这种方法,283条词条在20分钟之内顺利的从PDF格式中进入了我的知识库,即,从non-structured (非结构化)数据转换成了结构化数据,非常高效。