政府大数据平台需要有一个强大的数据接入工具

建设政府大数据平台,一个深刻体会是数据汇聚的难度,为了摸清委办局的数据家底,先期会花费大量的精力梳理资源目录,依据三定职责,梳理职责目录、系统目录和库表目录。从资源目录中就会发现,除了各类数据库之外,还有很多的数据是以文件形式存在,包括公文、公告、台账等,若不能将这些数据有效利用,则数据价值就会大打折扣。因此,大数据平台要有一个灵活可配、功能丰富的数据接入系统,既能将各类库表数据采集入库,也能将种类繁多的非结构化、半结构化数据解析入库。以下是初步构想的一个接入框架(暂不考虑图片、视频、音频等):
在这里插入图片描述
在上述框架中,重点是将word和excel文件的数据解析为结构化数据:

  • word文档,对于表单格式的文档,支持解析为key-value形式的数据;对于表格格式的文档,支持解析为二维表的数据。此外,对于有目录结构的数据文档,可以将目录结构提取出来,并提取关键字段的数值。
  • excel文档,除了可以支持常规的二维表格式,还需要考虑到固定表单格式的数据,能将其解析成key-value的数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值