数据清理工具——OpenRefine

OpenRefine的内容分两章讲,第一章主要讲OpenRefine的基本操作,第二章主要讲OpenRefine的进阶操作,希望能帮助你们!

OpenRefine是一款由Java开发的可视化工具,用户可以在操作界面上直接对数据进行数据清理和格式转换,它支持Windows、Linux和macOS系统,并且提供英文、中文和日文等多种语言,可以在用户缺乏专业编程技术的背景下快速地清理数据。

OpenRefine是一个典型的交互数据转换工具(Interface Data Transformation tools,缩写IDTs),能够以可视化界面的形式处理数据,类似于传统的Excel软件,但其工作方式更像数据库处理数据列或字段,而不是处理单独的单元格。

首先自己去官网上下载OpenRefine,这里不再介绍,只要下载和你电脑配置相符合的就可以了!

1.下载好后,单击“openrefine.exe”启动OpenRefine工具,若当前计算机中没有配置Java环境,则会在默认浏览器中打开“下载适用于Windows的Java”页面,如下图所示。
在这里插入图片描述
2.单击“同意开始免费下载”按钮下载Java,待Java安装成功后,再次双击“openrefine.exe”后会跳转到OpenRefine首页页面,如下图所示。

在这里插入图片描述
至此,OpenRefine工具安装完成。

下面介绍OpenRefine的基本操作

  1. 语言设定
    OpenRefine工具默认使用英文显示。为迎合大多数用户的偏好,方便后期的操作与查看,这里可将默认设定的语言修改为中文。

在这里插入图片描述
除了“语言设定”选项之外,首页页面还包括“新建项目”“ 打开项目”“ 导入项目”3个选项。
在这里插入图片描述
2. 增加内存
OpenRefine在Windows系统中默认分配1G内存空间,若处理的数据需要使用更大的内存空间,则可以通过配置文件增加OpenRefine所使用的内存空间。
通过修改openrefine.l4j.ini文件的配置项可以给OpenRefine工具增加内存空间。
在这里插入图片描述

注意:若使用2GB或更高的内存,需要将当前配置的Java环境版本升级至64位版本,否则会在编辑openrefine.l4j.ini文件后无法启动OpenRefine工具。

1.创建项目的步骤
在这里插入图片描述
以下是项目创建完成的页面:
在这里插入图片描述

值得一提的是,OpenRefine工具默认显示前10行数据,大家可通过单击页面上方“显示”选项后面的数字(5、10、25、50),来指定显示的行数。

2.如何使用OpenRefine工具操作列,常见的操作包括收起列、移动列和重排列、移除该列和移除列、重命名列
(1)收起列
默认情况下,项目中所有的列都是展开的,由于所有列的数据并非都需要被操作,其中不被操作的列可以手动收起,从而使项目界面变得清晰简洁。
在这里插入图片描述
(2)移动列和重排列
OpenRefine工具既支持一次移动单个列,也支持一次移动多个列,以达到重排数据列的目的。 OpenRefine工具支持4种移动列的方式,分别为“列移至开始”“列移至末尾”“左移列”和“右移列”。
在这里插入图片描述
移动列和重排列
在这里插入图片描述
(3)移除该列与移除列
OpenRefine工具中移除该列是对当前指定的单个列进行移除;移除列是对不需要的列进行批量移除。
在这里插入图片描述
在这里插入图片描述
(4)重命名列
如果列标题不能清晰明了地传递该列数据所代表的含义,可通过重命名列来重新定义列标题。
在这里插入图片描述
3.OpenRefine工具的撤销与重做功能
OpenRefine一个特别有用的功能是可以在项目创建后保存所有的历史操作步骤。单击页面左上角的【撤销/重做】按钮,可以看到自创建项目以来的全部步骤。
在这里插入图片描述
在这里插入图片描述
5.OpenRefine工具的导出数据功能
虽然OpenRefine项目支持移动、移除和重命名列操作,但是这些操作不会修改原始数据,之所以出现这种情况是因为OpenRefine会拷贝原始数据,若希望列操作在原始数据中生效,则需要将修改后的数据执行导出操作。
在这里插入图片描述

OpenRefine工具支持将数据导出为项目、 HTML表格、Excel文件、ODF电子表格等。需要说明的是,“导出项目”选项会将项目导出为openrefine.tar.gz格式的压缩包。

例如导出HTML表格:
在这里插入图片描述
除了前文介绍的导出方式之外,OpenRefine工具还提供了自定义表格导出器,使用自定义表格导出器可以实现指定导出数据及对导出数据进行排序的功能。
在这里插入图片描述

大家可以通过拖拽红框中的列标题来改变列标题的显示顺序,也可以通过取消勾选单选框来选择不导出哪些列的数据。

  • 选择需要保存的数据后,单击窗口上方的“下载”选项可切换至下载页面。
  • 在下载页面中,大家可以根据需求选择要保存的文件格式。
  • 单击下载页面右下方的“下载”按钮,会将以项目名称命名的文件下载到本地。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

越努力越幸运@

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值