上一篇:《Using OpenRefine》翻译~1
OpenRefine支持的文件类型
以下是部分OpenRefine支持的文件格式:
●csv、tsv及其他*sv
●xls/xlsx、cdf、ods
●JSON
●XML
●行文本格式(比如log文件)
如果你需要打开其他格式文件,你可以通过OpenRefine扩展功能打开。
创建OpenRefine项目十分简单,只需要三步:选择文件、预览数据内容、确认创建。让我们通过点击“创建项目”标签页、选择数据集、点击下一步来创建新项目。
虽然我们鼓励你在OpenRefine中使用你自己的数据集,不过使用本书中的例子可能学习起来更高效。为了能够做到这点,案例中的数据均基于悉尼的PowerhouseMuseum组织,可以登录账户并在http://www.packtpub.com中下载(chapter1.tsv)学习,后续章节数据也可以下载获得,如何你是从其他地方购买本书,你也可以在http://www.packtpub.com/support注册并通过email获得本书数据。 |
下一步你会看到一个数据集预览界面,在右侧底部,你可以看到如下数据解析选项界面:
默认情况下,第一行数据会被解析为列名称,我们使用的Powerhouse数据集中的数据也显然符合首行为列名称。OpenRefine同时也会猜测单元格类型,给其赋予整数、日期、网址等等,这在你后续整理排列数据的时候十分有用(比如如果你将单元格设为文本格式,那么10就会排在2前面)
另一个选项是“引号在原数据中用来分隔列”选择项,如果选中,则原数据中引号用来分隔列,否则就需要去掉勾选框以使得OpenRefine能够正确读取。在Powerhouse数据集中,引号是用来表明物体名称和说明信息,所以此情况下,引号没有分隔列的意思:所以这里我们需要去掉勾选。剩下的选项在某些情况下需要设置,试着勾选或者去掉勾选来看看如何影响数据。另外,请确保编码正确,以使得显示正确。当所有都设置好后,点击创建项目来加载数据。
要点3:探索数据
本点中,你将通过查看数据界面的所有区域:总行数、不同的显示参数、列名称及菜单、实际单元格数据来探索数据。
一旦你的数据被加载,你将获得类似如下的界面内容:
上图中标明1~4的四个区域,我们按照顺序介绍:
1、总行数:如果你没有忘记去掉“引号有意义”选项(参照要点2-创建一个新项目),那么你会看到Powerhouse文件包含75814行数据。当数据按照某个参数进行过筛选,这里的显示会变成类似于找到123匹配行(总共75814行)。
2、显示选项:试着点击下,将行变成记录来查看区别,事实上变化并不大,只不过该区域显示为75814条记录而已。行数量一般情况下等于记录数量,但在后续情况中还是不一样的。该区域可以让你选择按5、10、25、50每页显示,并且你也可以在这里跳转页。
3、列名称及菜单:你会发现数据加载后的第一行被解析为列名称,在Powerhouse数据集中,列包含Record ID, Object Title, Registration Number等等(如果你在创建时去掉了“将第一行解析为列名称”的勾选,那么列名称区域会显示为Column1、Column2等等)
4、单元格内容:此处显示实际单元格数据
在开始剖析清理数据前,十分重要的一点是确保OpenRefine较好的载入显示了数据:查看列名称被解析正确(数据显示较宽时请使用水平滑动条)、单元格类型是否正确等等。将行显示项改为每页显示50条以查看数据不明显矛盾(理想情况下,你应该在创建项目前的预览界面时处理这些工作)。当你已经熟悉了操作界面,你就可以继续下一步了。