数据导入与清洗:Clojure 实战指南
在数据分析过程中,数据的导入和清洗是至关重要的环节。本文将介绍如何使用 Clojure 进行数据导入和清洗,包括从不同格式的数据源聚合数据、使用正则表达式清洗数据、维护数据一致性、识别和去除重复数据等内容。
1. 聚合不同格式的数据源
在实际应用中,我们常常需要从多个数据源获取数据并进行整合。这里我们将结合 RDF 格式的货币数据和从 X-Rates 网站抓取的汇率数据,将它们存储到三元组存储中并进行查询。
1.1 准备工作
首先,确保 project.clj 文件包含以下依赖:
:dependencies [[org.clojure/clojure "1.4.0"]
[incanter/incanter-core "1.4.1"]
[enlive "1.0.1"]
[edu.ucdenver.ccp/kr-sesame-core "1.4.5"]
[org.clojure/tools.logging "0.2.4"]
[org.slf4j/slf4j-simple "1.7.2"]
[clj-time "0.4.4"]]
在脚本或 REPL 中声明使用这些库:
(require '(clojure.jav
超级会员免费看
订阅专栏 解锁全文
519

被折叠的 条评论
为什么被折叠?



