前言
参考《数据科学实战手册》第2章中汽车燃油效率数据分析的过程,不过原书是用R来进行分析,这里我们通过julia来完成整个分析过程),同时我们也将会进行比原文进行更多的内容拓展, 并在文章中尽可能多地介绍julia进行数据操作的方法,以期达到既走完整个分析流程,又加深了大家对julia的深入了解。
文章中所显示的代码如无特殊说明,均指 julia 代码,且工作环境为JuliaPro编辑器。
数据科学工作流
根据过往的经验,笔者将数据科学工作的完整流程大致总结如下图所示:
但在日常工作具体的case中,往往可能只涉及其中某几个环节。
业务问题
在进行分析前,首先要明确自己面临的业务问题是什么,通过数据分析想回答一个什么样的问题,或者想证明或证伪一个什么结论。
本文中,我们能拿到的是美国环保部门对汽车燃油经济性的评估数据。我们分析的目标就是找到影响汽车燃油效率的因素有哪些,哪些类型的汽车燃油效率更高。
数据导入
源数据可以从 https://fueleconomy.gov/feg/download.shtml 下载。
在julia中数据操作往往需要引入DataFrames包,这是与R、python中类似的一个数据结构。
using DataFrames
readtable("~/Downloads/vehicles.csv",header=true)
readtable这个接口的详细说明如下图所示,其中最常用的就是文件名、是否包含字段名、文件分隔符这三个参数。