数据科学案例化学习(julia版本)

前言

参考《数据科学实战手册》第2章中汽车燃油效率数据分析的过程,不过原书是用R来进行分析,这里我们通过julia来完成整个分析过程),同时我们也将会进行比原文进行更多的内容拓展, 并在文章中尽可能多地介绍julia进行数据操作的方法,以期达到既走完整个分析流程,又加深了大家对julia的深入了解。

文章中所显示的代码如无特殊说明,均指 julia 代码,且工作环境为JuliaPro编辑器。

数据科学工作流

根据过往的经验,笔者将数据科学工作的完整流程大致总结如下图所示:


但在日常工作具体的case中,往往可能只涉及其中某几个环节。

业务问题

在进行分析前,首先要明确自己面临的业务问题是什么,通过数据分析想回答一个什么样的问题,或者想证明或证伪一个什么结论。

本文中,我们能拿到的是美国环保部门对汽车燃油经济性的评估数据。我们分析的目标就是找到影响汽车燃油效率的因素有哪些,哪些类型的汽车燃油效率更高。

数据导入

源数据可以从 https://fueleconomy.gov/feg/download.shtml 下载。

在julia中数据操作往往需要引入DataFrames包,这是与R、python中类似的一个数据结构。

using DataFrames
readtable("~/Downloads/vehicles.csv",header=true)

readtable这个接口的详细说明如下图所示,其中最常用的就是文件名、是否包含字段名、文件分隔符这三个参数。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值