- 博客(5)
- 收藏
- 关注
原创 Apache Spark 1.6.1 学习教程 - 回顾Titanic Data
这篇博客主要是利用Titanic dataset来简单演示pyspark 1.6.1的使用方法。 这组数据比较小,训练数据只有891行,训练、测试数据可以在这里下载(train.csv, test.csv)。内容数据加载和转化数据清理特征提取套用ml/mllib算法1. 数据加载和转化a. 数据加载当我们运行pyspark之后,SparkContect (sc)就同时运行了。 我们利用
2016-08-14 12:01:55
1607
原创 Tableau Vis - Intersection Filter
IntroIf you used Tableau before, you will know that the filters in Tableau are union/or selection. Let’s take the table below for example. If you are going to create a filter and select product a & b
2016-06-09 22:23:22
655
原创 浅析字母识别的算法
前言digit recogniser是另一个kaggle入门级别的比赛。这次,我将要介绍一下如何利用机器学习的算法实现图像识别。在这次比赛里,我们要求训练一个模型从像素数据辨认出图片中的数字。比赛中用到的数据包含:label: 从0至9的整数;features: pixel001-pixel784, 分别对应28x28图片的每一个像素的位置;每一个像素数据是0-255的整数,用来代表对应该像素
2016-05-02 11:27:29
5101
原创 利用R包ggmap进行空间可视化
ggmap 是在R环境里调用地图作用可视化的利器。它的语法结构跟ggplot2非常相似,也使R语言的用户可以迅速上手。 ggmap 结合 ggplot 可以方便快速绘制基于地图的可视化图表。下面的文章里,我将用两个例子 (”三藩市的犯罪记录” 和 “Taxi in Porto“) 演示一下它的使用。案例数据均取自kaggle。初步了解ggmapget_map: 是最基本的功能,可以用于从(goog
2016-05-01 11:38:23
17791
原创 泰坦尼克事件的生还研究
这是我第一次记录我学习数据科学的心路历程。让我们从最入基础的kaggle比赛说起吧。 在这个比赛里,我们的目标是利用已知船上乘客的信息(比性格,年龄,舱位等级),预测他们的生还。 Translated letter reveals first hand account of the “unforgettable scenes where horror mixed with sublime hero
2016-04-24 11:00:56
2365
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人