
数据挖掘&机器学习
文章平均质量分 75
iteye_3697
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
初识spark-基本概念和例子
前年的文章,备份 spark是一个开源的分布式计算系统,提供快速的数据分析功能。 官网地址 http://www.spark-project.org/ 据说性能高出hadoop很多(个人理解主要是因为两点:内存和cache),而且相对更加简单,灵活。非常适合需要反复迭代的计算,比如机器学习。 spark基于scala编写,对我而言也是门陌生的语言,至今还是有很多不理解的地方。 基本概念 ...2013-11-10 14:45:49 · 177 阅读 · 0 评论 -
Spark范例:统计优快云不同邮箱的密码白痴指数
前年的文章,备份 spark编写了一段统计优快云中不同邮箱的密码白痴程序,数据来源于最近被公布的csdn明文数据,以下代码重点是spark在编程性上的体验,性能上比较没有意思,这点数据单机都能计算,计算结果仅供娱乐。 感谢优快云提供这么好的数据样本 目前网上能找到的spark范例很少,这个算是扫盲吧。写这段代码过程顺便也熟悉了scala的各种写法。 代码主要分3部分: 1、白痴密码...原创 2013-11-10 14:47:28 · 461 阅读 · 0 评论 -
Spark范例:SortByKey
前年的文章,备份 spark自身不提供sortByKey的功能,但提供reduceByKey,groupByKey,combineByKey等功能。SortByKey常用于构建倒排索引上。 比如原始数据结构为(key1,4)(key1,3)(key1,7)(key1,1)需要转换成(key1,(1,3,4,7)) 我创建了一个简单的数据样本,保存到一个文件里sortByKey.txt。也可...原创 2013-11-10 14:48:50 · 241 阅读 · 0 评论