
Spark
文章平均质量分 78
胡卡卡啦啦
高冷的逗比,怕冷,爱笑,程序界的菜鸟
展开
-
使用Spark进行排名统计
使用Spark进行简单的数据统计 给定数据集为各年龄段不同性别的用户对电影观看情况的一个统计主要用了Spark中算子的一些操作 相关的数据文件 1. 年龄段在“18-24”的男性年轻人,最喜欢看哪10部 首先读取文件,在用户文件中读取符合条件的年轻人 val conf =new SparkConf().setAppName("read_gz_file...原创 2018-04-10 10:59:46 · 4116 阅读 · 0 评论 -
Spark文本挖掘机器学习实现
本文主要是通过招聘网站爬取的招聘信息对招聘信息进行分类结合文本相关spark 算法,包括spark中机器学习算法的使用,文本挖掘的一些方法,特征值的转换 给定文件的格式 ①.通过spark相关API将爬取到的数据进行处理,得到结构化的数据表 读取json文件并对其中的标点进行过滤 val conf = new SparkConf().setAppName("input")...原创 2018-04-11 17:56:59 · 925 阅读 · 0 评论 -
SparkMLlib随机森林实现pm预测(自定义函数的使用)
本文主要是用SparkMLlib中的一些算法来对PM进行预测,其中涉及了dataframe中对列使用自定义函数的操作,很方便!! 任务:读取pm.csv,将含有缺失值的行扔掉(或用均值填充)将数据集分为两部分,0.8比例作为训练集,0.2比例作为测试集 (1)使用month,day,hour,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir作为特征列(除去No,year,pm),...原创 2018-04-17 17:12:18 · 2489 阅读 · 13 评论