
spark
文章平均质量分 58
Tardis1
奋斗
展开
-
运行 Spark错误 A master URL must be set in your configuration
A master URL must be set in your configuration:在linux上面run java写的代码的 时候,报错,应该增加如下部分:hadoop为master的别名原创 2017-08-27 23:24:29 · 1000 阅读 · 0 评论 -
System memory 249364480 must be at least 471859200
我是在eclipse run遇到这个问题的,所以解决办法是来到这里加上:表示运行的时候虚拟空间最小为128,最大为512原创 2017-08-27 23:31:58 · 1993 阅读 · 0 评论 -
Spark 自带demo学习日志
the way that to build the RDD (1) generate from the folder : offer the folder path which has been upload the hdfsSparkSession spark = SparkSession .builder() .appName("JavaHdfsLR").master("原创 2017-09-01 23:39:32 · 608 阅读 · 0 评论 -
Spark 自带 demo 的学习总结
1.the way that to build the RDD(1) generate from the folder : offer the folder path which has been upload the hdfsSparkSession spark = SparkSession .builder() .appName("JavaHdfsLR"原创 2017-09-02 10:35:22 · 932 阅读 · 0 评论 -
Spark Java 用 KMeans算法实现图片压缩
压缩前:981 KB 压缩后:111 KB 思路: 取得图片每一点的像素,组成向量Vector如下:(w,h,R,G,B); 设置目的K值,训练所有点,获得KMeansModel; 此遍历所有的点,利用模型预测每个点属于哪个 中心点,同时改变这个点的R,G,B值使这个点的颜色 与这个点所在的集合相同; 重新利用收集的数据画出图片。一共需要两个类,一个处理跟图片相关,一个处理KMean原创 2017-09-21 11:50:04 · 1227 阅读 · 0 评论 -
Sprak Java 推荐算法的思路和实现
推荐算法在org.apache.spark.ml.recommendation 或者org.apache.spark.mlib.recommendation下面相比于org.apache.spark.mlib.recommendation面向RDD算子来计算,org.apache.spark.ml.recommendation面向DataFrame来计算,往后spark会逐渐采用datafra原创 2017-12-02 16:15:41 · 10688 阅读 · 0 评论 -
Spark----管道的概念与例子
一、管道的概念 学习来源:Spark官网对管道的描述 1、管道的几个基本概念: (1)DataFrame:其实就是DataSet的集合,可以理解为,dataset为某张表里面的一行,那么行的集合就是一张表,所以dataFrame就是一张表,但是表的field比较丰富,可以有向量,在很多算法里面,向量的使用是必不可少的; (2)Transformer:作用就是将DataFrame A 变成 D原创 2017-12-11 23:12:41 · 1827 阅读 · 0 评论 -
决策树、随机森林的思路和spark实现
一、决策树 1、概念 2、构造决策树的思路流程 算法名:Generate_decisione_tree D:表示所有数据的集合 attribute_list,代表所有数据中属性的集合 Attribute_selection_method: 表示通过某个方法,得到进行分类的最适合的属性 3、如何实现Attribute_selection_method (1)使用信息增益的ID3原创 2017-12-26 15:24:51 · 790 阅读 · 0 评论 -
随机森林做用户扩散模型
背景:数据:特征处理:模型设置:调参:效果:原创 2019-03-29 13:53:26 · 446 阅读 · 0 评论