
spark
zhsc
心血来潮,看看自己能坚持多久
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark Dataset<Row>的合并 将本地数据转换为spark的 Dataset<Row>类型
由于项目需要,要自己写一个数据转换接口。将Dataset<Row>传入本地算法进行处理,将经过本地算法处理后的行列数据转换为Dataset<Row>返回。 1、获取Dataset<Row>数据到本地 使用list获取数据: List<Row> list = dataset.collectAsList(); in...原创 2019-11-18 21:46:10 · 3218 阅读 · 1 评论 -
Spark VectorAssembler将多列合并成features
VectorAssembler dealWithFeatures = new VectorAssembler(); data = dealWithFeatures.setInputCols(inputColumns).setOutputCol("features").transform(data);原创 2019-11-16 14:24:35 · 831 阅读 · 0 评论 -
基于spark框架实现的随机森林例子
数据处理: Dataset<Row> dataset = datasets[0]; Dataset<Row>[] splits = dataset.randomSplit(new double[]{0.7, 0.3}); Dataset<Row> training = splits[0]; Da...原创 2019-11-10 11:38:04 · 499 阅读 · 0 评论 -
Spark dataset操作
1、dataset显示 dataset.show(7); 2、获取dataset所有列的列名 String[] columns = dataset.columns(); 3、选取特定的列显示 dataset.select(columns[0],columns[1],columns[2],columns[3]).show() 4、将dataset转换为list List<...原创 2019-11-16 13:55:09 · 1002 阅读 · 0 评论