- 博客(7)
- 收藏
- 关注
原创 Dataset增加列(java版)
Dataset增加列(java版)代码: resultDS.withColumn(字段名,lit(字段值)); //或者 resultDS.withColumn(字段名,col(字段值)); //或者 resultDS.withColumn(字段名,column(字段值));这是java代码,lit(),col(),column()这些都是可以在java中用的,实际上sparksql有很多UDF函数可以直接这样写,需要哪个可以直接去源码里看看,在这个包下:import static or
2021-06-24 16:44:34
1268
原创 java代码提交spark程序(适用与和前端接口对接等)
java代码提交spark程序(适用与和前端接口对接等)最近项目需要springboot接口调用触发spark程序提交,并将spark程序运行状态发回前端,需要出一版接口代码。 百度了好多,但是实际测试都有bug,要么提交不上去,要么运行状态发不回去,于是结合百度的代码自己写了一版。废话不多说,直接上代码:pom文件:<dependencies> <dependency> <groupId>org.springframework.boot</group
2021-06-24 16:27:41
710
原创 记学习Flink遇到的坑(Java篇)
记学习flink遇到的坑1、keyby()中的“fields”有限定条件(以下类型不能作为key):1)POJO类,且没有实现hashCode函数2)任意形式的数组类型3)基本数据类型(int,long之类)(最重要的是如果你用了对象作为key,那么这个对象的属性必须是public的,并且在这个对象必须有public的无参构造方法,坑啊,当初找的flink官网的wordcount例子,到了自己电脑上还跑不通,找了半天毛病,官网上也不说清楚)2、在flink的batch处理中,‘count()’,
2020-08-14 15:24:59
1810
原创 CDH大数据集群搭建
简介CDH是cloudera公司开发的一个快速部署、高效管理Hadoop和其各种组件的一个商业化产品。主要分为两部分,分别为Cloudera Manager和CDH软件包。其中Cloudera Manager负责集群的部署与管理。CDH软件包囊括了hdaoop各类的组件的安装包,例如hive、hdfs、spark等等。由于实验室服务器集群实现了硬件虚拟化,要在虚拟资源重新搭建CDH集群。clo...
2019-08-15 11:31:03
750
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人