
每天demo
留歌留歌
只要最后那个人是你,晚一点也没关系
展开
-
WordCount程序【Spark Streaming版本】
~~ 前置 ~~ Spark Streaming 常常对接 :本地文件、HDFS、端口、flume、kafka package february.streaming import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} /** * ...原创 2019-02-22 16:48:53 · 335 阅读 · 3 评论 -
数据零丢失 + 仅一次消费数据【终极方案】
import java.sql.{DriverManager, ResultSet} import kafka.common.TopicAndPartition import kafka.message.MessageAndMetadata import kafka.serializer.StringDecoder import org.apache.commons.lang3.StringU...原创 2019-08-16 16:27:34 · 282 阅读 · 0 评论 -
spark 各种骚操作 之日志统计分析 机会终于来了系列
import org.apache.spark.{SparkConf, SparkContext} /** * Description: 日志统计分析 * .collect().foreach(println) * .take(10).foreach(println) * * * 分隔符 , *map()是对每一行数据进行操作 *reduceByKey()是将相...原创 2019-08-02 16:52:50 · 513 阅读 · 0 评论 -
多文件的wc程序【java版】
package sanjin; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.SparkSession; import scala.Tuple2; import java.util.Array...原创 2019-03-08 09:40:48 · 243 阅读 · 0 评论 -
External DataSource 之parquet【Spark SQL】
package february.sql import org.apache.spark.sql.SparkSession /** * * ====== Spark SQL默认处理的format是parquet ==== * Description: Parquet 文件操作 * * 处理parquet数据 * spark.read....原创 2019-03-04 18:44:44 · 252 阅读 · 0 评论 -
csv数据文件清洗【DataFrame】
package march.sql import org.apache.spark.sql.SparkSession /** * Description: TODO * * @Author: 留歌36 * @Date: 2019/3/6 8:57 */ object AllHouseAPP { def main(args: Array[String]): Unit =...原创 2019-03-07 08:58:44 · 1502 阅读 · 0 评论 -
DataFrame 转换为Dataset
写在前面: A DataFrame is a Dataset organized into named columns. A Dataset is a distributed collection of data. 贴代码: package february.sql import org.apache.spark.sql.SparkSession /** * Description: ...原创 2019-02-27 09:39:03 · 3475 阅读 · 0 评论 -
HiveJdbcClient的操作 【Hive】
import java.sql.*; /** * Description: HiveJdbcClient的操作 * 修改默认的hiveserver2的启动端口: * $HIVE_HOME/bin/hiveserver2 --hiveconf hive.server2.thrift.port=14000 * $HIVE_HOME/bin/beeline -u jdb...原创 2019-03-05 19:25:49 · 400 阅读 · 0 评论 -
基于RDD实现简单的WordCount程序【含环境搭建】
写在前面 因为觉得自己的代码量实在是太少了,所以,想着,每周至少写5个小的demo程序。现在的想法是,写一些Spark,Storm,MapReduce,Flume,kafka等等单独或组合使用的一些小的Demo。 然后,我会尽力记录好,自己编码过程中遇到的问题,方便自己巩固复习。 废话不多说,我们直接干吧。 开发环境 本地开发 工具 版本 Spark 2.2.0 Scala 2...原创 2019-02-21 10:45:58 · 829 阅读 · 0 评论 -
RDD转换为DataFrame【反射/编程】
先贴代码 package february.sql import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType} import org.apache.spark.sql.{Row, SparkSession} /** * Description: ============Spark...原创 2019-02-25 20:32:54 · 504 阅读 · 0 评论 -
基于API和SQL的基本操作【DataFrame】
写在前面: 当得到一个DataFrame对象之后,可以使用对象提供的各种API方法进行直接调用,进行数据的处理。 // =====基于dataframe的API=======之后的就都是DataFrame 的操作了============== infoDF.show() infoDF.filter(infoDF.col("age") > 30).show() 另,也可以...原创 2019-02-27 14:58:13 · 395 阅读 · 0 评论 -
Spark Streaming 整合Kafka的 Offset 管理 【数据零丢失之 checkpoint 方式管理Offset】
import kafka.serializer.StringDecoder import org.apache.spark.SparkConf import org.apache.spark.streaming.kafka.KafkaUtils import org.apache.spark.streaming.{Duration, Seconds, StreamingContext} /** ...原创 2019-08-16 16:33:01 · 559 阅读 · 0 评论