
初学大数据
小胖超凶哦!
睡觉了,别学了!
展开
-
违法行为分析1
违法行为分析原创 2022-07-06 17:01:52 · 388 阅读 · 0 评论 -
事故指标统计
事故指标统计原创 2022-07-05 15:20:56 · 619 阅读 · 0 评论 -
数据准备工作
数据准备工作原创 2022-07-04 21:40:22 · 2523 阅读 · 0 评论 -
checkpoint
checkpoint原创 2022-06-17 19:56:29 · 294 阅读 · 0 评论 -
缓存cache
缓存cache原创 2022-06-16 21:48:29 · 375 阅读 · 0 评论 -
mapPartitions
mapPartitions原创 2022-06-16 20:10:49 · 239 阅读 · 0 评论 -
Kafka的使用
Kafka的使用原创 2022-06-15 09:47:12 · 143 阅读 · 0 评论 -
Kafka的搭建
Kafka的搭建原创 2022-06-14 22:01:54 · 145 阅读 · 0 评论 -
常用的算子1
常用的算子原创 2022-06-15 20:30:54 · 102 阅读 · 0 评论 -
自定义MySQL Source
自定义MySQL Source原创 2022-06-13 20:09:01 · 292 阅读 · 0 评论 -
Spark跟Flink的区别、常见的Source
Spark跟Flink的区别、常见的Source原创 2022-06-13 19:25:26 · 160 阅读 · 0 评论 -
Flink开发环境搭建及WordCount
Flink开发环境搭建及WordCount原创 2022-06-10 20:24:52 · 193 阅读 · 0 评论 -
位置数据融合表3
位置数据融合表原创 2022-06-10 20:38:31 · 152 阅读 · 0 评论 -
在时间轴上进行聚类
在时间轴上进行聚类原创 2022-06-08 20:24:46 · 278 阅读 · 0 评论 -
位置数据融合表2
位置数据融合表原创 2022-06-07 20:05:52 · 341 阅读 · 0 评论 -
位置数据融合表1
位置数据融合表原创 2022-06-06 21:12:05 · 169 阅读 · 0 评论 -
开发环境搭建
开发环境搭建原创 2022-06-01 20:26:17 · 237 阅读 · 0 评论 -
DataX安装
DataX安装原创 2022-05-31 21:22:31 · 143 阅读 · 0 评论 -
CRM数据采集
CRM数据采集原创 2022-05-31 22:06:43 · 591 阅读 · 0 评论 -
flume安装配置
[root@master soft]# vim /etc/profilealias soft='cd /usr/local/soft/'[root@master soft]# source /etc/profile[root@master soft]# soft[root@master soft]# cd ~[root@master ~]# pwd/root[root@master ~]# soft[root@master soft]# pwd/usr/local/soft[.原创 2022-05-31 20:00:54 · 109 阅读 · 0 评论 -
采集OIDD数据
[ods@master ~]$ mkdir ctyun[ods@master ~]$ lsctyun students.txt[ods@master ~]$ cd ctyun/[ods@master ctyun]$ ls[ods@master ctyun]$ pwd/home/ods/ctyun[ods@master ctyun]$ mkdir oidd[ods@master ctyun]$ cd oidd/[ods@master oidd]$ ls[ods@master oidd].原创 2022-05-31 20:32:46 · 737 阅读 · 0 评论 -
权限的控制
[root@master ~]# cd /usr/local/soft/hadoop-2.7.6/[root@master hadoop-2.7.6]# lsbin include libexec logs README.txt shareetc lib LICENSE.txt NOTICE.txt sbin tmp[root@master hadoop-2.7.6]# cd etc/[root@master etc]# lshado.原创 2022-05-31 15:47:45 · 346 阅读 · 0 评论 -
大数据项目流程
大数据项目流程原创 2022-05-30 14:50:06 · 168 阅读 · 0 评论 -
人体的指标
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artifactId> <version>2.4.5</version></dependency>package com.shujia.mllibimport org.apache.spark.ml.{featur..原创 2022-05-25 21:08:51 · 107 阅读 · 0 评论 -
StructuredStreaming
package com.shujia.streamingimport org.apache.spark.sql.streaming.OutputModeimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object Demo05StructuredStreaming { def main(args: Array[String]): Unit = { //创建SparkSession val spar.原创 2022-05-24 10:58:47 · 109 阅读 · 0 评论 -
缉查布控操作
package com.shujia.streamingimport org.apache.spark.broadcast.Broadcastimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Durations, StreamingContext}...原创 2022-05-20 21:11:26 · 327 阅读 · 0 评论 -
滑动窗口操作
package com.shujia.streamingimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Durations, StreamingContext}object Demo03Window { def main(args: Array[String]): Unit = { /.原创 2022-05-20 19:22:30 · 292 阅读 · 0 评论 -
Action算子、Pi
package com.shujia.coreimport com.shujia.core.Demo10Join.Studentimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject Demo16Action { def main(args: Array[String]): Unit = { //常见的Action算子 //foreach take col.原创 2022-05-19 21:24:00 · 227 阅读 · 0 评论 -
有状态算子
package com.shujia.streamingimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Durations, StreamingContext}object Demo01WordCountOnStreaming { d...原创 2022-05-19 16:28:16 · 264 阅读 · 0 评论 -
SparkStreaming介绍及开发环境搭建
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.4.5</version></dependency>package com.shujia.streamingimport org.apache.spa...原创 2022-05-19 11:17:34 · 525 阅读 · 0 评论 -
aggregateByKey
aggregateByKey原创 2022-05-19 20:02:40 · 279 阅读 · 0 评论 -
GroupByKey VS ReduceByKey
package com.shujia.coreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo11Cartesian { def main(args: Array[String]): Unit = { //创建Spark Context val conf: SparkConf = new SparkConf() conf.setAppN.原创 2022-05-18 20:48:02 · 319 阅读 · 0 评论 -
决定RDD分区数因素、关联
package com.shujia.coreimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject Demo09Union { def main(args: Array[String]): Unit = { //创建Spark Context val conf: SparkConf = new SparkConf() conf.setAppName(.原创 2022-05-18 19:59:14 · 343 阅读 · 0 评论 -
SparkOnHive
package com.shujia.sqlimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo06SparkOnHive { def main(args: Array[String]): Unit = { /** * 通过enableHiveSupport()可以开启Hive的支持 * 需要在po.原创 2022-05-18 11:03:47 · 355 阅读 · 0 评论 -
Spark SQL写代码的几种方式
package com.shujia.sqlimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object Demo04DSL { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .buil.原创 2022-05-18 10:25:56 · 931 阅读 · 0 评论 -
Burks练习题、JD Log练习题
公司代码,年度,1月-------------------------12月的收入金额burk,year,tsl01,tsl02,tsl03,tsl04,tsl05,tsl06,tsl07,tsl08,tsl09,tsl10,tsl11,tsl12853101,2010,100200,25002,19440,20550,14990,17227,40990,28778,19088,29889,10990,20990853101,2011,19446,20556,14996,17233,40996,2..原创 2022-05-17 17:00:10 · 249 阅读 · 0 评论 -
DSL实现union、join、case when
package com.shujia.sqlimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object Demo04DSL { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName("Demo04DSL") .master.原创 2022-05-17 15:46:38 · 728 阅读 · 0 评论 -
DSL的基本使用
package com.shujia.sqlimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo04DSL { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName("Demo04DSL") .master("local") .原创 2022-05-16 22:00:19 · 834 阅读 · 0 评论 -
Spark SQL常用Source
package com.shujia.sqlimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object Demo03SourceAPI { //Spark SQL中常见的DataSourceAPI def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .a.原创 2022-05-16 20:27:17 · 327 阅读 · 0 评论 -
SparkSQL环境搭建、SQL VS DSL
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version></dependency>package com.shujia.sqlimport org.apache.spark.SparkContext...原创 2022-05-16 15:01:22 · 573 阅读 · 0 评论