
大数据
越奋斗,越幸运
当你遇到困难时,你会如何去面对, 这将会决定你的人生最终能够走多远!
展开
-
14.Flink1.11 安装部署及Release 文档解读
Flink1.11 安装部署及Release 文档解读1. [Flink 1.11 Release 文档解读](https://ci.apache.org/projects/flink/flink-docs-release-1.11/release-notes/flink-1.11.html)1.1. 集群和部署1.2. 内存管理1.3. Table API/SQL1.4. 状态1.5. Connectors1.6. Runtime1.7. 各种接口变更1.x. 参考链接2. [构建安装部署](https:原创 2020-08-03 18:28:07 · 1809 阅读 · 11 评论 -
12. 离线处理之业务数据采集、生成用户画像、推广效果分析以及知识点总结
离线处理之业务数据采集、生成用户画像、推广效果分析以及知识点总结1. 业务数据采集1.1. 后台通过`logback`把业务接口日志写入到本地文件1.1.1. logback配置文件1.1.2. 拦截器当中记录接口日志1.1.3. 本地日志目录1.2. 通过Flume采集数据到Kafka1.3.2. 生成用户画像3. 推广效果分析4. 知识点总结4.1. Tomcat4.1.1. [Tomcat使用详细教程](https://blog.youkuaiyun.com/weixin_39657319/article/det原创 2020-07-21 18:37:07 · 2026 阅读 · 0 评论 -
2.ElasticSearch基础部分
ElasticSearch基础部分1. 通过Filebeat把日志传入到Elasticsearch1.1. [测试数据`apache-daily-access.log`获取;提取码`nin8`](https://pan.baidu.com/s/12IK4TXmgMeRsWIHUg_FOJw )1.2. 配置文件filebeat.yml1.3. 测试结果2. 通过logstash把Apache日志导入到Elasticsearch2.1. 配置文件filebeat.yml2.2. 配置文件logstash.ym原创 2020-06-29 11:19:27 · 422 阅读 · 0 评论 -
10. logback详解,Flink流处理案例及Hive和Hbase的整合
logback详解1. [logback的使用和logback.xml详解](https://www.cnblogs.com/warking/p/5710303.html)1.1. 按指定间隔滚动生成日志文件1.2. [logback指定某一包或者类下日志记录到不同文件中](https://blog.youkuaiyun.com/philip502/article/details/105268526/)1.3. [logback按日期和大小切分日志](https://blog.youkuaiyun.com/itjavaer/art原创 2020-06-08 11:50:50 · 18563 阅读 · 0 评论 -
9. Blink了解,任务调度工具azkaban,sbt下载jar包慢的原因,日志记录logback使用(sbt依赖排除)
Flink源码分析1. [Blink的初使用](https://www.jianshu.com/p/4f59e512b178)1. Blink的初使用注意: blink和flink的用法和部署差不多,只是底层做了优化,里面已经兼容了各个版本的hadoop了...原创 2020-05-08 18:22:18 · 512 阅读 · 0 评论 -
6. Flink编译及其相关软件的安装部署
文章目录1. Flink DataSet语义注解1.1. ForwardedFields转发字段1.1.1. 单输入算子转发字段1.1.2. 双输入算子转发字段1.2. Read Fields(读取字段注解)2. [Flink 1.10源代码编译,基于Flink release-1.10分支](https://blog.youkuaiyun.com/m0_37690267/article/details/1...原创 2020-03-17 18:18:43 · 1718 阅读 · 0 评论 -
5.Flink对接Kafka入门
Flink Connector Kafka1. Kafka1.1. [Kafka官网](http://kafka.apache.org/)1.2. Kafka 简述1.3. Kafka特性1.4. kafka的应用场景2. Kafka与Flink的融合3. 寄语:海阔凭鱼跃,天高任鸟飞1. Kafka1.1. Kafka官网1.2. Kafka 简述Kafka 是一个分布式消息系统:...原创 2020-03-10 20:11:30 · 12420 阅读 · 0 评论 -
4.Flink水印机制测试及状态介绍
Flink DataStream API 编程指南目录1. 概览2. Event Time and Watermarks2.1. [EventTime时间模型](https://www.jianshu.com/p/c39f224ec39f)2.2. 水印测试2.3. 延迟测试2.4. [再谈Flink事件时间、水印和迟到数据处理](https://www.jianshu.com/p/c612e95...原创 2020-03-06 18:20:02 · 647 阅读 · 0 评论 -
Spark和Flink当中的常用算子详解
文章目录1. Transformation算子2. Action算子1. Transformation算子2. Action算子原创 2020-03-06 11:40:02 · 1389 阅读 · 1 评论 -
14. spark学习之旅之structured streaming(八)
文章目录1. [structured streaming 官方文档](http://spark.apache.org/docs/2.4.5/structured-streaming-programming-guide.html)2. [Spark Structured Streaming官方文档解读](https://blog.youkuaiyun.com/bluishglc/article/details/...原创 2020-02-23 15:42:30 · 269 阅读 · 0 评论 -
13. spark学习之旅之streaming(七)
文章目录1. spark streaming概述2. DStream概述3. spark streaming 实现实时WordCount统计3.1. 架构图3.2. 源代码3.3. Window模式源代码(应用场景,每小时的流量统计,不累加)3.4. [依赖jar包容易犯的错;版本问题和scope问题](https://blog.youkuaiyun.com/devcy/article/details/996...原创 2020-02-23 11:12:11 · 265 阅读 · 0 评论 -
12.spark学习之旅之sparksql(六)
文章目录1. Spark SQL 概述2. [spark中 RDD、DataFrame、Dataset的关系及区别](https://blog.youkuaiyun.com/weixin_43231331/article/details/88946318)3. DataFrame概述3.1. DataFrame命令行操作1. Spark SQL 概述Spark SQL是Spark用来处理结构化数据的一...原创 2020-02-21 17:05:48 · 313 阅读 · 0 评论 -
11.spark学习之旅之hive(五)
文章目录1. hive概述1.1. 简介1.2. 为什么要使用hive1.3. hive的特点1.4. [架构](https://blog.youkuaiyun.com/u013595419/article/details/79632928)1.5. hive的基本操作1.6. hive的数据存储2. hive的安装部署2.1. [hive为什么要启用Metastore?](https://blog.csdn...原创 2020-02-20 17:50:02 · 310 阅读 · 0 评论 -
10. spark学习之旅之sbt(四)
文章目录1. scala中的项目管理工具sbt2. spark之rdd小案例1. scala中的项目管理工具sbt2. spark之rdd小案例原创 2020-02-17 17:59:03 · 1361 阅读 · 1 评论 -
9. spark学习之旅之scala(三)
文章目录1. scala简介1.1. 什么是scala1.2. 为什么要学习scala1.3. [Scala官网](https://www.scala-lang.org/)1.4. `Spark,Kafka,Flink都是由Scala语言编写`1.5. Java能做的,Scala都能做,Java不能做的,Scala也能做。Scala可以任意调用Java的接口1.6. Scala编译器和插件的安装...原创 2020-02-15 17:23:25 · 394 阅读 · 0 评论 -
8. spark学习之旅(二)
文章目录1. 弹性分布式数据集RDD1.1. 什么是RDD1.2. RDD的属性1.3. 通过RDD的转换方式对RDD详细解释1.4. 如何创建RDD1.5. Transformation和Action详解1.6. 常用的算子详细解释(==一天搞懂一个算子==)1.7. RDD的依赖关系和Stage划分1.8 集群运行原理1.9. 缓存Cache设置和CheckPoint设置2. RDD小案例2....原创 2020-02-13 16:55:42 · 280 阅读 · 0 评论 -
7.spark学习之旅(一)
文章目录1. [官网](http://spark.apache.org/)1.1. spark学习路线(技术人员的学习路线)1.2. 什么是spark?1.3. how(部署)1.4. standalone模式的spark集群搭建1.5. 运行spark-shell的两种方式1.6. yarn调度框架示意图1.7. 用api开发spark代码1.8. 提交任务到集群1. 官网1.1. spa...原创 2020-02-10 15:55:07 · 303 阅读 · 0 评论 -
6. Maven学习笔记
Maven简介Maven是Apache下的开源项目,项目管理工具,管理Java项目。1.1. 项目对象模型(Project Object Model)POM对象模型, 每个maven工程中都有一个pom.xml文件, 定义工程所依赖的jar包、本工程的坐标、打包运行方式。1.2. 依赖管理系统(基础核心)maven通过坐标对项目工程所依赖的jar包统一规范管理1.3. maven定义...原创 2020-01-02 10:34:27 · 188 阅读 · 0 评论 -
5. Java高级特性增强笔记
Java多线程基本知识1.1. 进程它是内存中的一段独立的空间,可以负责当前应用程序的运行。当前这个进程负责调度当前程序中的所有运行细节。1.2. 线程它是位于进程中,负责当前进程中的某个具备独立运行资格的空间。进程是负责整个程序的运行,而线程是程序中具体的某个独立功能的运行。一个进程中至少应该有一个线程。1.3. 多线程1.3.1. 概述在一个进程中,我们同时开启多个线程,让...原创 2020-01-02 10:31:59 · 227 阅读 · 0 评论 -
4. NoSQL之Redis学习笔记
1. Nosql介绍1.1. 一类新出现的数据库(not only sql),它的特点1.1.1. 不支持SQL语法1.1.2. 存储结构跟传统关系型数据库中的那种关系表完全不同,nosql中存储的数据都是KV形式1.1.3. NoSQL的世界中没有一种通用的语言,每种nosql数据库都有自己的api和语法,以及擅长的业务场景1.2. NoSQL产品种类1.2.1. Mongodb 文...原创 2020-01-02 10:24:51 · 304 阅读 · 0 评论 -
3. zookeeper总结
1. Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务zookeeper是为别的分布式程序服务的Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……虽然说可以提供各种服务,但是zookeeper在底层其实只提供了两个...原创 2019-12-31 18:21:20 · 168 阅读 · 0 评论 -
02.shell编程总结
Shell是用户与内核进行交互操作的一种接口,目前最流行的Shell称为bash ShellShell也是一门编程语言<解释型的编程语言>,即shell脚本<就是在用linux的shell命令编程>。一个系统可以存在多个shell,可以通过cat /etc/shells命令查看系统中安装的shell,不同的shell可能支持的命令语法是不相同的Linux Shell中...原创 2019-12-31 08:53:44 · 200 阅读 · 0 评论 -
01. Linux常用命令
pwd: 查看当前工作目录的全路径date +%Y-%m-%d 查看当前系统的时间date +%Y-%m-%d --date="-1 day" date +%Y-%m-%d --date="-1 month" date +%Y-%m-%d --date="-1 year"date -s “2016-05-23 01:01” 设置时间(重启后不生效)hwclock -w (...原创 2019-12-31 08:47:26 · 238 阅读 · 1 评论