
大数据
文章平均质量分 58
LeiKe_
小小菜鸟~
展开
-
Flume-学习笔记分享
文章目录前言1.定义2.基础架构(列举比较常用的组件类型)3.官方案例(监控端口数据发送到logger)4.监控单个本地文件到logger (exec Source)5. 监控单个本地文件到HDFS (Flume需要持有Hadoop的相关jar包)(exec Source)6.监控本地文件夹下新文件到HDFS (Spooling Source)7.实时监控目录下的多个追加文件(taildirSource)8.Flume事务9.Flume Agent 内部原理:10.Flume联接11.案例: Flume之间原创 2020-11-19 10:15:36 · 682 阅读 · 1 评论 -
Flink-学习笔记分享
文章目录前言简单内部原理自定义数据源:常用算子总结前言提示:本文分享本菜鸟的Flink学习笔记。本文内容比较多。涉及实践的内容相对较多,原理性的东西比较少。初次写博客,写的比较乱,愿谅解。本人是大数据方面的菜鸟一枚。如果你有任何关于大数据方面的问题,都可以来与本菜鸡讨论。一起学习,一起进步!比心心 ~提示:以下是本篇文章正文内容,下面案例可供参考简单内部原理对比:SparkStreaming 批处理 批次最小时间0.5s,开窗口必须是500ms的倍数。Flink 微批次数原创 2020-11-11 13:44:04 · 1016 阅读 · 0 评论 -
Sqoop-学习笔记
文章目录前言1.Sqoop简介(1.4.6)2.原理3.JDBC驱动4.SqoopDemo4.1 MySQL->HDFS4.2 RDBMS -> HIVE4.3 RDBMS -> HBase4.3 HIVE / HDFS -> RDBMS5.脚本编写总结前言本文分享本菜鸟的Sqoop学习笔记。Sqoop能够实现Hadoop(hive)与传统数据库之间的数据传递。主要用于数仓(Hive)与数据库之间的数据传输。本菜鸟QQ:599903582笨鸟先飞,熟能生巧 ~比心心 ~原创 2021-01-12 09:46:06 · 1740 阅读 · 3 评论 -
docker搭建单节点CDH环境
基于docker搭建单机cdh环境,仅用于测试原创 2023-01-17 09:35:37 · 557 阅读 · 0 评论 -
CDH安装手册(自整理)
文章目录前言1.组件版本2.集群规划(三台服务器为例)3.配置linux静态IP4.修改hosts文件,并实现免密登录5.创建集群分发脚本6.关闭防火墙和SELINUX(所有节点)7.配置NTP时钟同步8.安装jdk和mysql9.搭建本地yum源并安装10.在数据库中建库11.启动服务12.访问网页及集群操作总结前言Cloudera’s Distribution Including Apache Hadoop。简称CDH,解决了原生Apache hadoop版本管理混乱、部署过程繁琐、升级过程复杂、原创 2021-01-09 14:20:59 · 2829 阅读 · 3 评论 -
Ambari2.7.4+HDP3.1.4安装-Centos7
文章链接:安装文章链接原创 2021-01-09 14:27:13 · 265 阅读 · 0 评论 -
基于docker搭建单机ambari+hdp环境
基于docker安装ambari+hdp环境,适用于测试环境;原创 2023-01-17 10:14:38 · 755 阅读 · 0 评论 -
Hive-学习笔记
文章目录前言(Hive 1.2.1)1.概念2.优缺点3.Hive架构原理4.运行机制5.Hive与数据库的比较6.Hive数据类型7.DDL数据定义8.DML数据操作9.查询10.函数11.压缩12.存储13.优化14.练习Demo总结前言(Hive 1.2.1)本文分享本菜鸟的Hive学习笔记Hive广泛应用于大数据数仓项目,是大数据必学技术之一。文章涉及的内容比较多,最好参照目录直接跳转。本菜鸟QQ:599903582比心心 ~提示:以下是本篇文章正文内容,下面案例可供参考1.概原创 2021-01-08 16:24:59 · 474 阅读 · 0 评论 -
ElasticSearch-学习笔记
文章目录前言1.简介2.Es与MySql的对比3.Es与其他数据存储组件比较4.特点5.倒排索引6.B+Tree7.ElasticSearch中的基本概念8.ElasticSearchRepository和ElasticSearchTemplate的使用9.FSCrawler(ElasticSearch的FS搜寻器。)10.RESTful API11.中文分词12.动态同义词(自定义)13.JavaAPI(实现ES的工具类,采用了高级API)总结前言本文分享本菜鸟的ElasticSearch笔记。内原创 2020-12-28 21:57:05 · 1855 阅读 · 3 评论 -
Canal-学习笔记分享
文章目录前言1.官方链接2.简介3.主从复制原理图4.canal 工作原理5.配置6.Canal的Java客户端7.资料链接总结前言本文分享本菜鸟的Canal学习笔记。Canal可以通过监控MySql的binlog日志实时监控MySql的数据变化,广泛引用于大数据实时处理领域。一起学习,一起进步。本人QQ:599903582笨鸟先飞,熟能生巧。比心心~提示:以下是本篇文章正文内容,下面案例可供参考1.官方链接https://github.com/alibaba/canal2.简原创 2020-11-27 15:11:53 · 271 阅读 · 0 评论 -
Zookeeper-学习笔记分享
文章目录前言1.概述2.工作机制3.Zookeeper特点4.数据结构5.应用场景6.选举机制7.命令操作8.监听器原理9.ZookeeperApi资料链接:总结前言本文分享本菜鸟的Zookeeper学习笔记。Zookeeper主要为集群组件协调工作提供服务。相对内容比较少。本菜鸟QQ:599903582笨鸟先飞,熟能生巧。比心心~提示:以下是本篇文章正文内容,下面案例可供参考1.概述为分布式应用提供协调服务的Apache项目2.工作机制设计模式来看: 观察者模式负责原创 2020-11-27 13:53:44 · 420 阅读 · 0 评论 -
Kafka-学习笔记分享
文章目录前言1.定义2.Kafka基本架构3.Kafka命令行操作4.Kafka工作流程5.topic的存储架构6.index文件和log文件详解7.分区8.数据的可靠性(副本)9.ISR10.ack应答机制11.故障处理12.实现Exactly Once13.Kafka消费者方式14.offset的维护15.Kafka高速读写数据16.Zookeeper在Kafka中的作用17.选举流程18.KafkaProducerApi原理19.Producer API20.Consumer API21.数据漏消费和原创 2020-11-25 16:06:43 · 821 阅读 · 3 评论 -
Spark-学习笔记分享
文章目录前言概述Spark和MR的数据处理流程对比Spark的组成示意图Spark模块Spark特点Spark的运行模式Spark官方测试案例SparkWebUISpark通用运行简易流程Spark核心概念RDD特点WordCount案例数据分区算子转换算子行动算子序列化血缘关系:RDD的持久化和检查点:RDD的分区器:文件数据的读取和存储广播变量:累加器:自定义累加器:案例:练习: 计算每个省份广告点击量的TopNSparkSQLRDD和DataFrame的交互:DataSetRDD、DataFrame、原创 2020-11-24 08:32:46 · 1364 阅读 · 0 评论