- 博客(38)
- 收藏
- 关注
原创 Spark Core
Spark Core第1章 Spark 概述Learn Roadmap:https://www.bilibili.com/video/BV11A411L7CK环境:spark3.0.0-bin-hadoop3.2.0.tgzscala 2.12.10hadoop-3.1.3.tar.gzhbase-2.0.5-bin.tar.gzzookeeper-3.5.7-bin.tar.gzflume-1.9.0-bin.tar.gzhive-3.1.2-bin.tar.gzphoenix-5
2021-01-04 09:40:01
765
原创 Centos7离线rpm安装MySQL-5.7.29【推荐】
Centos7离线rpm安装MySQL-5.7.29一.彻底卸载系统原装的MySQL1.查找mysql进程如果查到的结果不为空,则进入第2步卸载mysqlrpm -qa|grep -i mysql2.卸载mysql#停止mysql服务systemctl stop mysqld#删除软件命令rpm -e –nodeps $(rpm -qa|grep -i mysql)# 如果提示依赖包错误,则使用以下命令尝试:rpm -ev $(rpm -qa|grep -i mysql) --no
2020-11-16 12:21:06
2369
1
原创 Python3基础知识
Python3基础学习路线主要参照:菜鸟教程 和 Python教程2020版一.Python简介1. What is Python?Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。Python 是一种解释型语言: 这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。Python 是交互式语言: 这意味着,您可以在一个 Py
2020-11-11 15:03:17
4522
原创 Docker基础知识
Docker基础知识一.Docker概述1. Docker为什么出现?传统开发中的问题:一款产品:开发-上线 两套环境!应用环境,应用配置!开发-运维问题:我在我的电脑上可以运行!版本更新,导致服务不可用!对于运维来说,考验就十分大?环境配置是十分的麻烦,每一个机器都要部署环境(集群Redis、ES、Hadoop.………)!费时费力。发布一个项目(jar +(Redis MySQL jdk ES)),项目能不能都带上环境安装打包!之前在服务器配置一个应用的环境 Redis My
2020-10-29 11:23:23
2387
1
原创 Centos7安装Python3.7
Centos7安装Python3.7注意:全部操作都在root用户下执行1.安装编译相关工具yum -y groupinstall "Development tools"yum -y install zlib-develyum -y install bzip2-develyum -y install openssl-develyum -y install ncurses-develyum -y install sqlite-develyum -y install readline-deve
2020-10-21 16:54:18
239
原创 windows10部署mysql5.7.29
1. 下载并解压安装包https://downloads.mysql.com/archives/community/将下载后的文件解压到D:\develop目录下2. 创建配置文件在mysql根目录(D:\develop\mysql-5.7.29-winx64)下没有发现my.ini文件,我们需要创建一个my.ini文件并配置下面的内容,注意,红色字体要自定义去配置[Client]port = 3306 [mysqld]#设置3306端口port = 3306# 设置mysql的安
2020-10-21 16:51:34
238
原创 Centos7部署FastDFS(单机版)
Centos7部署FastDFS(单机版)1. 安装包下载与解压mkdir -p /baicdt/softwares/fastdfscd /baicdt/softwares/fastdfs# 获取libfastcommon安装包:wget https://github.com/happyfish100/libfastcommon/archive/V1.0.38.tar.gz# 获取fdfs安装包:wget https://github.com/happyfish100/fastdfs/ar
2020-10-21 16:38:36
661
1
转载 mysql2hive建表语句的转换
准备一张维度表:dim_ddl_convert,建表语句如下:DROP TABLE IF EXISTS `dim_ddl_convert`;CREATE TABLE `dim_ddl_convert` ( `source` varchar(100) NOT NULL, `data_type1` varchar(100) NOT NULL, `target` varchar(100) NOT NULL, `data_type2` varchar(100) DEFAULT NULL, `
2020-10-09 14:16:19
1288
原创 DataX数据同步测试
DataX数据同步测试一.MySQL全量数据同步1.MySQL建表-- ambari03.baicdt.com:3306/bitestdb root 123456USE `bitestdb`;DROP TABLE IF EXISTS `emp`;CREATE TABLE `emp` ( `id` int(11) DEFAULT NULL, `name` varchar(100) DEFAULT NULL, `deg` varchar(100) DEFAULT NULL, `s
2020-09-27 16:42:01
1169
原创 Apache Phoenix
Apache Phoenix更多phoenix操作: https://www.jianshu.com/p/a5c892f36188https://blog.youkuaiyun.com/qq1226317595/article/details/80375009?utm_source=blogxgwz0一.概述1. Phoenix定位 Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。Phoenix是一个HBASE SQL层(即为HBase的一个SQL引擎),用作应
2020-09-27 16:24:51
688
1
原创 Canal
Canal官网: https://github.com/alibaba/canal/canal是 阿里巴巴 的一个使用Java开发的开源项目它是专门用来进行 数据库同步 的目前支持 mysql 、以及(mariaDB)1、Canal原理Canal模拟mysql slave的交互协议,伪装自己为mysql slave向mysql master发送dump协议mysql master收到dump协议,发送binary log给slave(canal) 4. canal解析bi
2020-09-27 16:11:12
1299
1
原创 Clickhouse基础知识
Clickhouse快速入门本文参考以下博文:https://clickhouse.tech/docs/zh/ 【clickhouse中文社区文档】https://www.jianshu.com/p/5f7809b1965ehttps://blog.youkuaiyun.com/jmx_bigdata/article/details/108568278https://blog.youkuaiyun.com/jmx_bigdata/article/details/108719569一.Clickhouse简介Clic
2020-09-27 15:56:07
2923
1
原创 Centos7部署MySQL5.7
Centos7部署MySQL5.7文章目录Centos7部署MySQL5.7一.彻底卸载系统原装的MySQL1.查找mysql进程2.卸载mysql3.删除mysql目录和文件二.采用yum源安装MySQL5.71.设置yum源为阿里源2.下载并配置rpm安装包三.初始化配置1.本地登录并修改密码2.修改密码策略和默认编码3.用户远程登录配置四.其他常用操作1.创建新用户2.忘记root密码3....
2020-04-03 13:02:42
1179
1
原创 Centos7大数据环境配置
Centos7大数据环境配置文章目录Centos7大数据环境配置一.使用虚拟机准备三台服务器三.基础环境配置1.网络配置2.安装常用的插件3.关闭防火墙配置4.更改主机名5.配置hosts文件6.服务器免密码登录7.时间同步8.安装jdk一.使用虚拟机准备三台服务器IPHostCPUMemoryDisk192.168.52.100node01.hadoop.com...
2020-04-03 11:55:57
1295
1
原创 Centos7部署CDH6.3.2集群
Centos7部署CDH6.3.2集群文章目录Centos7部署CDH6.3.2集群一、简述二、环境准备1、硬件:2、软件包下载三、环境初始化1、关闭防火墙2、修改主机名3、配置hosts文件4、配置免密登录5、设置时间同步6、主节点hadoop01部署MySQL5.7第一步:彻底卸载系统原装的MySQL第二步:yum源设置为阿里源第二步:下载配置MySQL的rpm安装包第三步:安装mysql第...
2020-04-02 15:43:40
5523
7
原创 Redis
Redis文章目录Redis一.NoSQL数据库(一)产生Redis 命令背景(二)NoSQL数据库简介二.Redis基本介绍(一)Redis的特性(二)redis的适用场景三.Redis数据类型与命名(一)Redis中的数据类型(二)Redis 操作命令(熟悉)四Redis的javaAPI操作(一)String字符串操作(二)Hash列表操作(三)List集合操作(四)Set集合操作五.Red...
2019-12-14 21:11:39
3877
1
原创 Spark Streaming
Spark Streaming文章目录Spark Streaming一.Spark Streaming介绍(一)概述(二)基本原理二.Spark Streaming实战(一)WordCount1.准备2.Demo01[入门]3.Demo02[累加]4.Demo03[滑动窗口]三.模拟百度热搜排行榜三.Spark Streaming整合kafka(一)整合Kafka两种模式(二)代码演示(三)Ka...
2019-12-14 20:58:57
279
原创 Spark SQL
Spark SQL文章目录Spark SQL一.Spark SQL数据抽象(一)DataFrame(二)DataSet二.创建DataFrame(一)读取文本文件1.通过RDD转换构建2.通过SparkSession构建(二)读取json文件(三)读取parquet文件三.创建DataSet(一)createDataset创建(二)RDD.toDS(三)DF.as[泛型](四)DataSet注册...
2019-12-14 20:46:33
824
原创 Spark Core概括
Spark Core文章目录Spark Core一.RDD详解(一)为什么要有RDD?(二)什么是RDD(三)RDD的五大特性(四)RDD的算子分类(五)RDD的算子操作1.WordCount2.创建RDD3.查看RDD的分区数量4.map5.filter6.flatMap7.sortBy8.交集|并集|差集|笛卡尔积9.join10.groupByKey11.cogroup(了解)12.gro...
2019-12-14 20:34:18
854
原创 Spark快速入门
Spark快速入门一. Spark概述(了解)(一)Spark简介 Apache Spark是用于大规模数据处理的统一分析引擎。 Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。(二)Spark vs HadoopMapReduce框架采用非循环式的数据流模型, 中间计算结果存...
2019-12-14 20:17:17
343
1
原创 Demo:Es整合Hbase实现二级索引
Es整合Hbase实现二级索引文章目录(一)创建索引库(二)定义Article实体类(三)定义excel解析工具类(四)将数据存入ES(五)将数据写入Hbase(六)查询**需求:**解决海量数据的存储,并且能够实现海量数据的秒级查询。 生产中,一遍文章要分成标题和正文;但是正文的量是比较大的,那么我们一般会在es中存储标题,在hbase 中存储正文(hbase本身就是做海量数据的存储);...
2019-12-14 19:40:01
1122
1
原创 Elasticsearch的Java API操作
Elasticsearch的Java API操作文章目录Elasticsearch的Java API操作一.创建maven工程二.增删改索引(一)添加索引1.以json字符串形式添加索引2.使用map来构建索引3.使用XContentFactory添加索引4.将javaBean对象添加到索引库5.批量添加索引(二)更新索引(三)删除索引(四)删除索引库三.查询索引(一)普通API查询1.查询索引...
2019-12-14 19:34:47
497
1
原创 Elasticsearch快速入门
Elasticsearch快速入门文章目录Elasticsearch快速入门一.全文检索简介(一)传统做法(二)非结构化数据查找方法(三)如何实现全文检索(四)lucene实现全文检索流程二.ELK日志协议栈(一)集中式日志系统介绍(二)ELK协议栈介绍及体系结构(三)参考文档三.Elasticsearch介绍(一)什么是ElasticSearch(二)ElasticSearch使用案例(三)E...
2019-12-14 19:17:12
308
原创 Kafka快速入门
文章目录Kafka快速入门一.消息队列(一)消息队列介绍(二)常用的消息队列介绍1.RabbitMQ2.ActiveMQ3.RocketMQ4.Kafka5.常用消息队列对比(三)消息队列的应用场景1.异步处理2.应用耦合3.限流削峰4.消息驱动的系统(四)消息队列的两种模式1.点对点模式2.发布/订阅模式二.Kafka的基本介绍(一)Kafka简介(二)Kafka的好处(三)分布式的发布与订阅系...
2019-09-18 21:31:51
2728
原创 (九)HBase的协处理器
文章目录HBase的协处理器(一)协处理器起源(二)两种协处理器(三)协处理器加载方式(四)协处理器Observer实战1.HBase当中创建第一张表proc12.Hbase当中创建第二张表proc23.开发HBase的协处理器4.将项目打成jar包,并上传到HDFS上面5.将打好的jar包挂载到proc1表当中去6.向proc1表中添加数据7.卸载协处理器命令HBase的协处理器http:/...
2019-09-17 16:24:38
463
原创 (八)HBase的rowKey设计技巧
文章目录HBase的rowKey设计技巧(一)rowkey长度原则(二)rowkey散列原则(三)rowkey唯一原则(四)补充: 什么是热点1.加盐2.哈希3.反转4.时间戳反转HBase的rowKey设计技巧 HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HB...
2019-09-17 16:16:45
1108
原创 (七)HBase的预分区
HBase的预分区为何要预分区? 1.增加数据读写效率 2.负载均衡,防止数据倾斜 3.方便集群容灾调度region 4.优化Map数量如何预分区? 每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。如何设定预分区?手动指定预分区create 'st...
2019-09-17 16:11:55
327
原创 (六)HBase与Sqoop整合
文章目录HBase与Sqoop整合需求一:将mysql表当中的数据导入到HBase当中来需求二:将HBase当中的数据导出到mysql当中来HBase与Sqoop整合 sqoop是一个数据导入导出的工具,可以将关系型数据库当中的数据导入到大数据平台来,也可以将大数据平台当中的数据导入到关系型数据库当中去,我们也可以通过sqoop导入数据到hbase或者从hbase当中导出数据。需求一:...
2019-09-17 15:59:43
680
原创 (五)Hive与Hbase整合
Hive与Hbase整合文章目录Hive与Hbase整合一.Hive与Hbase对比二Hive与Hbase整合需求一:将hive分析结果的数据,保存到HBase当中去需求二:创建hive外部表,映射HBase中的表模型一.Hive与Hbase对比 https://blog.youkuaiyun.com/qq_32736999/article/details/83832376 Hive与H...
2019-08-30 00:24:42
944
原创 Flink快速入门
Flink快速入门文章目录Flink快速入门一.Flink介绍(一)Flink简介(二)对比Flink、Spark、Storm(三)Flink生态圈(四)编程模型二.Flink环境搭建(一)Standalone集群模式(二)高可用HA模式(三)YARN模式1.YARN Session模式2.分离模式三.批处理常用API(一)入门案例WordCount(二)Flink Source数据源(三)Fi...
2019-08-29 21:33:03
1364
原创 (四)HBase与MapReduce集成
文章目录HBase与MapReduce集成(一)读取HBase表写并入另一张HBase表中(二)读取HBase表写入HDFS上的File文件中(三)BulkLoad特性快速导入海量数据★★HBase与MapReduce集成 HBase当中的数据最终都是存储在HDFS上面的,HBase天生的支持MapReduce的操作,我们可以通过MapReduce直接处理HBase当中的数据,并且MapRe...
2019-08-28 09:21:13
838
原创 (三)HBase的Java代码开发
文章目录HBase的Java代码开发(一)创建表(二)删除表(三)向表中添加数据(四)删除数据(五)查询数据1.Get查询2.Scan查询3.RowFilter行键过滤器4.FamilyFilter列族过滤器5.QualifierFilter列过滤器6.ValueFilter值过滤器7.SingleColumnValueFilter单列值过滤器8.PrefixFilter前缀过滤器9.PageFi...
2019-08-28 09:15:20
1014
原创 (二)HBase的常用Shell操作
文章目录HBase常用shell操作(一)运行HBase(二)表操作(三)添加数据操作(四)查询数据操作★Get查询Scan查询(五)删除操作HBase常用shell操作(一)运行HBase1.启动HBase集群#在node01上执行cd /export/servers/hbase-1.2.0-cdh5.14.0bin/start-hbase.sh#进入HBase客户端命令操作界面...
2019-08-28 09:06:14
702
原创 (一)HBase理论基础
文章目录HBase理论基础(一)一.HBase基本介绍(一)HBase简介(二)HBase的特点★(三)HBase的使用场景(四)HBase和RDBMS的比较round四舍五入取整select round(3.14);(二)r指定精度取整select round(3.1415926,4);(三)rfloor向下取整函数select floor(3.8);(四)ceil向上取整select ceil(3.1415);select ceiling(3.1415);(五)取(0...
2019-08-15 01:40:16
956
原创 Hive SQL基础练习
Hive SQL准备文件:mkdir -p /export/temp/cd /export/temp/vim student.csv01 赵雷 1990-01-01 男02 钱电 1990-12-21 男03 孙风 1990-05-20 男04 李云 1990-08-06 男05 周梅 1991-12-01 女06 吴兰 1992-03-01 女07 郑竹 1989-07-...
2019-08-15 00:09:47
925
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人