Gadaite-优快云博客

原创 Part6--Hive数据导出

准备数据SELECT * FROM audi;1.使用insert 导出1.1 导出数据到本地INSERT overwrite local directory '/root/data/auditmp' SELECT * FROM auditmp ; 在Linux上查看导出结果(base) [root@192 data]# ll *audi*-rw-r--r--. 1 root root 534089 4月 22 06:00 audi_202204220558.csvauditm

2022-04-23 20:29:05 2721

原创 Part5--Hive数据导入

准备工作先将表中的数据清除，由于是external修饰的外部表不能直接使用truncate删除表中数据，否则报错INSERT overwrite table audi select * from audi WHERE `model` = NULL ;SELECT * FROM audi ;1.load加载数据1.1 从本地读取数据使用local表示从系统导入数据load data local inpath "/root/data/audi_202204220558.csv" i

2022-04-23 20:26:49 2043

原创 Part4--Hive数据表

1.创建表1.1 SQL模板CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORT

2022-04-22 12:36:35 1700

原创 Part3--Hive数据库

1.数据库1.1 创建数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.dbcreate database if not exists Test;1.2 创建指定HDFS上的位置CREATE database if not exists Testother location '/20220421.db'; 1.3 修改数据库使用 ALTER DATABASE 命令为某个数据库的 DBPROPERTIES 设置键-值对属性值，来描述这个

2022-04-22 12:25:13 2195

原创 Part2--Hive数据类型

1.基本数据类型HIVEMySQLJAVA长度例子TINYINTTINYINTbyte1byte有符号整数2SMALINTSMALINTshort2byte有符号整数20INTINTint4byte有符号整数20BIGINTBIGINTlong8byte有符号整数20BOOLEAN无boolean布尔类型，true或者falseTRUE FALSEFLOATFLOATfloat单精度浮点数3.1415

2022-04-22 12:24:03 150

原创 Part1--Hive参数设置

1查看当前所有的配置信息hive>set;2参数的配置三种方式（1）配置文件方式默认配置文件：hive-default.xml用户自定义配置文件：hive-site.xml注意：用户自定义配置会覆盖默认配置。另外，Hive也会读入Hadoop的配置，因为Hive是作为Hadoop的客户端启动的，Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启动的所有Hive进程都有效。（2）命令行参数方式启动Hive时，可以在命令行添加-hiveconf param=value来设定参

2022-04-22 12:22:47 287

原创 Part9---Java查询Hbase数据

查询Hbase数据分为Get方式查询，Scan方式查询，Scan配合Filter过滤查询01.Get方式查询import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.clie

2022-04-17 03:04:21 6222 1

原创 Part8---Java删除Hbase数据

01.查看原始表02.删除Hbase数据2.1 删除指定行键的整条记录import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connection;import org.apache.hadoop.hbase.client.ConnectionFactory;import org.apache.hadoo

2022-04-17 03:03:17 1608

原创 Part7---Java更新Hbase表的数据

01.原始数据hbase shell中：hbase(main):011:0> scan "Gadaite"ROW COLUMN+CELL 001 column=F1:F11, timestamp=1650130559218, value=F1.F11 001 col

2022-04-17 03:01:23 1375

原创 Part6---Java创建Hbase表

01.先查看HBase中表(base) [root@192 ~]# hbase shellHBase ShellUse "help" to get list of supported commands.Use "exit" to quit this interactive shell.For Reference, please visit: http://hbase.apache.org/2.0/book.html#shellVersion 2.1.1, rb60a92d6864ef272950

2022-04-17 03:00:27 1552 1

原创 Part5---Java连接HBase读取数据

01.加载maven依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>2.1.1</version></dependency>02.准备数据在dbeaver上显示为：03.连接读取数据 hbase.zookeeper.quoru

2022-04-17 02:59:35 2002

原创 Part4---Phoenix映射Hbase的表

问题情况，在使用phoenix操作hbase的表的时候出现phoenix无法读取从hbase中创建的表：比如通过hbase shell 创建了表：StudentAndCourse 通过Phoenix(也可以使用dbeaver连接phoenix)创建表：STUDENT在habase shell中的表的包含STUDENT，也包含StudentAndCoursehbase(main):004:0> listTABLESTUDENTSYSTEM.CATALOGSYSTEM.CHILD_

2022-04-17 01:20:10 883 1

原创 Part3---HBase更新删除表,使用dbeaver结合Phoenix操作

更新Hbase的数据：01.数据准备先查看原始Hbase里面的数据情况hbase(main):012:0> scan "Gadaite"ROW COLUMN+CELL 001 column=F1:F11, timestamp=1649858571999, value=F1.F11 001

2022-04-17 01:18:24 1712

原创 Part2---Phoenix安装配置

目的：使用dbeaver连接Hbase01.解压安装并拷贝到HBase的lib目录(base) [root@192 phoenix-hbase-2.1-5.1.2-bin]# lsbin docs examples LICENSE NOTICE phoenix-client-hbase-2.1-5.1.2.jar phoenix-pherf-5.1.2.jar phoenix-server-hbase-2.1-5.1.2.jar(base) [root@192 phoenix-hbas

2022-04-17 01:15:03 1660 3

原创 Part1---Hbase安装配置

01.下载hbase解压生成文件hbase-2.1.1(base) [root@192 opt]# ls -al总用量 2526012drwxr-xr-x. 19 root root 4096 4月 12 17:04 .dr-xr-xr-x. 18 root root 236 3月 25 07:58 ..drwxr-xr-x. 10 root root 184 3月 23 13:42 apache-hive-2.3.9-bin-rw-r--r--. 1

2022-04-17 01:12:06 250

原创解决Idea因为语言水平(Language level)语法报错和编译器(java compiler)运行报错

问题描述：我很确定自己使用的java版本是1.8，我一直都用的这个版本，但是使用java写flink的时候出现如下情况：虽然可以自己定义一个接口去实现，但是以前写Scala的我，还是觉得写隐函数比较习惯一点定位问题：step1：看一下configurations的信息，确定一下使用的JRE版本，使用的默认的1.8step2：看一下项目结构使用的Language level 这里语言水平居然是用的 7-Diamonds,ARM,multi-cath etc 先修改语

2022-04-08 03:15:52 7866 2

原创 kafka+Spark+Hive+Hdfs模拟实时数据接入并汇总输出

目的：模拟数据不断写入，同时不断处理01.启动相关的服务 Hdfs文件系统 Zookeeper服务 Kafka(主题，生产，消费) Hive数仓(元数据库mysql) Spark能够直接sql操作Hive，不然使用jdbc方式(base) [root@192 ~]# jps3200 SecondaryNameNode2835 NameNode5011 ConsoleProducer85045 Jps2998 DataNode4390 QuorumPeerMain45

2022-04-01 15:19:54 3967

原创 python实现kafka生产以及sparkstream消费

01.启动zookeeper，启动Kafka，创建Kafka主题，kafka生产者，kafka消费者详见之前文章：http://t.csdn.cn/JRFRs02.使用python语言，对Kafka进行数据的写入from kafka import KafkaProducerfrom kafka.errors import KafkaErrorproducer = KafkaProducer(bootstrap_servers='192.168.1.10:9092')while True:

2022-04-01 10:22:19 3126 2

原创 KafKa安装配置

Kafka单机模式配置，非集群01.解压安装：(base) root@LAPTOP-P1LA53KS:/mnt/e# tar zxvf kafka_2.11-2.4.0.tgz ^C(base) root@LAPTOP-P1LA53KS:/mnt/e# pwd/mnt/e(base) root@LAPTOP-P1LA53KS:/mnt/e# ls'$RECYCLE.BIN' Scala-2.11.0 conda-env

2022-03-31 22:01:27 604

原创 Flink安装配置(单机)

Flink安装配置，单机版：01.下载如下安装包flink-1.6.3-bin-hadoop27-scala_2.11.tgz：(SSpark) root@LAPTOP-P1LA53KS:/mnt/e# ls -alls: 'System Volume Information': Permission deniedls: WindowsApps: Permission deniedtotal 1786428drwxrwxrwx 1 root root 4096 Jan 16 11:19

2022-03-31 21:58:53 2561 1

原创 Zookeeper安装配置(单机)

Zookeeper单机模式配置，非集群对外服务端口：2181 dataDir：/mnt/e/ZookeeperData01.解压安装位置/mnt/e/zookeeper-3.4.1402.配置环境变量，添加内容：#zookeeperexport ZOOKEEPER_HOME=/mnt/e/zookeeper-3.4.14export PATH=$ZOOKEEPER_HOME/bin:$PATH03.复制原有文件，生成一份新的cfg文件：cp zoo_sample.cfg zoo

2022-03-31 21:57:21 2365

原创 pyspark结合kafka实现wordcount

I.Kafka的生产消费01.启动Zookeeper(base) [root@192 ~]# cd $ZOOKEEPER_HOME(base) [root@192 zookeeper-3.4.14]# cd bin/(base) [root@192 bin]# lsREADME.txt zkCleanup.sh zkCli.cmd zkCli.sh zkEnv.cmd zkEnv.sh zkServer.cmd zkServer.sh zkTxnLogToolkit.cmd zk

2022-03-31 21:47:35 1091

原创 pyspark读取hdfs文件并导入到hive中

01.创建对象,设定日志级别from pyspark.sql import SparkSessionspark = SparkSession.builder.config("spark.driver.host","192.168.1.10")\ .config("spark.ui.showConsoleProgress","false")\ .appName("hdfs_hive").master("local[*]").enableHiveSupport().getOrCreate()

2022-03-25 16:04:50 5339

原创解决Spark读取Hive的数据库，只能读取到default

问题原因：按照网上的诸多博客等想使用Spark直接读取Hive，但不使用Hivejdbc的方式，在导入两个xml之后只能读取到default这个数据库，按照诸多网上的教程，修改xml还是未能起到作用(hive不能称为一个数据库，只是习惯了，下次一定改)01.文件拷贝上传core-site.xml,hive-site.xml到spark/conf目录下，core-site.xml在Hadoop种，hive-site.xml在hive中(base) [root@192 conf]# ls -al

2022-03-25 11:56:43 4432 1

原创解决docker中数据库时间与当前时间不吻合

01.问题排查1.使用mysql数据库查询当前日期的时候发现时间并不吻合select CURRENT_DATE(),CURRENT_TIME(); 2.数据库的配置问题在window11系统上，使用VMware Workstation软件，配置的虚拟机虚拟机系统为centos7，配置有docker容器。并在docker容器中配置的mysql数据库(base) [root@192 ~]# docker psCONTAINER ID IMAGE

2022-03-13 17:48:23 2721

原创 mysql索引的创建删除

01.索引创建、删除与使用：1.1 create方式创建索引：CREATE [UNIQUE -- 唯一索引 | FULLTEXT -- 全文索引 ] INDEX index_name ON table_name -- 不指定唯一或全文时默认普通索引 (column1[(length) [DESC|ASC]] [,column2,...]) -- 可以对多列建立组合索引 1.2 alter方式创建索引：ALTER TABLE tb_name ADD [UNIQUE | FULLT

2022-03-13 01:41:06 1587

原创 mysql创建修改删除表

01.创建表的样例1.1 直接创建表：CREATE TABLE[IF NOT EXISTS] tb_name -- 不存在才创建，存在就跳过(column_name1 data_type1 -- 列名和类型必选 [ PRIMARY KEY -- 可选的约束，主键 | FOREIGN KEY -- 外键，引用其他表的键值 | AUTO_INCREMENT -- 自增ID | COMMENT comment -- 列注释（评论） | DEFAULT default_value

2022-03-12 19:16:43 1419

原创 HDFS简单操作，java语言操作hdfs

01.启动hdfs(base) [root@192 ~]# cd $HADOOP_HOME(base) [root@192 hadoop-2.7.7]# lsbin etc include lib libexec LICENSE.txt logs NOTICE.txt README.txt sbin share(base) [root@192 hadoop-2.7.7]# cd sbin/(base) [root@192 sbin]# lsdistribute-exclu

2022-03-12 09:51:51 740

原创 Hadoop，HDFS文件系统单机环境配置

01.添加hadoop用户组到系统用户安装前要做一件事添加一个名为hadoop的用户到系统用户，专门用来做hadoop测试(base) root@Windows-2021WEO:/mnt/e/win_ubuntu/envs# sudo addgroup hadoopAdding group `hadoop' (GID 1000) ...Done.(base) root@Windows-2021WEO:/mnt/e/win_ubuntu/envs# sudo adduser --ingroup

2022-03-12 09:29:14 14375 1

原创 Pyspark回归--IsotonicRegression

IsotonicRegression保序回归class pyspark.ml.regression.IsotonicRegression(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, weightCol=None, isotonic=True, featureIndex=0)目前使用并行池相邻违规者算法实现。仅支持单变量（单一特征）算法featureIndex = Param(parent=‘undefine

2022-03-12 09:07:07 430

原创 Pyspark回归--AFTSurvivalRegression

AFTSurvivalRegressionclass pyspark.ml.regression.AFTSurvivalRegression(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, fitIntercept=True, maxIter=100, tol=1e-06, censorCol=‘censor’, quantileProbabilities=[0.01, 0.05, 0.1, 0.25, 0.5,

2022-03-12 09:06:26 423

原创 Pyspark聚类--PowerIterationClustering

PowerIterationClusteringclass pyspark.ml.clustering.PowerIterationClustering(k=2, maxIter=20, initMode=‘random’, srcCol=‘src’, dstCol=‘dst’, weightCol=None)幂迭代聚类 (PIC)，一种由 Lin 和 Cohen 开发的可扩展图聚类算法。从摘要中：PIC 在数据的归一化成对相似度矩阵上使用截断幂迭代找到数据集的非常低维嵌入。这个类还不是构造器/转换

2022-03-12 09:05:12 4208

原创 Pyspark聚类--LDA

LDAclass pyspark.ml.clustering.LDA(featuresCol=‘features’, maxIter=20, seed=None, checkpointInterval=10, k=10, optimizer=‘online’, learningOffset=1024.0, learningDecay=0.51, subsamplingRate=0.05, optimizeDocConcentration=True, docConcentration=None, topic

2022-03-12 09:04:42 1286

原创 Pyspark聚类--KMeans

KMeansclass pyspark.ml.clustering.KMeans(featuresCol=‘features’, predictionCol=‘prediction’, k=2, initMode=‘k-means||’, initSteps=2, tol=0.0001, maxIter=20, seed=None, distanceMeasure=‘euclidean’)使用类似 k-means++ 的初始化模式进行 K-means 聚类（Bahmani 等人的 k-means|| 算

2022-03-12 09:04:11 2129

原创 Pyspark聚类--GaussianMixture

GaussianMixtureclass pyspark.ml.clustering.GaussianMixture(featuresCol=‘features’, predictionCol=‘prediction’, k=2, probabilityCol=‘probability’, tol=0.01, maxIter=100, seed=None)GaussianMixture 聚类。此类执行多元高斯混合模型 (GMM) 的期望最大化。 GMM 表示独立高斯分布的复合分布，具有相关的“混合”权

2022-03-12 09:03:40 669

原创 Pyspark聚类--BisectingKMeans

BisectingKMeansclass pyspark.ml.clustering.BisectingKMeans(featuresCol=‘features’, predictionCol=‘prediction’, maxIter=20, seed=None, k=4, minDivisibleClusterSize=1.0, distanceMeasure=‘euclidean’)一种基于 Steinbach、Karypis 和 Kumar 的论文“文档聚类技术比较”的二等分 k-means 算

2022-03-12 09:03:15 697

原创 Pyspark分类--RandomForestClassifier

RandomForestClassifierclass pyspark.ml.classification.RandomForestClassifier(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, probabilityCol=‘probability’, rawPredictionCol=‘rawPrediction’, maxDepth=5, maxBins=32, minInstancesPerNode=

2022-03-11 07:29:42 1262

原创 Pyspark分类--OneVsRest

OneVsRestclass pyspark.ml.classification.OneVsRest(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, classifier=None, weightCol=None, parallelism=1)将多类分类简化为二元分类。使用一对一的策略执行减少。对于具有 k 个类的多类分类，训练 k 个模型（每类一个）。每个示例都针对所有 k 个模型进行评分，并选择得分最高

2022-03-11 07:29:09 387

原创 Pyspark分类--NaiveBayes

NaiveBayes朴素贝叶斯分类class pyspark.ml.classification.NaiveBayes(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, probabilityCol=‘probability’, rawPredictionCol=‘rawPrediction’, smoothing=1.0, modelType=‘multinomial’, thresholds=None, weig

2022-03-11 07:28:37 793

原创 Pyspark分类--MultilayerPerceptronClassifier

MultilayerPerceptronClassifierclass pyspark.ml.classification.MultilayerPerceptronClassifier(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, maxIter=100, tol=1e-06, seed=None, layers=None, blockSize=128, stepSize=0.03, solver=‘l-bfgs

2022-03-11 07:28:16 818

spark-streaming-kafka-0-8-assembly_2.11-2.4.5

spark-streaming-kafka-0-8_2.11-2.4.4.jar

为什么SparkSQL，dbeaver，hive命令行使用相同的语句操作hive表的结果不一样