- 博客(145)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
原创 Part6--Hive数据导出
准备数据SELECT * FROM audi;1.使用insert 导出1.1 导出数据到本地INSERT overwrite local directory '/root/data/auditmp' SELECT * FROM auditmp ; 在Linux上查看导出结果(base) [root@192 data]# ll *audi*-rw-r--r--. 1 root root 534089 4月 22 06:00 audi_202204220558.csvauditm
2022-04-23 20:29:05
2721
原创 Part5--Hive数据导入
准备工作 先将表中的数据清除,由于是external修饰的外部表不能直接使用truncate删除表中数据,否则报错INSERT overwrite table audi select * from audi WHERE `model` = NULL ;SELECT * FROM audi ;1.load加载数据1.1 从本地读取数据 使用local表示从系统导入数据load data local inpath "/root/data/audi_202204220558.csv" i
2022-04-23 20:26:49
2043
原创 Part4--Hive数据表
1.创建表1.1 SQL模板CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORT
2022-04-22 12:36:35
1700
原创 Part3--Hive数据库
1.数据库1.1 创建数据库 在 HDFS 上的默认存储路径是/user/hive/warehouse/*.dbcreate database if not exists Test;1.2 创建指定HDFS上的位置CREATE database if not exists Testother location '/20220421.db'; 1.3 修改数据库 使用 ALTER DATABASE 命令为某个数据库的 DBPROPERTIES 设置键-值对属性值,来描述这个
2022-04-22 12:25:13
2195
原创 Part2--Hive数据类型
1.基本数据类型HIVEMySQLJAVA长度例子TINYINTTINYINTbyte1byte有符号整数2SMALINTSMALINTshort2byte有符号整数20INTINTint4byte有符号整数20BIGINTBIGINTlong8byte有符号整数20BOOLEAN无boolean布尔类型,true或者falseTRUE FALSEFLOATFLOATfloat单精度浮点数3.1415
2022-04-22 12:24:03
150
原创 Part1--Hive参数设置
1查看当前所有的配置信息hive>set;2参数的配置三种方式(1)配置文件方式默认配置文件:hive-default.xml用户自定义配置文件:hive-site.xml注意:用户自定义配置会覆盖默认配置。另外,Hive也会读入Hadoop的配置,因为Hive是作为Hadoop的客户端启动的,Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启动的所有Hive进程都有效。(2)命令行参数方式启动Hive时,可以在命令行添加-hiveconf param=value来设定参
2022-04-22 12:22:47
287
原创 Part9---Java查询Hbase数据
查询Hbase数据分为Get方式查询,Scan方式查询,Scan配合Filter过滤查询01.Get方式查询import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.clie
2022-04-17 03:04:21
6222
1
原创 Part8---Java删除Hbase数据
01.查看原始表02.删除Hbase数据2.1 删除指定行键的整条记录import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connection;import org.apache.hadoop.hbase.client.ConnectionFactory;import org.apache.hadoo
2022-04-17 03:03:17
1608
原创 Part7---Java更新Hbase表的数据
01.原始数据hbase shell中:hbase(main):011:0> scan "Gadaite"ROW COLUMN+CELL 001 column=F1:F11, timestamp=1650130559218, value=F1.F11 001 col
2022-04-17 03:01:23
1375
原创 Part6---Java创建Hbase表
01.先查看HBase中表(base) [root@192 ~]# hbase shellHBase ShellUse "help" to get list of supported commands.Use "exit" to quit this interactive shell.For Reference, please visit: http://hbase.apache.org/2.0/book.html#shellVersion 2.1.1, rb60a92d6864ef272950
2022-04-17 03:00:27
1552
1
原创 Part5---Java连接HBase读取数据
01.加载maven依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>2.1.1</version></dependency>02.准备数据 在dbeaver上显示为:03.连接读取数据 hbase.zookeeper.quoru
2022-04-17 02:59:35
2002
原创 Part4---Phoenix映射Hbase的表
问题情况,在使用phoenix操作hbase的表的时候出现phoenix无法读取从hbase中创建的表: 比如通过hbase shell 创建了表:StudentAndCourse 通过Phoenix(也可以使用dbeaver连接phoenix)创建表:STUDENT在habase shell中的表的包含STUDENT,也包含StudentAndCoursehbase(main):004:0> listTABLESTUDENTSYSTEM.CATALOGSYSTEM.CHILD_
2022-04-17 01:20:10
883
1
原创 Part3---HBase更新删除表,使用dbeaver结合Phoenix操作
更新Hbase的数据:01.数据准备 先查看原始Hbase里面的数据情况hbase(main):012:0> scan "Gadaite"ROW COLUMN+CELL 001 column=F1:F11, timestamp=1649858571999, value=F1.F11 001
2022-04-17 01:18:24
1712
原创 Part2---Phoenix安装配置
目的:使用dbeaver连接Hbase01.解压安装并拷贝到HBase的lib目录(base) [root@192 phoenix-hbase-2.1-5.1.2-bin]# lsbin docs examples LICENSE NOTICE phoenix-client-hbase-2.1-5.1.2.jar phoenix-pherf-5.1.2.jar phoenix-server-hbase-2.1-5.1.2.jar(base) [root@192 phoenix-hbas
2022-04-17 01:15:03
1660
3
原创 Part1---Hbase安装配置
01.下载hbase解压生成文件hbase-2.1.1(base) [root@192 opt]# ls -al总用量 2526012drwxr-xr-x. 19 root root 4096 4月 12 17:04 .dr-xr-xr-x. 18 root root 236 3月 25 07:58 ..drwxr-xr-x. 10 root root 184 3月 23 13:42 apache-hive-2.3.9-bin-rw-r--r--. 1
2022-04-17 01:12:06
250
原创 解决Idea因为语言水平(Language level)语法报错和编译器(java compiler)运行报错
问题描述: 我很确定自己使用的java版本是1.8,我一直都用的这个版本,但是使用java写flink的时候出现如下情况: 虽然可以自己定义一个接口去实现,但是以前写Scala的我,还是觉得写隐函数比较习惯一点定位问题:step1: 看一下configurations的信息,确定一下使用的JRE版本,使用的默认的1.8step2: 看一下项目结构使用的Language level 这里语言水平居然是用的 7-Diamonds,ARM,multi-cath etc 先修改语
2022-04-08 03:15:52
7866
2
原创 kafka+Spark+Hive+Hdfs模拟实时数据接入并汇总输出
目的:模拟数据不断写入,同时不断处理01.启动相关的服务 Hdfs文件系统 Zookeeper服务 Kafka(主题,生产,消费) Hive数仓(元数据库mysql) Spark能够直接sql操作Hive,不然使用jdbc方式(base) [root@192 ~]# jps3200 SecondaryNameNode2835 NameNode5011 ConsoleProducer85045 Jps2998 DataNode4390 QuorumPeerMain45
2022-04-01 15:19:54
3967
原创 python实现kafka生产以及sparkstream消费
01.启动zookeeper,启动Kafka,创建Kafka主题,kafka生产者,kafka消费者 详见之前文章:http://t.csdn.cn/JRFRs02.使用python语言,对Kafka进行数据的写入from kafka import KafkaProducerfrom kafka.errors import KafkaErrorproducer = KafkaProducer(bootstrap_servers='192.168.1.10:9092')while True:
2022-04-01 10:22:19
3126
2
原创 KafKa安装配置
Kafka单机模式配置,非集群01.解压安装:(base) root@LAPTOP-P1LA53KS:/mnt/e# tar zxvf kafka_2.11-2.4.0.tgz ^C(base) root@LAPTOP-P1LA53KS:/mnt/e# pwd/mnt/e(base) root@LAPTOP-P1LA53KS:/mnt/e# ls'$RECYCLE.BIN' Scala-2.11.0 conda-env
2022-03-31 22:01:27
604
原创 Flink安装配置(单机)
Flink安装配置,单机版:01.下载如下安装包flink-1.6.3-bin-hadoop27-scala_2.11.tgz:(SSpark) root@LAPTOP-P1LA53KS:/mnt/e# ls -alls: 'System Volume Information': Permission deniedls: WindowsApps: Permission deniedtotal 1786428drwxrwxrwx 1 root root 4096 Jan 16 11:19
2022-03-31 21:58:53
2561
1
原创 Zookeeper安装配置(单机)
Zookeeper单机模式配置,非集群 对外服务端口:2181 dataDir:/mnt/e/ZookeeperData01.解压安装位置/mnt/e/zookeeper-3.4.1402.配置环境变量,添加内容:#zookeeperexport ZOOKEEPER_HOME=/mnt/e/zookeeper-3.4.14export PATH=$ZOOKEEPER_HOME/bin:$PATH03.复制原有文件,生成一份新的cfg文件:cp zoo_sample.cfg zoo
2022-03-31 21:57:21
2365
原创 pyspark结合kafka实现wordcount
I.Kafka的生产消费01.启动Zookeeper(base) [root@192 ~]# cd $ZOOKEEPER_HOME(base) [root@192 zookeeper-3.4.14]# cd bin/(base) [root@192 bin]# lsREADME.txt zkCleanup.sh zkCli.cmd zkCli.sh zkEnv.cmd zkEnv.sh zkServer.cmd zkServer.sh zkTxnLogToolkit.cmd zk
2022-03-31 21:47:35
1091
原创 pyspark读取hdfs文件并导入到hive中
01.创建对象,设定日志级别from pyspark.sql import SparkSessionspark = SparkSession.builder.config("spark.driver.host","192.168.1.10")\ .config("spark.ui.showConsoleProgress","false")\ .appName("hdfs_hive").master("local[*]").enableHiveSupport().getOrCreate()
2022-03-25 16:04:50
5339
原创 解决Spark读取Hive的数据库,只能读取到default
问题原因:按照网上的诸多博客等想使用Spark直接读取Hive,但不使用Hivejdbc的方式,在导入两个xml之后只能读取到default这个数据库,按照诸多网上的教程,修改xml还是未能起到作用(hive不能称为一个数据库,只是习惯了,下次一定改)01.文件拷贝 上传core-site.xml,hive-site.xml到spark/conf目录下,core-site.xml在Hadoop种,hive-site.xml在hive中(base) [root@192 conf]# ls -al
2022-03-25 11:56:43
4432
1
原创 解决docker中数据库时间与当前时间不吻合
01.问题排查1.使用mysql数据库查询当前日期的时候发现时间并不吻合select CURRENT_DATE(),CURRENT_TIME(); 2.数据库的配置问题 在window11系统上,使用VMware Workstation软件,配置的虚拟机 虚拟机系统为centos7,配置有docker容器。并在docker容器中配置的mysql数据库(base) [root@192 ~]# docker psCONTAINER ID IMAGE
2022-03-13 17:48:23
2721
原创 mysql索引的创建删除
01.索引创建、删除与使用:1.1 create方式创建索引:CREATE [UNIQUE -- 唯一索引 | FULLTEXT -- 全文索引 ] INDEX index_name ON table_name -- 不指定唯一或全文时默认普通索引 (column1[(length) [DESC|ASC]] [,column2,...]) -- 可以对多列建立组合索引 1.2 alter方式创建索引:ALTER TABLE tb_name ADD [UNIQUE | FULLT
2022-03-13 01:41:06
1587
原创 mysql创建修改删除表
01.创建表的样例1.1 直接创建表:CREATE TABLE[IF NOT EXISTS] tb_name -- 不存在才创建,存在就跳过(column_name1 data_type1 -- 列名和类型必选 [ PRIMARY KEY -- 可选的约束,主键 | FOREIGN KEY -- 外键,引用其他表的键值 | AUTO_INCREMENT -- 自增ID | COMMENT comment -- 列注释(评论) | DEFAULT default_value
2022-03-12 19:16:43
1419
原创 HDFS简单操作,java语言操作hdfs
01.启动hdfs(base) [root@192 ~]# cd $HADOOP_HOME(base) [root@192 hadoop-2.7.7]# lsbin etc include lib libexec LICENSE.txt logs NOTICE.txt README.txt sbin share(base) [root@192 hadoop-2.7.7]# cd sbin/(base) [root@192 sbin]# lsdistribute-exclu
2022-03-12 09:51:51
740
原创 Hadoop,HDFS文件系统单机环境配置
01.添加hadoop用户组到系统用户 安装前要做一件事 添加一个名为hadoop的用户到系统用户,专门用来做hadoop测试(base) root@Windows-2021WEO:/mnt/e/win_ubuntu/envs# sudo addgroup hadoopAdding group `hadoop' (GID 1000) ...Done.(base) root@Windows-2021WEO:/mnt/e/win_ubuntu/envs# sudo adduser --ingroup
2022-03-12 09:29:14
14375
1
原创 Pyspark回归--IsotonicRegression
IsotonicRegression保序回归class pyspark.ml.regression.IsotonicRegression(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, weightCol=None, isotonic=True, featureIndex=0)目前使用并行池相邻违规者算法实现。仅支持单变量(单一特征)算法featureIndex = Param(parent=‘undefine
2022-03-12 09:07:07
430
原创 Pyspark回归--AFTSurvivalRegression
AFTSurvivalRegressionclass pyspark.ml.regression.AFTSurvivalRegression(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, fitIntercept=True, maxIter=100, tol=1e-06, censorCol=‘censor’, quantileProbabilities=[0.01, 0.05, 0.1, 0.25, 0.5,
2022-03-12 09:06:26
423
原创 Pyspark聚类--PowerIterationClustering
PowerIterationClusteringclass pyspark.ml.clustering.PowerIterationClustering(k=2, maxIter=20, initMode=‘random’, srcCol=‘src’, dstCol=‘dst’, weightCol=None)幂迭代聚类 (PIC),一种由 Lin 和 Cohen 开发的可扩展图聚类算法。 从摘要中:PIC 在数据的归一化成对相似度矩阵上使用截断幂迭代找到数据集的非常低维嵌入。 这个类还不是构造器/转换
2022-03-12 09:05:12
4208
原创 Pyspark聚类--LDA
LDAclass pyspark.ml.clustering.LDA(featuresCol=‘features’, maxIter=20, seed=None, checkpointInterval=10, k=10, optimizer=‘online’, learningOffset=1024.0, learningDecay=0.51, subsamplingRate=0.05, optimizeDocConcentration=True, docConcentration=None, topic
2022-03-12 09:04:42
1286
原创 Pyspark聚类--KMeans
KMeansclass pyspark.ml.clustering.KMeans(featuresCol=‘features’, predictionCol=‘prediction’, k=2, initMode=‘k-means||’, initSteps=2, tol=0.0001, maxIter=20, seed=None, distanceMeasure=‘euclidean’)使用类似 k-means++ 的初始化模式进行 K-means 聚类(Bahmani 等人的 k-means|| 算
2022-03-12 09:04:11
2129
原创 Pyspark聚类--GaussianMixture
GaussianMixtureclass pyspark.ml.clustering.GaussianMixture(featuresCol=‘features’, predictionCol=‘prediction’, k=2, probabilityCol=‘probability’, tol=0.01, maxIter=100, seed=None)GaussianMixture 聚类。 此类执行多元高斯混合模型 (GMM) 的期望最大化。 GMM 表示独立高斯分布的复合分布,具有相关的“混合”权
2022-03-12 09:03:40
669
原创 Pyspark聚类--BisectingKMeans
BisectingKMeansclass pyspark.ml.clustering.BisectingKMeans(featuresCol=‘features’, predictionCol=‘prediction’, maxIter=20, seed=None, k=4, minDivisibleClusterSize=1.0, distanceMeasure=‘euclidean’)一种基于 Steinbach、Karypis 和 Kumar 的论文“文档聚类技术比较”的二等分 k-means 算
2022-03-12 09:03:15
697
原创 Pyspark分类--RandomForestClassifier
RandomForestClassifierclass pyspark.ml.classification.RandomForestClassifier(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, probabilityCol=‘probability’, rawPredictionCol=‘rawPrediction’, maxDepth=5, maxBins=32, minInstancesPerNode=
2022-03-11 07:29:42
1262
原创 Pyspark分类--OneVsRest
OneVsRestclass pyspark.ml.classification.OneVsRest(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, classifier=None, weightCol=None, parallelism=1)将多类分类简化为二元分类。 使用一对一的策略执行减少。 对于具有 k 个类的多类分类,训练 k 个模型(每类一个)。 每个示例都针对所有 k 个模型进行评分,并选择得分最高
2022-03-11 07:29:09
387
原创 Pyspark分类--NaiveBayes
NaiveBayes朴素贝叶斯分类class pyspark.ml.classification.NaiveBayes(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, probabilityCol=‘probability’, rawPredictionCol=‘rawPrediction’, smoothing=1.0, modelType=‘multinomial’, thresholds=None, weig
2022-03-11 07:28:37
793
原创 Pyspark分类--MultilayerPerceptronClassifier
MultilayerPerceptronClassifierclass pyspark.ml.classification.MultilayerPerceptronClassifier(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, maxIter=100, tol=1e-06, seed=None, layers=None, blockSize=128, stepSize=0.03, solver=‘l-bfgs
2022-03-11 07:28:16
818
TA创建的收藏夹 TA关注的收藏夹
TA关注的人