- 博客(74)
- 收藏
- 关注
原创 Linux常用命令
通过掌握这些常用命令,可以高效地管理和操作 Linux 系统。如果需要更详细的帮助,可以使用。:显示目录或文件的磁盘使用情况。:创建空文件或更新文件时间戳。:移动或重命名文件或目录。:实时显示系统进程信息。:解压缩 ZIP 文件。:根据进程名终止进程。
2025-02-10 15:33:31
449
原创 hive数仓的分层与建模
Hive 数据仓库分层和数据建模是一种常见的数据仓库设计方法,旨在通过分层的方式组织数据,提高数据的可维护性、可复用性和查询性能。数据仓库通常采用分层架构,目的是将数据按照不同的处理阶段和用途进行划分,便于管理和优化。通过合理的分层和建模,可以构建高效、可扩展的 Hive 数据仓库,满足业务需求并提升数据分析效率。数据建模是设计数据仓库的核心步骤,常见的建模方法包括。:对数据进行分桶,优化 JOIN 和聚合操作。:按时间或业务字段分区,提高查询效率。:减少存储空间和 I/O 开销。:提高存储和查询性能。
2025-02-10 14:47:27
854
原创 spark并行度(parallelism)和分区(partition)未生效的问题
spark的并行度对spark的性能是又很大的影响的,spark任务能快速计算主要就是因为内存计算和并行计算。对于并行计算,我们就要涉及到并行度的问题,那并行度跟什么有关系呢?
2023-04-20 17:25:52
1515
原创 Spark通过jdbc性能调优--采用分区的方式从oracle读数据
采用ROWID的最后一位的ASCII码对20进行取模,得到的模是0-19之间的,这样就可以将这个值作为分区键,每条数据记录将会划分到固定的分区。因为分区数是20,所以在oracle数据里面就会生成20条SQL,每条sql又一个excutor取读取。常规jdbc读取表的时候只有一个分区在执行,也就是只有一个excutor在工作,没有把spark并行操作的特性发挥出来。通过查阅sparksql官方文档,查阅到如下的jdbc操作数据库的连接属性。所以我们可以采取上表中所示的分区读表的方式来优化这个问题。
2023-04-10 17:14:30
1891
原创 spark 算子内部引用sparkSession对象报java.lang.NullPointerException解决方法
spark算子内部引用sparkSession对象报空指针异常
2022-09-06 17:33:24
2181
原创 Git介绍,安装与使用
Git是什么:Git是一个免费、开源的分布式版本控制系统,用于高效地处理任何大小项目的版本管理。安装Git:访问Git官网下载对应操作系统的安装程序。按照安装向导完成安装。在终端或命令提示符中输入git --version来验证安装是否成功。git initgit statusgit add <文件名>或git add .git commit -m "提交信息"git branchgit branch <分支名>git checkout <分支名>
2021-10-22 10:57:14
119
原创 mysql批量删除表
mysql批量删除表查询构建所有的删除语句SELECT CONCAT('drop table ',table_name,';')FROM information_schema.TABLESWHERE table_name LIKE 'fine_%';复制查出来的删除sql语句,并批量执行drop table QRTZ_BLOB_TRIGGERS;drop table QRTZ_CALENDARS;drop table QRTZ_CRON_TRIGGERS;drop table
2021-10-13 09:25:53
2010
原创 MySQL批量插入数据 ON DUPLICATE KEY UPDATE
INSERT INTO … ON DUPLICATE KEY UPDATE向student表中插入学生信息,如果student表已经存在该id,那么就将该id对应姓名更新;如果不存在该id,那么插入新的一行记录;insert into student(id,name) values(3,'kobe'),(4,'Curry') ON DUPLICATE KEY UPDATE name=values(name)insert into student(id,name) select id,name
2021-09-27 18:15:36
464
原创 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask
FAILED: Execution Error, return code 137 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTaskFAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask# java.lang.OutOfMemoryError: Java heap space# -XX:OnOutOfMemoryE
2021-09-26 11:10:02
1232
原创 Linux系统Redis安装详解
1,下载安装包下载地址:http://download.redis.io/releases/redis-3.0.4.tar.gz直接点击连接即可进行下载2、安装1.下载好安装包之后,将安装包上传至Linux指定目录下、:/opt/softwawre/tempRedis2.由于redis是由C语言编写的,它的运行需要C环境,因此我们需要先安装gcc。安装命令如下:[root@hadoop100 software]# yum install -y gcc3.解压安装包[root@no
2021-06-25 14:39:09
227
2
原创 SparkStream详解
SparkStream1、项目实例,从linux传输数据2、使用sparkStream读取kafka的数据,进行处理,再写回kafka1、项目实例,从linux传输数据新建maven项目,并导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version&g
2021-06-22 20:03:13
706
原创 azkaban的安装、配置与使用详解
azkaban的安装、配置与使用1、下载安装包并编译2、MySQL创建azkaban数据库和用户3、配置azkaban-exec4、配置azkaban-web1、下载安装包并编译1.下载如下软件安装包,上传至虚拟机并解压gradle-5.6.3-all.zipazkaban-3.84.10.tar.gz tmp[root@hadoop100 software]# tar -zxvf azkaban-3.84.10.tar.gz[root@hadoop100 software]# unzip g
2021-06-21 20:13:39
3857
1
原创 wget安装MySQL(5.6和5.7超详细版)
wget安装MySQLwget的安装与使用安装wget:yum -y install wget检查是否安装成功:rpm -qa|grep "wget"MySQL安装1.下载mysql源安装包:wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm2.安装mysql源:yum localinstall mysql57-community-release-el7-8.noarch.rpm3.检查mysql源
2021-06-21 11:22:14
9318
原创 mongodb安装配置与基本命令
1、mongodb安装与配置下载安装包:mongodb-linux-x86_64-rhel70-4.0.24.tgz将安装包放在指定路径(/opt/software),直接解压安装,并且改名tar -zxvf mongodb-linux-x86_64-rhel70-4.0.24.tgzmv mongodb-linux-x86_64-rhel70-4.0.24 mongodb进入mongodb目录新建数据库目录 ./data/db新建日志目录 ./log新建文件mongo.conf,
2021-06-04 14:39:10
187
1
原创 Java实现WordCount(多线程和单线程)
1、单线程实现WordCountpackage cn.kgc.kb11.wc;import java.io.BufferedReader;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.util.Iterator;import java.util.Map;import java.util.Set;import java.util.Tr
2021-06-03 19:32:59
613
原创 flume安装配置与原理
1、flume的安装下载flume,解压安装flume-ng-1.6.0-cdh5.14.0.tar.gz修改配置文件cd /opt/software/flume/confmv flume-env.sh.template flume-env.shvi flume-env.sh修改如下的内容在如下位置加入jdk的路径和给flume分配的内存大小2、flume的简介flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用
2021-05-24 18:32:04
304
3
原创 Kafka安装与集群搭建&基本命令&API
1、安装与集群搭建下载并解压安装软件kafka_2.11-2.0.0.tgz1.1、配置单机修改配置文件vi opt/software/kafka/config/server.propertiesbroker.id=0advertised.listeners=PLAINTEXT://192.168.153.141:9092log.dirs=/opt/bigdata/kafka211/kafka-logszookeeper.connect=192.168.153.141:2181
2021-05-21 17:35:50
89
原创 scala安装与配置(详细步骤)
scala安装与配置一、window系统安装Scala1.下载安装2.配置环境变量3.验证二、window系统安装Scala三、IDEA安装scala插件一、window系统安装Scala1.下载安装首先去官网http://www.scala-lang.org/,然后点击导航栏的DOWNLOAD,进入下载链接:http://www.scala-lang.org/download/直接点击上面的按钮下载Windows安装包。msi格式,可以直接安装,然后双击运行,直至安装成功,此时查看环境变量会发现
2021-04-22 14:33:06
15754
3
原创 Hive函数
hive函数1. Hive函数分类1.1 从输入输出角度分类1.2 从实现方式分类1.3 具体函数2. hive性能调优2.1 Hive性能调优工具2.2 Hive优化设计2.3 Job优化2.4 查询优化2.5 压缩算法1. Hive函数分类1.1 从输入输出角度分类标准函数:一行数据中的一列或多列为输入,结果为单一值聚合函数:多行的零列到多列为输入,结果为单一值表生成函数:零个或多个输入,结果为多列或多行1.2 从实现方式分类内置函数标准函数①字符函数②类型转换函数③数学函
2021-04-08 15:10:23
269
原创 Hive的UDF步骤
Hive的UDF步骤新建一个maven project下载依赖写Java程序maven下面bin的安装路径/mvn clean 清空之前的jar包 maven下面bin的安装路径/install 打jar包hive中创建函数方式1:将jar包上传至Hadoop,放到指定目录中,如:/opt/data/hive中添加jar包add jar /opt/data/myUDF-1.0-SNAPSHOT.jar; //jar包地址list jar; 可以查看j
2021-04-06 16:49:32
354
原创 hive基础与高级查询
hive基础与高级查询1.数据库和数据仓库1.1 数据仓库1.2 数据库和数据仓库的区别1.3 数据仓库的分层架构2.Hive2.1 Hive的基本概念2.2 Hive元数据管理2.3 hive的命令窗口模式2.4 hive的数据类型2.5 数据库与数据表2.6 建表语句2.7 hive 分区2.8 分桶2.9 Hive视图(Views)2.10 装载数据2.11 Hive数据排序2.12 聚合函数2.13 窗口函数1.数据库和数据仓库1.1 数据仓库什么是数据仓库数据仓库(Data Wareho
2021-04-04 12:54:31
610
原创 Zepplin安装使用
Zepplin安装使用下载安装包http://zeppelin.apache.org/download.html选择zeppelin-0.8.1-bin-all.tgz解压安装将下载好的压缩包上传到Linux指定目录下,如:/opt/software/tar -zvxf zeppelin-0.8.1-bin-all.tgzmv zeppelin-0.8.1-bin-all.tgz zepplin修改配置文件修改端口号:默认是8080,为避免冲突,修改为其他端口号,如8000
2021-04-01 16:58:52
186
原创 HIVE安装
hive安装与配置前置安装hadoop 以及 zookeeper安装mysql数据库安装hivestep1:解压安装tar –zxvf apache-hive-1.2.2.bin.tar.gzmv apache-hive-1.2.2.bin.tar.gz hive //改名step2:新建存储hive数据的路径mkdir /opt/software/hive/warehousestep3:配置环境变量export HIVE_HOME=/opt/software/hiv
2021-04-01 16:25:19
81
原创 Yarn
Yarn1. Yarn的主要组件2. 工作流程1. Yarn的主要组件ResourceManager:负责处理客户端请求,对个NM上的资源进行统一管理和调度,给ApplicationMaster分配空闲的Container运行并监控其运行状态。主要由调度器和应用程序管理器组成1)调度器(scheduler):根据应用程序的资源要求以及集群机器的资源状况,为应用程序分配封装在Container中的资源。2)应用程序管理器(ApplicationManager):负责整个系统中所有的应用程序,启动A
2021-03-30 17:37:11
75
原创 MapReduce
MapReduce1.MapReduce的原理2. MapReduce设计构思3. MapReduce编程规范4. Shuffle5. MapReduce的整个流程1.MapReduce的原理把要执行的功能通过jar包的形式发布到各节点,由各个节点来执行jar包的功能传统分布式计算是把其他节点的数据集中在计算节点,由计算节点统一执行2. MapReduce设计构思3. MapReduce编程规范Map阶段两个步骤1).设置InputFormat类,将数据切分为key-value(k1和v
2021-03-30 17:31:55
67
原创 HDFS
HDFSHDFS:分布式文件存储1.HDFS架构2.HDFS副本机制:3.HDFS命令4.Java实现HDFS文件的读取5.HDFS写文件过程6.HDFS读文件7.HDFS的元数据管理8.HDFS的高可用机制HDFS:分布式文件存储1.HDFS架构client:文件切分。文件上传的时候,client将文件切分成一个个的block,然后进行存储;与NameNode交互,获取文件的位置信息;与DataNode交互,读取或者写入数据;提供命令俩管理和访问HDFS,比如启动或者关闭NameNode
2021-03-30 17:17:49
328
原创 大数据概况
大数据概况大数据:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据特征:4V特征Volume(大数据量):90% 的数据是过去两年产生Velocity(速度快):数据增长速度快,时效性高Variety(多样化):数据种类和来源多样化;结构化数据、半结构化数据、非结构化数据Value(价值密度低):需挖掘获取数据价值固有特征时效性不可变性分布式计算:分布式计算将较大的数据分成小的部分进行处理。Hadoop简介Hadoop是一个开
2021-03-30 16:40:15
184
原创 Hadoop高可用集群搭建
高可用集群搭建prepare:1、Hadoop 完全分布式安装2、ZooKeeper 完全分布式环境安装配置HDFS-HA集群1、配置core-site.xml2、配置hdfs-site.xml3、启动HDFS—HA集群4、配置HDFS-HA自动故障转移prepare:1、Hadoop 完全分布式安装2、ZooKeeper 完全分布式环境安装解压安装zookeepertar -zxvf zookeeper-3.4.6.tar.gz → mv zookeeper-3.4.6 zkpr配置v
2021-03-22 17:11:08
92
原创 安装配置Hadoop&搭建集群
安装配置Hadoop&搭建集群1. 给机器添加互信2. 软件准备:3. 安装:4. 配置hadoop:5. 搭建集群1. 给机器添加互信hostname //显示主机名修改主机名称:hostnamectl set-hostname 主机名添加各个机器的地址和主机名:vi /etc/hosts生成密钥:ssh-keygen -t rsa -P ""自己保存密钥:cat ~/.ssh/id_rsa.pub > .ssh/authorized_keys
2021-03-18 19:38:23
204
原创 ELK软件安装与搭建集群
ELK软件安装与搭建集群1. 软件准备2. elasticsearch安装3. head-master安装4.搭建集群节点1. 软件准备2. elasticsearch安装pre:先安装Hadoop-native tar -zxvf hadoop-native-64-2.6.0.tar -C hadoop/lib→ 解压安装 elasticsearchtar -zxf elasticsearch-6.2.2.tar.gz //解压安装mv elasticsearch-6.2.2 es
2021-03-18 17:44:14
190
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人