- 博客(45)
- 收藏
- 关注
原创 IDEA打Jar包
要点:必须保证pom.xml文件有以下内容,否则jar不含包自有代码。 <build> <sourceDirectory>src/main/scala</sourceDirectory> <resources> <resource> <directory>src/main/resources</directory> <filtering>true
2022-05-14 23:07:04
657
原创 HDFS知识点介绍
概要Hadoop 分布式文件系统 (HDFS) 是一种分布式文件系统,旨在在商用硬件上运行。它与现有的分布式文件系统有很多相似之处。但是,与其他分布式文件系统的区别是显着的。HDFS 具有高度容错性,旨在部署在低成本硬件上。HDFS 提供对应用程序数据的高吞吐量访问,适用于具有大量数据集的应用程序。HDFS 放宽了一些 POSIX(可移植操作系统接口)标准的 要求,以启用对文件系统数据的流式访问。HDFS 最初是作为 Apache Nutch (开源Java 实现的搜索引擎)网络搜索引擎项目的基础设施而构
2022-01-10 22:40:36
1596
原创 ClickHouse知识点
介绍ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统。来自不同列的值被单独存储,来自同一列的数据被存储在一起。特性真正的列式数据库管理系统数据压缩数据磁盘存储多核心并行处理多服务器分布式处理支持SQL向量引擎实时数据更新支持索引适合在线查询支持近似计算支持嵌套的数据结构支持数据复制和数据完整性支持角色权限控制缺陷不支持事务缺少高频修改删除操作,只能批量修改删除数据库引擎数据库引擎允许您使用表。默认情况下,ClickHouse采用At
2022-01-05 22:35:15
763
原创 InfluxDB知识点
介绍InfluxDB是InfluxData在2013年开源的时序数据库(TSDB),是为了存储物联网、DevOps运维这类场景下大量带有时间戳数据而设计的。InfluxDB采用Go语言编写,分为单机版和集群版,单机版免费。InfluxDB1.x采用类SQL的InfluxSQL语言操作数据,2.x采用FLux查询语言。常用场景是监控数据统计,如每秒记录电脑内存使用情况。它具有支持数据的采集、存储、监控和可视化的功能,还提供时间序列数据警报。InfluxDB 支持微秒和纳秒精度,使其成为科学和金融分析的理
2021-12-27 21:39:53
2113
原创 PostgreSQL知识点
简单介绍 PostgreSQL 是一个强大的开源对象关系数据库系统,它使用并扩展了 SQL 语言,并结合了许多安全存储和扩展最复杂数据工作负载的功能。PostgreSQL 的起源可以追溯到 1986 年,作为加州大学伯克利分校POSTGRES项目的一部分,在核心平台上已经有 30 多年的积极发展。 PostgreSQL 可以在所有主要操作系统上运行,自 2001 年以来一直符合 ACID,并且具有强大的附加组件。 PostgreSQL 具有高度的可扩展性。例如,您可以定义自己的数据类型,构建自定义函数
2021-12-26 16:18:14
662
原创 MongoDB知识点
概念MongoDB 是C++编写的NoSQL(非关系型数据库)、分布式文件存储的文档数据库。MongoDB 中的一条记录就是一个文档,它是一种由字段和值对组成的数据结构。MongoDB 文档类似于 JSON 对象。字段的值可能包括其他文档、数组和文档数组。MongoDB将文档存储在集合中,集合类似与关系型数据库中的表。深入理解MongoDB与传统数据库区别:SQL概念MongoDB概念解释databasedatabase数据库tablecollection数据
2021-12-26 15:53:03
313
转载 MySQL知识点
MySQL索引类型-B+树索引是为了加速对表中数据行的检索而创建的一种分散存储的数据格式。二叉树存在遍历一半的节点的可能性,相当于全表扫描,所以不适合作为索引的数据结构。平衡二叉树:1、搜索效率不高,数据量足够大的时候,树的高度比较大。2、查询不稳定,查询的数据在根节点附近速度比较快,但是如果在叶子节点,需要多次IO。3、存储的内容太少,未利用好操作系统与磁盘的交换特性,也未利用好磁盘的预读特性。一次IO只存储了一个数据区、两个节点的引用。多路平衡查找树(Balance Tree)B树是一个绝对平
2021-12-26 14:02:12
155
原创 Sqoop介绍
定义Sqoop是一个ETL工具,能够在HDFS与传统关系型数据直接传输数据。可以使用Sqoop将MySQL或Oracle等RDBMS导入Hadoop分布式文件系统HDFS中,在Hadoop中处理数据,然后将数据导回RDMBS。sqoop import$ sqoop help import用法:sqoop import [GENERIC-ARGS] [TOOL-ARGS]常用参数:-- connect <jdbc-uri> 指定JDBC 连接字符串 --connect-ma
2021-12-25 14:38:35
1632
原创 数据模型介绍
什么是数据模型数据模型是对数据特征的抽象,根据数据特征在数仓建表。常用模型-星型模型拆分事实、维度,维度表直接与事实表关联。常用模型-雪花模型拆分事实、维度,部分维度表不完全与事实表关联,从而间接管理。常用模型-星座模型多个星型模型共用同一个维度表。...
2021-12-21 22:47:09
486
原创 java中的关键字
java中的关键词Java 语言中有一些具有特殊用途的词被称为关键字。关键字对 Java 的编译器有着特殊的意义,在程序中应用时一定要慎重哦!!Java 中常用关键字:char, class , continue, defaul, do ,double,else, extends , false, final, finally, float,for, if, imple...
2019-08-09 14:45:58
285
原创 windows中IDEA使用Spark2.2.0连接hive1.1.0报错: java.lang.RuntimeException: java.lang.NullPointerException;
报错信息如下:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.java.lang.IllegalArgumentException: Error while instantiating ‘org.apache.spark.sql.hive.HiveSes...
2019-04-28 22:22:49
3195
4
原创 Hive中beeline连接报错 Required field 'client_protocol' is unset! Struct:TOpenSessionReq
报错信息如下:Required field ‘client_protocol’ is unset! Struct:TOpenSessionReq(client_protocol:null, configuration:{use:database=defalut})排查:版本号不对,输入beeline后发现版本号中有spark字样[root@hadoop001 lib]# beelineBe...
2019-04-27 00:20:57
3809
2
转载 Spark history-server使用
spark-defaults.conf修改vi spark-defaults.conf #开关开启spark.eventLog.enabled true#日志记录的目录(需要提前创建目录)spark.eventLog.dir hdfs://192.168.92.900:9000/spark-logsspark-env.sh 修改#展示目录SPARK_HISTORY_...
2018-11-29 16:53:59
469
原创 Hive中map-join 和 reduce-join
配置hive.auto.convert.join0.11版本之后默认是true。hive.mapjoin.smalltable.filesize/hive.smalltable.filesizemap join通常用于一个很小的表和一个大表进行join的场景,具体小表有多小,由参数 hive.mapjoin.smalltable.filesize来决定,该参数表示小表的总大小,默认值为2...
2018-11-28 16:49:30
1251
原创 Hive 压缩
压缩优点省空间网络传输快降低IO压缩缺点CPU负载增加如果不支持分割,并行度低常用压缩名称code压缩压缩时间解压时间是否支持分割Snappyorg.apache.hadoop.io.compress.SnappyCodec49.96%6.4119.84否gziporg.apache.hadoop.io.compress.Gzi...
2018-11-20 11:11:44
276
转载 Receiver与Direct区别
Spark Streaming 获取Kafka的数据有两种方式:Receiver和Direct。Receiver是通过Zookeeper连接Kafka队列获取数据,Direct是直接连接Kafaka的节点获取数据。ReceiverReceiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中...
2018-07-03 15:04:45
1879
原创 KafKa概念及基本操作
概述 消息中间件创建topickafka-topics.sh --create --zookeeper 192.168.92.200:2181,192.168.92.201:2181,192.168.92.202:2181/kafka --replication-factor 3 --partitions 3 --topic ruozedatatipoc 主题partiti...
2018-06-27 18:02:15
261
原创 Spark术语
Spark术语概述: Application 用户提交的spark应用程序,由一些driver和executors组成。Application jar 一个包含spark应用程序的jar,该jar不应该包含spark或Hadoop的jar,但是这些jar应该在运行时添加。Driver program 运行应用程序的main(),并创建SparkContext。Cluster ma...
2018-06-21 11:34:53
298
原创 Hive 常用建表及语法
创建数据库CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];--案例 create database ...
2018-05-15 10:08:04
569
原创 Jps 信息显示不全或不可用,无法杀死进程
1、正常情况 找到使用该进程的用户,进入该用户进行查看ps -ef | grep pidsu - 用户名jps2、异常情况 假如进程被停止: jps kill -9 pid发现进程还有残留: ps -ef|grep pid pid信息残留,去/tmp/hsperfdata_[用户名]文件夹删除该pid文件[root@hadoop001 hspe...
2018-04-23 15:02:28
1693
原创 Spark源码编译安装
环境apache-maven-3.3.9-bin.tar.gzscala-2.11.8.tgzjdk-8u91-linux-x64.tar.gzspark-2.2.0.tgz编译spark源码目录下的pom.xmlvi pom.xml添加如下内容:<!--CDH仓库cloudera社区--><repository> <...
2018-03-24 08:29:08
430
原创 Scala总结
常量与变量的定义变量(var)//语法//var VariableName : DataType [= Initial Value]var year = 2018var year2 : Int = 2018var name = &amp;amp;amp;amp;amp;amp;amp;quot;Scala&amp;amp;amp;amp;amp;amp;amp;quot;var name2 : String = &amp;amp;amp;am
2018-03-05 12:15:32
412
原创 Linux多台机器配置互相信任关系
环境三台机器: hadoop001, IP:192.168.92.200 hadoop002 ,IP:192.168.92.201hadoop003, IP:192.168.92.202配置三台机器分别执行 ssh-keygen,输入命令后回车,回车,再回车。回车三次即可。[root@hadoop001 ~]# ssh-keygenGenerating public...
2018-02-28 17:53:00
912
原创 Java的Object类的9大方法
getClass//获得该对象的类型类public final native Class<?> getClass();hashCode//返回对象存储的物理地址public native int hashCode();equals//默认的方法是比较对象的引用是否在同一地址//重写以后可以比较两个个对象的值是否相同public boolean e...
2018-02-26 15:20:24
560
原创 Oracle的莫名奇妙错误ORA-01403等错误
1、case when 用于avg需求:获得总体的平均值和最后三个月的平均值with temp as(select 100 d1,to_date('20170901','yyyyMMdd') d2 from dualunion all select 100 d1,to_date('20171001','yyyyMMdd') d2 from dualunion all ...
2018-02-09 10:30:09
1979
转载 YARN的内存和CPU配置
Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据经验,每
2018-02-07 12:07:55
342
1
转载 YARN and MapReduce的【内存】优化配置详解
原址:http://blog.itpub.net/30089851/viewspace-2127850/在Hadoop2.x中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container。 使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示 YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapRe
2018-02-07 11:53:16
235
1
原创 hive-1.1.0-cdh5.7.0 编译安装
环境说明:1、虚拟机为VM102、Linux系统为centos6.53、Hadoop为hadoop-2.6.0-cdh5.7.04、JDK为jdk-8u45-linux-x64.gz5、Maven为apache-maven-3.3.9-bin.zip6、MySQL为MySQL-Linux-5.6【以上环境必须提前装备好】7、hive-1.1.0-cdh5.7.0Hive
2018-02-07 11:33:28
1184
1
原创 Kettle同步数据报错:KettleDatabaseException:java.lang.ArrayIndexOutOfBoundsException
错误信息1:2018/01/04 14:42:29 - geBiz_app_common.0 - ERROR (version 7.0.0.0-25, build 1 from 2016-11-05 15.35.36 by buildguy) : org.pentaho.di.core.exception.KettleDatabaseException: 2018/01/04 14:42...
2018-01-04 14:43:49
7980
1
原创 数据库时间维度表
建表语句CREATE TABLE risk.d_calendar(calendar_id number NOT NULL,date_name varchar2(200),date_name_cn varchar2(200),calendar_date date,current_day number(10,0),month_id number,month_name varchar2(20
2018-01-02 16:04:05
1132
原创 Hadoop-Yarn介绍
Yarn的架构设计ResourceManager (RM) : 负责对各NM上的资源进行统一管理和调度。 将AM分配空闲的Container运行并监控其运行状态。 对AM申请的资源请求分配相应的空闲Container。 主要由两个组件构成: 调度器和应用程序管理器。调度器 (Scheduler): 调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作
2018-01-02 10:33:30
560
1
原创 Tableu Server备份及恢复
1、备份原服务器上的数据文件停止服务器 进入你的tableu server安装路径 以管理员身份运行cmd命令窗口,进入{你的tableu server安装目录}/{版本}/bin cd d: cd d:\tableau server\Tableau Server\10.3\bin执行停止服务命令 tabadmin stop备份数据 执行命令tabadmin backup
2017-12-27 10:31:16
2132
2
原创 hadoop常见面试题
NameNode存储内容文件系统的命名空间: a、文件名称;${dfs.name.dir}/current/VERSION b、文件目录结构;/edits c、文件的属性(权限,创建时间、副本数);/fsimage d、文件对应哪些数据块-->数据块对应哪些DataNode节点;/fstime 说明d:不会持久化存储这个映射关系,是通过集群的启动和运行时
2017-12-26 21:22:39
545
原创 hadoop-hdfs常用命令
1.jps查看进程情况2.hdfs dfs -ls /xxx查看hdfs文件系统的xxx文件3.hadoop fs -mkdir -p /hadoop001/001创建001文件夹4.hdfs dfs -cat test.log查看test.log5.hadoop fs -put test1.log /hadoop001/001/上传文
2017-12-25 21:41:52
434
原创 Linux修改主机名
1、修改network配置文件 vi /etc/sysconfig/network添加如下内容保存退出 NETWORKING=yes HOSTNAME=doudou2、hostname 直接命名 hostname doudou3、修改hosts文件 vi /etc/hosts添加如下内容保存退出(IP地址为你的主机IP) 1
2017-12-19 14:27:48
256
原创 rundeck调度工具部署安装
常见的调度工具有:①azkaban:https://www.cnblogs.com/smartloli/p/5191155.html②xxl_job:https://www.cnblogs.com/xuxueli/p/5021979.html③Linux自带的corntab④本文介绍rundeck介绍RunDeck 是用 Java/Grails 写的开源工具,帮助用户在数据
2017-12-18 21:57:46
565
原创 hadoop-2.8.1伪分布式安装
环境说明:1、Linux系统为centos6.52、Hadoop为hadoop-2.8.1.tar.gz3、JDK为jdk-8u45-linux-x64.gz软件包地址Linux:链接:https://pan.baidu.com/s/1c2jinQC 密码:qvb4Hadoop:链接:https://pan.baidu.com/s/1kV3Tn07 密码:7hyvJDK:
2017-12-18 17:52:31
677
原创 Linux编译hadoop-2.8.1-src.tar.gz
环境说明:1、虚拟机为VM102、Linux系统为centos6.53、Hadoop为hadoop-2.8.1-src.tar.gz4、JDK为jdk-8u45-linux-x64.gz5、Maven为apache-maven-3.3.9-bin.zip6、protobuf为protobuf-2.5.0.tar.gz7、findbugs为findbugs-1.3.9.zip
2017-12-14 17:22:46
1356
原创 Linux安装mysql
环境说明:1、虚拟机为VM102、Linux系统为centos6.52、MySQL为MySQL-Linux-5.6软件包地址Linux:链接:https://pan.baidu.com/s/1c2jinQC 密码:qvb4MySQL:链接:https://pan.baidu.com/s/1slQHe6T 密码:y4tmVM10请自行下载,自己动手丰衣足食下面开始
2017-12-09 16:39:28
441
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人