
Hadoop
vkingnew
Learning......
展开
-
Redis 6.2 启动关闭
Redis 提供了多种启动方法。第一种:默认的启动方法# redis-server27792:C 13 Jul 2021 23:57:17.142 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo27792:C 13 Jul 2021 23:57:17.142 # Redis version=6.2.4, bits=64, commit=00000000, modified=0, pid=27792, just started27792:C 13原创 2021-07-14 00:22:16 · 1127 阅读 · 0 评论 -
CentOS 8.3 Redis6.2.4 编译安装部署
# cat /etc/centos-releaseCentOS Linux release 8.3.2011-- 前提准备:# yum -y install gcc tar tcl -- 软件下载:# wget https://download.redis.io/releases/redis-6.2.4.tar.gz-- 编译安装:(无需要configure)# tar -xzvf redis-6.2.4.tar.gz -C /usr/local# cd /usr/local/redis.原创 2021-07-13 23:52:47 · 742 阅读 · 0 评论 -
windows 安装部署influxdb
下载软件:https://dl.influxdata.com/influxdb/releases/influxdb-1.8.4_windows_amd64.zip2.0版本的暂时么有windows版本解压到相应的文件设置环境变量:C:\dev\influxdb-1.8.4-1C:\dev\influxdb-1.8.4-1>influxd.exe 8888888 .d888 888 8888888b. 888888b..原创 2021-02-05 11:20:22 · 2137 阅读 · 0 评论 -
InfluxDB 概述
什么是时序数据库按照时间顺序,设备状态的变化数据依时间顺序记录的数据库。Time series DB比如CPU的利用率,某一时间的环境温度等,时序数据是以时间作为主要的查询维度,通常会将连续的多个时序数据绘制成线,制作基于时间的多维度报表,用于揭示数据背后的趋势,规律和异常,进行实时在线的预测和预警。时序数据普遍存储在IT,devops,物联网,车联网等系统。时序数据具有以下三个特点:数据是随着时间追加的,无更新数据数据通常按照时间顺序抵达时间是一个主要的坐标轴...原创 2021-02-05 11:00:41 · 1151 阅读 · 0 评论 -
Impala 设计指导
物理硬件schema:impala-shell -i localhost --quiet参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_schema_design.html原创 2020-12-09 16:29:54 · 198 阅读 · 0 评论 -
Cloudera CDP 7 版本以及软件依赖
目录版本概述:Cloudera 7.1.4版本的软件版本:各个软件的依赖关系如下:版本差异:版本概述:在进入到CDH 7版本之后 Cloudera发布了两个发型包,一个用于运行在云上的(CDP public cloud),一个是客户自己安装的(CDP Data Center)。在2020年9月24日 之后CDP Data Center 改名为CDP Private CloudWith the recent launch of CDP Private Cloud f...原创 2020-11-23 21:17:34 · 7210 阅读 · 4 评论 -
Cloudera CDP 7 中不支持的Hive 3 的功能
Cloudera 7中的Hive不支持的接口和功能:Unsupported InterfacesDruidHcat CLIHive CLI (replaced by Beeline)Hive ViewLLAP (available in CDP Public Cloud only)MapReduce execution engine (replaced by Tez)PigS3 (available in CDP Public Cloud only)Spark executi...原创 2020-11-23 12:13:16 · 666 阅读 · 0 评论 -
Impala HA
Impala的高可用:1.Haproxy2.nginx参考:http://impala.apache.org/docs/build/html/topics/impala_proxy.htmlhttps://blog.youkuaiyun.com/abyslll/article/details/88019310https://blog.youkuaiyun.com/lvtula/article/details/89886157原创 2020-11-23 12:04:59 · 395 阅读 · 0 评论 -
Impala 端口列表
Scope / Role Startup Flag Default Port CommentImpala Daemon --beeswax_port 21000 Port on which Beeswax client requests are served by Impala Daemons.Impala Daemon --hs2_port 21050 Port on which HiveServer2 client requests are served by Impala Daemons.Im.原创 2020-11-23 11:39:42 · 785 阅读 · 0 评论 -
Impala JOIN语句
支持的JOIN列表:Self-joinsInner joinsOuter joinsEquijoins and Non-EquijoinsSemi-joins:Anti-joins不支持的JOIN:不支持的JOIN:Natural joins原因: Impala不支持自然连接运算符,这是为了避免不一致或庞大的结果集。自然连接去掉了ON和USING子句,而是自动连接左表和右表中具有相同名称的所有列。对于快速发展的数据结构(如Hadoop中通常使用的数据结构),不建原创 2020-11-23 11:31:30 · 1053 阅读 · 0 评论 -
Impala 3.2 版本以来的新特性
impala 和CDH的版本:CDH 6.3.2 impala 3.2CDP 7.1.x Impala 3.4impala 3.4 将适Impala 3版本的最后一个版本,此后社区的重点将是Impala 4 版本Impala 4 新特性:1.删除对过时操作系统(Centos6、Ubuntu14等)的支持、删除对Sentry的支持、删除对lzo的支持2.执行实例支持多线程计算Impala在IO层是多线程的,每个executor(impalad)多线程地从多个磁盘以及网络读取数据..原创 2020-11-23 10:47:28 · 2544 阅读 · 0 评论 -
Cloudera CDH 常见的版本
7.1.4 7.1.3 7.1.2 7.1.1 7.0.3 6.3.2 5.16.2 2020/10/14 2020/8/10 2020/6/4 2019/11/24 2019/11/12 2019/6/18 Component Version Version Version Version Version Version Ve...原创 2020-11-20 22:39:09 · 9071 阅读 · 8 评论 -
Impala 性能调优和设计
优化思路:Impala中,提供了10大类优化思路和方法:1.分区2.连接查询性能考虑3.表和列信息统计4.Impala性能测试:5.基准Impala查询:6. 控制Impala的资源使用情况:7.使用Impala查询Amazon S3的文件系统。8.HDFS缓存9.执行计划和查询概况10. 数据块倾斜表分区:基于不同列值进行查询,避免大量无效信息过滤,和常规数据库分区理念一致。连接查询性能考虑:连接查询的主要类,你可以在SQL级,相对于变化的物理因素如文件格式或硬件配置。有原创 2020-11-19 19:40:04 · 904 阅读 · 0 评论 -
Impala SQL的迁移
基于 impala 3.2 版本从其他的数据库系统中迁移需要考虑如下几个方面:1.DDL和DML语句的迁移2.数据类型的适配3.SQL语句的适配4.SQL结构的双检5.SQL语句和语法的验证参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_porting.htmlhttp://impala.apache.org/docs/build3x/html/topics/..原创 2020-11-19 17:47:35 · 1148 阅读 · 0 评论 -
Impala 数值函数
1.求绝对值 ,正值,负值:ABS(numeric_type a)POSITIVE(numeric_type a)NEGATIVE(numeric_type a)NEGATIVE 等同于 -abs(a)POSITIVE 等同于 abs()2.求余数,求商:QUOTIENT(BIGINT numerator, BIGINT denominator), QUOTIENT(DOUBLE numerator, DOUBLE denominator)FMOD(DOUBLE a, DOUBL原创 2020-11-19 17:13:04 · 2870 阅读 · 0 评论 -
大数据性能测试介绍
大数据性能测试的目的1.大数据组件的性能回归,在版本升级的时候,进行新旧版本的性能比对2.在新版本/新的生产环境 发布之后获取性能基线,建立可度量的参考标准,为其他测试场景或者调优过程提供对比参考3.在众多的发行版本中进行测试比对,为PoC测试提供参考数据4.支持POC测试,得出结论,到时候可以根据业务模型和需求,或者根据客户需求 选择不同的方案。5.在客户方进行性能测试,达到客户要求的性能标准满足客户使用的需求。性能测试的时机:1.上线新版本2.上线新的环境/新的主机3.开原创 2020-11-19 10:11:59 · 1904 阅读 · 3 评论 -
Impala 条件函数
支持的条件函数列表:CASECASE2COALESCEDECODEIFIFNULLISFALSEISNOTFALSEISNOTTRUEISNULLISTRUENONNULLVALUENULLIFNULLIFZERONULLVALUENVLNVL2ZEROIFNULL1.条件判断2.NULL处理3.TRUE FALSE 处理4.NULL ZERO处理参考:http://impala.apache.org/docs/build/html/topic.原创 2020-11-19 00:40:06 · 1351 阅读 · 0 评论 -
Impala JSON函数
在impala 6.3 版本中加入JSON解析函数,此前的版本则没有提供JSON解析函数需要自己编译安装。The following characters are supported in the selector JSON path:$ : Denotes the root object. : Denotes the child operator[] : Denotes the subscript operator for array* : Denotes the wildcard for原创 2020-11-19 00:30:41 · 5500 阅读 · 0 评论 -
Impala 字符串函数详解
impala 3.2版本参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_string_functions.htmlhttp://impala.apache.org/docs/build/html/topics/impala_string_functions.html#string_functions__ascii原创 2020-11-19 00:17:42 · 8887 阅读 · 0 评论 -
Impala 日期时间函数详解
基于impala 3.2 版本时间的基本单元 time_unityear 年month 月week 周day 日hour 小时minute 分钟 秒 second毫秒 Millisecond (us) 0.0001 s 1/10^3 s微妙 Microsecond (μs) 0.000001 s 1/10^6 s纳秒 Nanosecond (ns) 0.000000001 s 1/10^9 s 此外还有一些时间单元季度 qu.原创 2020-11-18 22:31:13 · 22641 阅读 · 0 评论 -
Impala 日期操作相关
获取指定日期的周初和周末:select date_sub(now(),dayofweek(now())-1-1) weekstart,date_sub(now(),dayofweek(now())-1-7) weekend;-- 时间戳取整Impala 2.11 之前的取整当前时间的写法:select trunc(now(), 'YEAR') --取整到年份, 得到当年 1 月 1 日 0 点 0 分select trunc(now(), 'MONTH') --取整到月份, 得到当月 1原创 2020-09-08 17:54:09 · 3020 阅读 · 0 评论 -
Sqoop 1.4.7 数据导入导出 HDFS MySQL
运行环境:CentOS 7.6Hadoop 2.7.7Hive 1.2.2sqoop 1.4.7MySQL 5.7.28注释:由于sqoop 1.4.6 是基于hbase 早期版本和centos6编译开发,可能存在不兼容性。安装步骤:前置条件:需要启动hadoop的DFS和yarn服务下载MySQL官方自带的示例数据包:https://downloads....原创 2019-11-08 20:14:15 · 665 阅读 · 0 评论 -
impala 报错: MANUAL_FLUSH is enabled but the buffer is too big
报错信息:MANUAL_FLUSH is enabled but the buffer is too big原创 2019-04-30 23:36:18 · 1003 阅读 · 1 评论 -
Apache Hive 3.1单机安装部署
软件列表:CentOS 7.5Hadoop 3.2Hive 3.1.1MySQL 5.7.25第一部分:准备主机0.前置条件:0.1 配制SSH:# ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_rsa)...原创 2019-04-18 22:07:58 · 938 阅读 · 0 评论 -
impala 和python的交互
--前提条件:# yum -y install python-devel gcc-c++ python-pip python gcc告警:The required version of setuptools (>=3.4.4) is not available, and can't be installed while this script is running. Pl...原创 2019-04-07 19:14:52 · 889 阅读 · 0 评论 -
Impala 可视化工具datagrip
概述:impala 官方提供了JDBC驱动,理论上可以识别jdbc驱动的客户端工具都可以连接到impala数据库。当然hive一样的,Datagrip 自2019.1版本已经官方支持了Hive数据库。其他可选的客户端有:oracle 的sql developer开源的:Dbvisualizer Dbeaver 他们的连接方式与此类似。下载驱动程序:https://www...原创 2019-04-10 12:55:18 · 11853 阅读 · 7 评论 -
数据库的与Hadoop生态的同步
Hadoop生态中负责存储的有Hbase、kudu,负责计算的有impala和hive源库实时流同步的:streamsets:利用MySQL的binlog、mongoDB的oplog和oracle、SQL server的CDC功能将数据近实时的同步到目标存储上,如kudu和hbase上。上有开源的apache Nifi开源的kettle工具:...原创 2019-05-05 12:10:52 · 508 阅读 · 0 评论 -
数据库与clickhouse的同步
mysqlkafkaclickhouse支持存储引擎为MySQL和kafka.其他的关系型数据库如oracle、SQL server、postgresql、mysql和MongoDB都可以通过将信息发送到kafka,进而和Clickhouse进行数据接入.可选的有数据抽取工具有:logstashdeebeezium...原创 2019-05-05 12:42:46 · 5479 阅读 · 0 评论 -
impala 报错value too large for column 'xxx' (70787 bytes, maximum is 65536 bytes)
报错信息:Pipeline Status: RUNNING_ERROR: com.streamsets.pipeline.api.StageException: KUDU_03 - Errors while interacting with Kudu: Row error for primary key="c42f76aec336497e8a2691d8a6f96f76", tablet=n...原创 2019-05-21 14:22:18 · 2354 阅读 · 2 评论 -
sqoop 导入MySQL数据到Hive
注意:部署sqoop和hive的时候,需要将hive和sqoop部署到同一节点上。不然使用sqoop导入数据的时候会报错。错误示例如下:Database Class Loader started - derby.database.classpath=''19/05/28 14:37:16 ERROR bonecp.BoneCP: Unable to start/stop JMXjava....原创 2019-05-27 15:27:37 · 1273 阅读 · 0 评论 -
sqoop 导入SQL server数据到Hive
脚本:#!/bin/bash#Set the RDBMS topic name as bash's first params#Set the RDBMS table name as bash's second paramsecho "<----------------Import topic name is [$1]---------------->"echo "...原创 2019-05-27 15:52:57 · 1963 阅读 · 0 评论 -
sqoop 1.4 将MySQL的tinyint类型转为hdfs的bool类型
mysql数据库里面的字段是 tinyint 类型 通过sqoop 抓取出来的数据在HDFS 上面显示的true、false解决办法:jdbc会把tinyint 认为是java.sql.Types.BIT,然后sqoop就会转为Boolean了,悲剧吧在连接上加上一句话tinyInt1isBit=falsejdbc:mysql://localhost/test?tinyI...原创 2019-05-30 11:17:24 · 357 阅读 · 0 评论 -
Impala 日期格式化
select version(); +-----------------------------------------------------------------------------------------+| version() ...原创 2019-06-14 09:30:23 · 15785 阅读 · 0 评论 -
Impala 路径跟踪分析
-- 历史表:select count(*) uv, multi_path from yjp_trace.yjp_dm_trace_session_common_day,yjp_trace.yjp_dim_trace_multi_path where page_codes rlike multi_path and path_id='0018e9e50d28449db86999fc...原创 2019-06-27 17:36:56 · 598 阅读 · 0 评论