
大数据
文章平均质量分 92
brave_zhao
i am a coder! just it!
展开
-
比较Hive,Spark,Impala和Presto (转载)简单了解它们都是干什么的而已(转载)
原文地址:如何比较Hive,Spark,Impala和Presto? - 知乎原文的翻译多少有点瑕疵Spark,Hive,Impala和Presto是基于SQL的引擎,Impala由Cloudera开发和交付。在选择这些数据库来管理数据库时,许多Hadoop用户会感到困惑。Presto是一个开放源代码的分布式SQL查询引擎,旨在运行甚至PB级的SQL查询,它是由Facebook人设计的。Spark SQL是一个分布式内存计算引擎,它的内存处理能力很高。Hive也由Apache作为查询引擎...转载 2022-05-30 11:28:03 · 1813 阅读 · 0 评论 -
什么是数据湖技术数据湖和数据仓库的区别(好文转载)
原文链接:什么是数据湖技术 - xuzhujack - 博客园 数据湖(Data Lake)是Pentaho公司创始人及CTO James Dixon于2010年10月在2010年10月纽约Hadoop World大会上提出来的一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。简单表述总结为以下8点:1) 数据湖需要提供足够...转载 2022-01-19 10:15:32 · 1444 阅读 · 0 评论 -
离线数据分析的概念性理解
离线分析的概念:离线分析指不在生产系统上直接做数据处理,把生产系统上的数据导入另外一个专门的数据分析环境(数据仓库中),跟生产系统脱离的情况下对数据进行计算跟处理,离线数据分析处理的数据不是实时的,因为实时生产系统的数据导入到数据仓库中需要时间,计算出结果也需要时间,所以hadoop处理的离线数据跟一手的实时数据之间会有时间差,hadoop不适合做oltp式应用,也不适合做实时数据分析处理,hdfs是半只读,只能插入追加数据,不能修改数据,hadoop不是数据库,不支持事务的概念,hadoop不适合做实原创 2020-09-16 10:00:03 · 4287 阅读 · 1 评论 -
hadoop学习笔记之10jdk工具jps命令的使用,如何杀掉启动失败的NameNode进程方法,杀掉启动失败的JobTracker 进程等
jps为java process 之意代表查看目前本机上有多少个java进程已经启动,且显示这些java进程的别名是什么jps是jdk提供的一个工具来查看本机jvm中启动了哪些java进程篇外话:如何杀掉一个java进程...原创 2020-09-01 12:14:15 · 475 阅读 · 2 评论 -
hadoop学习笔记6linux下ssh免密登录使用的秘钥对儿的生成
ls -a才能看见隐藏目录.ssh里面放着刚才用ssh-keygen -t rsa 指令生成的秘钥对儿id_rsa是私钥id_rsa.pub是公钥查看公钥文件如下:将刚才生成的公钥文件复制到远程要想要无密码登录的那台目标主机对应的ssh登录身份认证目录下的身份认证信息库文件中(注意前提是目标机在对应目录下要有.ssh目录,这个可以事先通过以上的ssh-keygen -t rsa命令在远程要登录的目标机上跑一边就也会有.ssh目录在默认位置上生成)注意:author...原创 2020-08-28 17:55:54 · 282 阅读 · 0 评论 -
hadoop学习笔记5之什么TaskTracker节点进程
NameNode节点是HDFS体现下的对HDFS上数据块路由和对管辖数据块的DataNode节点进程路由的主路由器节点,负责对HDFS数据块和DataNode进程节点的寻址信息的记录与读取JobTracker进程;负责将MapReduce体系下的分布式计算任务 一个Job打散成多个Task,每一个Task分配给相应的TaskTracker进程去执行,JobTracker进程调度TaskTracker进程进行分布式计算和计算结果的回收与汇总JobTracker是MapReduce体系框架下的工作任..原创 2020-08-28 13:25:07 · 661 阅读 · 0 评论 -
hadoop学习笔记1之什么是离线数据分析的概念
离线分析的概念:离线分析指不在生产系统上直接做数据处理,把生产系统上的数据导入另外一个专门的数据分析环境(数据仓库中),跟生产系统脱离的情况下对数据进行计算跟处理,离线数据分析:处理的数据不是实时的,因为实时生产系统的数据导入到数据仓库中需要时间计算出结果也需要时间,所以hadoop处理的离线数据跟一手的实时数据之间会有时间差,hadoop不适合做oltp式应用,也不适合做实时数据分析处理,hdfs是半只读,只能插入追加数据不能修改数据,hadoop不是数据库,不支持事务的概念,hadoop不适合做实原创 2020-08-27 13:53:50 · 2041 阅读 · 0 评论 -
linux下局域网内多主机之间无密码ssh安全登录的配置方式之二 (CM安装CDH第五步)利用Cloudera Manager安装集群中的CDH环境的第五步)
在主节点上执行ssh-keygen -t rsa一路回车,生成无密码的密钥对。用ssh-copy-id把公钥复制到远程主机上(注意本机也要复制, 最好每台都做)ssh-copy-id -i ~/.ssh/id_rsa.pub root@cdh1ssh-copy-id -i ~/.ssh/id_rsa.pub root@cdh2ssh-copy-id -i ~/.ssh/id_rsa...原创 2019-08-28 14:33:56 · 236 阅读 · 0 评论 -
linux下关闭防火墙(备忘)(利用Cloudera Manager安装集群中的CDH环境的第三步)CM安装CDH第三步
关闭防火墙:service iptables stop (临时关闭)chkconfig iptables off (重启后生效)关闭SELINUX:setenforce 0 (临时生效)修改 /etc/selinux/config 下的 SELINUX=disabled (重启后永久生效)vi /etc/selinux/config将SELINUX 的值改为 disa...原创 2019-09-16 11:42:03 · 200 阅读 · 0 评论 -
impala建表语句原创,impala建立kudu表
CREATE TABLE fact_cpusup_qualify ( sup_qualify_id BIGINT COMMENT '供应商资质id', qualify_type_id BIGINT COMMENT '资质类型id', qualify_type_name string COMMENT '资质类型名称', qualify_id BIGINT COMMEN...原创 2019-11-25 19:31:29 · 3701 阅读 · 0 评论 -
impala日期函数详解(转载)
遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.youkuaiyun.com/qq_22222499/article/details/81463516 hive 日期函数 增加月份 add_months(timestamp date, int months) add_months(tim...转载 2019-11-19 22:04:38 · 1505 阅读 · 0 评论 -
impala 或hive 给指定kudu库中的表添加列,修改列并调整列位置
alter TABLE fact_cpu_supply_category add columns(supplier_name string COMMENT '供应商名称');ALTER TABLE fact_cpu_supply_category CHANGE supplier_name supplier_name STRING AFTER doc_id;注意在impala中a...原创 2019-11-11 15:46:41 · 8156 阅读 · 2 评论 -
Impala 实现在指定位置添加列(转载)
Impala 实现在指定位置添加列今天在数据脱敏的工作中碰到一个需求:将数据仓库中的用户画像的phone字段以及该字段下的数据全部删除1. 错误示范:impala里面直接删除该列ALTER TABLE name DROP [COLUMN] column_name如ALTER TABLE dmr.edu_user_profile DROP COLUMN user_p...转载 2019-11-11 15:29:53 · 2212 阅读 · 0 评论 -
数据仓库之ETL漫谈(转自非原创)
转载来源:http://bbs.youkuaiyun.com/topics/330003174数据仓库之ETL漫谈2013-01-14 19:11:22heqiyu34阅读数 9940更多分类专栏:OracleETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。大多数据仓库的数据架构可以概括为:数据源-->...转载 2019-10-25 11:35:25 · 210 阅读 · 0 评论 -
什么是ods(转载)https://baike.baidu.com/item/ODS/15146368?fr=aladdin
原文位置:https://baike.baidu.com/item/ODS/15146368?fr=aladdinODS(操作数据存储)编辑讨论操作数据存储ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,也被称为贴源层。ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数...转载 2019-10-15 15:52:02 · 3531 阅读 · 0 评论 -
利用Parcel去安装CDH(个人备忘)
原文链接:www.cloudera.com转载自Cloudera Manager 官方文档Cloudera Manager Installation Guide,可上www.cloudera.com上下载一旦点击继续CDH软件组件将会被下载并从parcle包中分发到集群中的所有节点计算机上...转载 2019-10-11 20:52:11 · 543 阅读 · 0 评论 -
什么是impala(转载baidu个人备忘)
转载 2019-07-30 17:14:34 · 149 阅读 · 0 评论 -
用impala语言编程的常用方式(英文原文转载)
jdbc->impala->hdfs|hbase|kudu转载 2019-08-03 14:15:28 · 298 阅读 · 0 评论 -
连接impalad的工具原理(转载自coludera impala文档 ,个人备忘,就不翻译来了,都是技术英语,用翻译工具一看即可)
转载自这本电子文档转载 2019-08-03 16:01:05 · 174 阅读 · 0 评论 -
对impala 集群机器节点数的确认 方法(转载自官方文档)并自己翻译
更精确的方法更精确的大小估计不仅需要每分钟查询(qpm),还需要每个查询(d)显示的平均数据大小。使用适当的分区策略,D通常是总数据大小的一部分。下面的方程可作为估计所需节点数(n)的粗略指南。举个例子:假设一个查询平均扫描50GB的数据,当有100个并发查询时,平均响应时间要求为15秒qpm为(100/15)*60=400。我们可以用上面的方程来估计节点的数目。因为这个...原创 2019-08-06 11:10:08 · 755 阅读 · 0 评论 -
impalad节点集群所需要的总内存大小评估(转载官方文档)自己翻译
impala可以处理多个大型表之间的连接。确保统计是来自于所有连接表们的信息。然而,连接多个大表查询确实会消耗比较多的内存。按照以下步骤可以计算最小内存需求假设表B小于表A(但仍然是一个大的表),查询的内存需求是右表(B),在解压、过滤和投影(仅使用某些特定列)之后,必须小于整个集群的总内存。集群总内存需求=连接查询中数据量小的表的数据总量*谓词查询因子*投影运算因子*压缩算...原创 2019-08-06 14:53:03 · 1300 阅读 · 2 评论 -
什么是impalad 什么是impala
impalad = impala daemon 是impala 查询引擎 守护进程impala 是个 大数据查询语言 通过impalad 的解析和转译 可以被解析翻译成hdfs, 或 hbase 或 kudu上可用的高效查询指令,impala的语法和sql语法极为相似impala server的概念和mpp的概念(转载自官方文档)impala daemon的具...原创 2019-08-02 13:49:01 · 1093 阅读 · 0 评论 -
impala学习笔记之一(转载总结)转载自网上内容 ,并非原创,impala简介
Impala是 Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在 Hadoop的HDFS和Hbase中的PB级大数据。 Impala1l.0版比原来基于 Mapreduce I的 Hive SQL查询速度提升3~90倍,因此,Impala有可能完全取代 Hive,成为一种类SQL语法的分析查询技术。Impala是为了在 Hadoop上实现低延迟的SQL查询而设计...转载 2019-08-19 10:42:00 · 221 阅读 · 0 评论 -
impala中的时间戳 TIMESTAMP类型用法(转载网上电子书)(不是我原创)
查看一个日期是第几周和星期几日期计算查询指定日期是多少号查询两个日期差了多少天查询当前时间时间戳常量和隐式转换...转载 2019-08-31 10:54:07 · 6439 阅读 · 0 评论 -
catalog service在impala集群中的作用
存储在元数据厍中的数据库对象的元数据事impala寻找业务数据的基础寻址字典。 Impala和Hive的元数据保持兼容,在Hive中创建的表可以在 Impala中使用,反之亦然。当 Impala使用 CREATE、 ALTER、 INSERT、LOAD DATA等改变模式对象(数据库中的概念对象)时,所有的元数据的变化将会通过 catalog服务(catalog service目录服务)把变化广播...原创 2019-08-31 14:16:53 · 2835 阅读 · 0 评论 -
impala 在kudu下的建表语句,和在文本文件中建立一个表,impala在parquet文件上建立表
create table test (x int, y string) stored as kudu——————————————————————————————create table test (x int, y string) stored as textfile________________________________________下面是在parquet文件上建立分区...原创 2019-08-31 17:33:50 · 953 阅读 · 0 评论 -
cloudera manager软件的作用,翻译官方英文文档,英文是原著,中文是我自己翻译的
Cloudera Manager在整个集群上自动安装和配置CDH,只需要您具有集群计算机的根SSH访问权,以及对所有这些计算机的Internet互联网或本地存储库(一个本地安装文件存放的目录)(此本地存储库中应包含所有安装hadoop及组件的相关安装文件)的访问权。Cloudera Manager的作用包括:一个小型的自执行Cloudera Manager安装程序,用于安装...原创 2019-09-02 13:27:40 · 364 阅读 · 0 评论 -
关于Cloudera Manager安装程序的相关重要知识
Cloudera Manager是一个服务器程序软件,它应该被安装在一个你想自动运行Cloudera Manager Server这个服务器进程的那台计算机上,即Cloudera Manager安装程序将自动安装在希望ClouderaManagerServer进程运行的主机上。安装CM有以下前提条件1 Linux上必须有CM的软件安装包,和jdk的软件安装包2 Linux上必须安装j...原创 2019-09-02 13:51:59 · 211 阅读 · 0 评论 -
Cloudera Manager 可以选择性安装自己的数据库时的注意事项(转载官方文档的英文)我自己翻译的
你必须安装一个CM支持的数据库(比如:MySql) 这个数据库可以安装在和Cloudera Manager Server 进程在同一台机器上 或者一台Cloudera Manager Server 可以访问到的机器上 ,你将需要配置Cloudera Manager Server 和这个数据库之间的连接额外红字的注意事项我就不翻译了大概意思就是,使用mysql和Cloudera...原创 2019-09-03 16:49:54 · 207 阅读 · 0 评论 -
linux下安装mysql的方法 转载自官方Cloudera-Manager-Installation-Guide这本英文电子书(仅供参考)
转载 2019-09-03 17:21:55 · 132 阅读 · 0 评论 -
impala中的compute stats语句的作用(转载自网上)
Impala使用Hive运行 ANALYZE TABLE语句生成的信息,Hive生成的统计信息是不可靠的,而且不易使用。 Impala的 COMPUTE STATS语句基于底层编码,大大提高了可靠性。 COMPUTE STATS不需要特别的安装或配置。Hive需要使用单独的 ANALYZE TABLE语句分别统计表和列统计信息, Impala只需使用一个单条语句 COMPUTE STATS语句即可...转载 2019-09-04 13:59:20 · 2295 阅读 · 0 评论 -
linux下安装 mysql jdbc驱动程序(转载自Cloudera-Manager-Installation-Guide)官方文档
转载 2019-09-04 14:40:37 · 2054 阅读 · 0 评论 -
linux下开机启动mysql守护进程的配置 转载自Cloudera Manager安装文档Cloudera-Manager-Installation-Guide
转载 2019-09-04 15:45:05 · 239 阅读 · 0 评论 -
impala外部表和内部表的区别
注意:当在HDFS上利用impala来创建内部表和外部表都是建立在HDFS文件系统之上默认不指定的情况下Impala创建的是内部表, Impala负责管理表和它关联的底层的数据文件。当我们删除impala内部表的时候, Impala会自动的删除该内部表对应的物理数据文件。如果我们指定 EXTERNAL子句, Impala将创建一张外部表。外部表对应的数据文件并非由Impa创建与管理。外部表创建...原创 2019-09-04 17:30:27 · 2365 阅读 · 0 评论 -
使用 Clouder Manager在集群机器上安装系列软件的必要步骤(转载自官方文档Cloudera-Manager-Installation-Guide)
转载 2019-09-15 22:39:49 · 288 阅读 · 0 评论 -
linux下/etc/hosts文件的作用,以部署一个Cloudera Manager集群平台时候,举例(转载自Cloudera-Manager-Installation-Guide)
转载 2019-09-16 11:10:01 · 181 阅读 · 0 评论 -
impala克隆一个表结构的语法
如果要该表存储格式 指定一下STORED AS file_format的格式即可,据说impala 不能够通过建表语句直接创建HBASE的表(我没试验过),但可以通过该克隆语句来复制并创建HBASE表结构,大家有需要可以试一试注意CRATE TABLE...LIKE仅仅复制表结构和主题元数据信息(表结构定义信息而不复制寻址信息,新建一个表就有自己独特的寻址信息) (仅仅复制表结构中的列定义...原创 2019-09-17 10:54:39 · 3199 阅读 · 0 评论 -
impala 看表结构
DESCRIBE table_name格式的语句。如果要了解像数据文件位置,ROWFORMAT或 STORED AS对应的值这些详细的信息,可以使用 DESCRIBE FORMATTED table_name。可以看到表的注释信息。compute stats统计表信息 (impala查看表统计信息)analyze table 查看表统计信息 (hive 查看表统计信息)...原创 2019-09-17 11:32:50 · 10022 阅读 · 0 评论 -
impala的类型转换函数说明(转载网上)并非原创
impala持如下类型转换函数:cast(expr as type)该函数一般与其他函数一起使用,用于将其他函数返回的结果转换为指定的数据类型。 Impala对函数输入参数的类型有严格的规定。例如, Impala不能自动将 DOUBLE转换为 FLOAT类型,不能将BlGINT类型转换为INT类型等。impala不会自动实现从高精度到低精度的转换。当输入参数的类型不是 Impala要求的类型时,需...转载 2019-09-19 10:51:20 · 4343 阅读 · 0 评论 -
impala中的字符串处理(转载网上自己整理备忘)
concat (string a, string b)该函数将所有输入参数拼接在一起返回一个单个字符串concat_ws(string sep, string a, string b.....)该函数用于将各输入参数以指定的分隔符连接在一起。返回类型为 string。find_in_set(string str, string str_list)返回一个字符串在一个逗号分...原创 2019-09-19 17:35:26 · 15368 阅读 · 0 评论