
大数据
文章平均质量分 76
.Feng_
这个作者很懒,什么都没留下…
展开
-
转载-大数据管理神器:Ambari自定义stack和服务二次开发详细教程
ambari转载 2022-08-22 17:35:24 · 2411 阅读 · 0 评论 -
Ambari自定义服务
ambari自定义服务集成原创 2022-08-22 11:16:04 · 1564 阅读 · 2 评论 -
数据仓库、数据集市、数据湖、数据中台介绍
数据仓库概念数据仓库是一个功能性的概念,主要是面向主题、集成、相对稳定、能够反应历史变化的数据集合,支持管理中的决策制定,主要面向分析型数据处理介绍数据仓库是由多个数据源的有效集成,集成后按照主题进行重组,包含历史数据,一般情况下不会对数据仓库中的数据进行更改,多数据源集成主要是为了解决数据孤岛的问题,比如各个业务系统可能存在的地理位置、数据的存储格式、不通的商业平台(oracle、mysql等),编程语言(java、scala)等各方面,数据无法共享,数据仓库建设的主要工作是将他们所需要的格式提取原创 2021-06-03 15:36:08 · 837 阅读 · 0 评论 -
HBase BulkLoad原理以及流程
Bulkload的原理和流程HBase底层存储是以HFile文件存储在磁盘上1、根据HDFS的数据或者外部的数据生成HBase底层的数据格式HFile文件2、根据生成目标HFile,利用HBase提供的Bulkload工具将HFile移动(或加载)到HBase目录下bulkLoad主要是将数据编写成HFile的形式,批量加载到HBase中,具有优于其他数据提取机制的优点,此操作完全绕过写入路径优缺点:① 数据可以立即呗hbase使用,但是会对集群造成额外的负载和延迟② BulkLoad操作不原创 2021-04-09 15:37:01 · 2596 阅读 · 0 评论 -
hive基础介绍
HIVECREATE TABLECREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [(col_name data_type [column_constraint_specification] [COMMENT col_comment], ... [constraint_specificat原创 2020-07-30 13:26:45 · 2079 阅读 · 0 评论 -
Hive(on spark)优化
Hive本身将SQL转化为M/R执行任务1、列裁剪hive.optimize.cp=true(默认值为真)Hive 在读数据的时候,可以只读取查询中所需要用到的列,而忽略其它列。2、分区裁剪hive.optimize.pruner=true(默认值为真)可以在查询的过程中减少不必要的分区。将分区条件条件放入子查询中更为高效,可以减少读入的分区 数目。 Hive 自动执行这种裁剪优化。3、JOIN操作优化在编写带有 join 操作的代码语句时,应该将条目少的表/子查询放在 Join 操作符.转载 2020-07-29 10:29:45 · 3784 阅读 · 0 评论 -
大数据学习之Hadoop无HA环境搭建(单机版)
大数据学习之Hadoop无HA环境搭建(单机版)标签(空格分隔): hadoop 大数据准备Hadoop安装包(版本:hadoop-2.7.3)下载地址 Apache Soft:http://archive.apache.org/dist/官方文档:https://hadoop.apache.org/docs/r2.7.3/#解压安装包并指定目录tar -zxvf hadoop-2.7.3.tar.gz -C /opt/soft/hadoop解压完成后需要到到hadoop目录下修改配置文件原创 2020-05-29 15:38:13 · 305 阅读 · 0 评论 -
Spark关键参数解释
spark historyserver参数注意:以spark.history开头的需要配置在spark-env.sh中的SPARK_HISTORY_OPTS,以spark.eventLog开头的配置在spark-defaults.confspark.history.fs.update.interval 默认值10秒这个参数指定刷新日志的时间,更短的时间可以更快检测到新的任务以及任...原创 2020-05-28 00:43:50 · 1052 阅读 · 0 评论 -
大数据学习之Zookeeper基础环境搭建(单机版)
大数据环境搭建各个服务版本(该系列搭建版本)linux系统环境准备Zookeeper配置zookeeper日志目录配置各个服务版本(该系列搭建版本)ServiceVersionDownload Linkscala2.11.12-java1.8.0_181-zookeeper3.4.11http://archive.apache.org/dist/zookeeper/zookeeper-3.4.11/hadoop2.7.3http://archive原创 2020-05-28 00:40:27 · 241 阅读 · 0 评论