
云计算/大数据
文章平均质量分 70
寞逍遥
不积跬步,无以至千里
展开
-
HDFS常用命令
HDFS常用命令原创 2022-09-21 15:05:22 · 500 阅读 · 0 评论 -
为什么Spark运行比MapReduce快
Spark比MapReduce快主要有三点。IOSpark和MapReduce的计算都发生在内存中,但是MapReduce通常将计算的中间结果写入磁盘,从而导致了频繁的磁盘IO。Spark则因为RDD弹性分布式数据集和DAG有向无环图不需要将计算的中间结果写入磁盘,大大减少了磁盘IO。排序MapReduce在Shuffle时需要花费大量时间进行排序。Spark在Shuffle时则只有部分场景才需要排序。进程、线程MapReduce采用了多进程模型,多进程模型好处是可以细粒度控制每个任务占用原创 2021-12-29 11:17:18 · 2986 阅读 · 0 评论 -
Impala导出查询结果到文件
想用impala-shell 命令行中将查询的结果导出到本地文件,想当然的以为impala 和 hive 一样可以用 insert overwrite local directory ‘/home/test.txt’ select ……. 这样的命令导出到本地,执行了一下,发现impala 不支持这个。然后查了一下,发现impala-shell 可以像mysql 一样的方式导出查询结果到文件。在命令行里带参数执行,例如:impala-shell -q "select * from table..转载 2021-11-04 12:25:51 · 2063 阅读 · 0 评论 -
基于Apache Hudi构建数据湖的典型应用场景介绍
1. 传统数据湖存在的问题与挑战传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题:问题一:不支持事务由于传统大数据方案不支持事务,有可能会读到未写完成的数据,造成数据统计错误。为了规避该问题,通常控制读写任务顺序调用,在保证写任务完成后才能启动读任务。但并不是所有读任务都能够被调度系统约束住,在读取时仍存在该问题。...转载 2021-08-23 15:08:29 · 1509 阅读 · 0 评论 -
四种常见数据模型(维度模型、范式模型等)
一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)不吃西红柿丶 2020-12-04 14:05:00 10860 收藏 60分类专栏: 数据仓库 文章标签: 数据模型 范式模型 雪花模型版权数据仓库专栏收录该内容16 篇文章127 订阅订阅专栏目录写在前面一、为什么要进行数据仓库建模?二、四种常见模型2.1 维度模型2.1.1 星型模型2.1.2 雪花模型2.1.3 星座模型2.2 范式模型2.3 Data Vault模型2.4 ..转载 2021-08-17 15:59:45 · 7655 阅读 · 0 评论 -
什么是数据湖
文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。作者 | 汤姆斯·约翰、潘卡·米斯拉来源 | 出自《企业数据湖》一书转自 | 大数据(ID:hzdashuju)导读:数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。最开始,企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。最开始的时候,每个应用程序会产生、存储大量数据,而这些数据并不能被其他应用程序使用,这种状...原创 2021-05-06 15:58:50 · 403 阅读 · 0 评论 -
ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台
ELK平台介绍在搜索ELK资料的时候,发现这篇文章比较好,于是摘抄一小段:以下内容来自:http://baidu.blog.51cto.com/71938/1676798日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷,性能安全性,从而及时采取措施纠正错误。通常,日志被分散的储存不同的设备上。如果你管理数十上百台服务器,你还在使用依次登录每台机器的传统方法查阅日志。这...转载 2021-01-14 10:03:45 · 202 阅读 · 0 评论 -
2020-11-20
Hive常用命令Hive中定义变量内置命名空间Hive内置命名空间包含了hivevar、hiveconf、system和env。在Hive中写入hivevar变量hive --define/--hivevar key=value显示变量set env:HOMEset hivevar:keyset key给变量赋值set key=valueset hivevar:key=value在sql语句中调用变量create table table_name(i in原创 2020-11-20 10:41:05 · 539 阅读 · 0 评论 -
大HW技术文档字典
FusionInsight HD 产品文档GaussDB 200原创 2020-07-22 11:37:04 · 198 阅读 · 0 评论 -
Hive文件存储格式(TEXTFILE 、ORC、PARQUET三者的对比)
Hive文件存储格式(TEXTFILE 、ORC、PARQUET三者的对比)综述:HIve的文件存储格式有四种:TEXTFILE、SEQUENCEFILE、ORC、PARQUET,前面两种是行式存储,后面两种是列式存储;所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式,如果指定了A方式,那么在向表中插入数据的时候,将会使用该方式向HDFS中添加相应的数据类型。如果为textfile的文件格式,直接load就OK,不需要走MapReduce;如果是其他的类型就需要走Ma.转载 2020-07-15 15:05:45 · 8628 阅读 · 1 评论 -
元数据、数据元、资源目录
元数据、数据元、资源目录1元数据(Metadata)1.1元数据概念1、主要是描述数据属性(property)的信息;2、描述数据的数据;3、关于数据的结构化数据;4、描述数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等信息,是数据和数据用户之间的桥梁。举例:学生信息表包括:姓名、性别、学号等。姓名、性别、学号都是数据元,但是这些数据元有自己的元数据,即描述数据,分别是长度、类型、值域等。对于学生信息表而言,姓名、性别、学号是描述学生信息的数据转载 2020-05-18 16:56:59 · 6257 阅读 · 0 评论 -
kafka consumer 配置详解
1、Consumer Group 与 topic 订阅每个Consumer 进程都会划归到一个逻辑的Consumer Group中,逻辑的订阅者是Consumer Group。所以一条message可以被多个订阅message 所在的topic的每一个Consumer Group,也就好像是这条message被广播到每个Consumer Group一样。而每个Consumer Group中,类...转载 2019-11-27 18:03:34 · 1031 阅读 · 0 评论 -
kafka配置项host.name advertised.host.name
遇到的问题:在本机或者其他机器telnet IP 9092,通,使用域名也通,telnet 127.0.0.1 9092不通host.name:按配置文件说明,是Kafka绑定的interface。其实这个说明有点误导,下面会见到。advertised.host.name:是注册到zookeeper,client要访问的broker地址。(可能producer也是拿这个值,...转载 2019-11-18 16:12:29 · 7712 阅读 · 0 评论 -
Hive记录-hive权限控制
Hive记录-hive权限控制在使用Hive的元数据配置权限之前必须现在hive-site.xml中配置两个参数,配置参数如下:<property> <name>hive.security.authorization.enabled</name> <value>true</value> </property>...转载 2019-10-26 12:41:25 · 410 阅读 · 0 评论 -
HDFS操作集锦
1、查看HDFS文件hadoop dfs -ls /hbase2、统计HDFS文件数量、空间大小 (1)单位未转换hadoop dfs -count-q /hbase (2)按单位转换hadoop dfs -count-q -h /hbase3、统计HDFS文件数量 (1)列出指定目录的下级目录占用空间大小 ...原创 2019-10-15 09:35:16 · 255 阅读 · 0 评论 -
Spark程序性能优化
Spark程序优化所需要关注的几个关键点——最主要的是数据序列化和内存优化 spark 设置相关参数问题1:reduce task数目不合适解决方法:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太少,任务运行缓慢。问题2...转载 2018-08-19 14:03:08 · 139 阅读 · 0 评论 -
Spark常见问题解决办法
Spark常见问题解决办法以下是在学习和使用spark过程中遇到的一些问题,记录下来。1、首先来说说spark任务运行完后查错最常用的一个命令,那就是把任务运行日志down下来。 程序存在错误,将日志down下来查看具体原因!down日志命令:yarn logs -applicationId app_id2、Spark性能优化的9大问题及其解决方案:http://book.51cto....转载 2018-08-18 20:21:44 · 2198 阅读 · 0 评论 -
kafka参数说明
kafka参数说明 producer参数说明 #指定kafka节点列表,用于获取metadata,不必全部指定 metadata.broker.list=192.168.2.105:9092,192.168.2.106:9092 # 指定分区处理类。默认kafka.producer.DefaultPartitioner,表通过key哈希到对应分区 #partit...转载 2018-08-16 09:54:25 · 258 阅读 · 0 评论 -
大数据技能图谱
大数据技能图谱转载 2018-08-20 14:26:32 · 672 阅读 · 0 评论 -
Huawei Libra数据库常用语句
1、空间查询 (1)数据库占用空间查询 select pg_size_pretty(pg_database_size('db_data')); (2)模式占用空间查询 select pg_size_pretty(sum(pg_relation_size(relid))) from pg_stat_user_tables where sc...原创 2019-08-20 16:59:26 · 3255 阅读 · 2 评论 -
hbase 基本语法
2016年09月21日 14:31:53蘑菇丁阅读数 4021 进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户 hbase(main...转载 2019-08-21 10:27:52 · 333 阅读 · 0 评论 -
postgresql表锁问题解决
postgresql表锁问题解决2015年04月28日 11:25:32道秋adol阅读数 7782更多分类专栏:postgresql版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/chendaoqiu/article/details/45333571(1)从pg...转载 2019-08-29 22:09:42 · 1684 阅读 · 0 评论 -
PostgreSql 获取所有的表、视图、字段、 主键
1、PostgreSQL获取数据库中所有view名视图:SELECT viewname FROM pg_views WHERE schemaname ='public' 2、postgreSQL获取数据库中所有table名 表:SELECT tablename FROM pg_tables WHERE tablename N...原创 2019-09-03 10:13:10 · 4904 阅读 · 0 评论 -
Spark Executor在YARN上的内存分配
Spark Executor在YARN上的内存分配一个Executor对应一个JVM进程。从Spark的角度看,Executor占用的内存分为两部分:ExecutorMemory和MemoryOverhead 一、ExecutorMemoryExecutorMemory为JVM进程的Java堆区域。大小通过属性spark.executor.memory设置。也可以在spark-submit命...转载 2018-07-09 09:02:37 · 717 阅读 · 0 评论