
Hadoop
秉寒
但行好事,莫问前程
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
对 Hive 数仓表进行高效小文件合并
小文件如何产生 动态分区插入数据,产生大量的小文件,从而导致 map 数量剧增 reduce 数量越多,小文件也越多( reduce 的个数和输出文件是对应的) 数据源本身就包含大量的小文件小文件带来的问题 小文件会开很多 map,一个 map 开一个 JVM 去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能 小文件会给底层文件系统带来很大压力, 如在 HDFS 中,每个小文件对象约占150 byte,如果小文件过多会占用大量内存。这样 NameNode 内...原创 2021-08-02 09:58:30 · 465 阅读 · 0 评论 -
Lpad()函数与Rpad()函数简介
内容截取和补充原创 2021-08-02 09:15:18 · 270 阅读 · 0 评论 -
hive 日期 loop 自动生成
需求描述:传入一个开始时间,start_dt,一个结束时间,start_end,使其能够将开始时间到结束时间之间所有的时间 都遍历出来。实现效果:hive sql 实现:–根据开始时间和结束时间生成时间段内所有时间select regexp_replace(date_add(dt,row_number() over(order by dt) - 1),’-’,’’) as dtfrom (select explode(split(rpad(‘2019-07-20’,(datediff(原创 2021-07-07 15:42:28 · 872 阅读 · 0 评论 -
数据中台相关情况
是否支持多机房组成一个global集群,目的当一个机房物理容量不可扩容时,是否可以支持多机房的存储计算? 当IAAS层ready没问题时,产品安装时间大约多久?后续集群扩容(可以按规模给定时间,如扩容增加大约10台机器需花费时间多久?)和产品升级花费时间多久? 支持spark3了吗?如果社区flink,spark,hbase,hadoop有大版本升级,大数据平台滞后多久跟随升级? 使用产品时报错无法完成预期任务,如果是产品测的问题,多久能得到反馈解决? 产品是否支持模块化销售:基本大数据底座,数据治原创 2021-04-01 10:08:50 · 128 阅读 · 0 评论 -
superset sql lab instance error <------ 暂时没找到解决方案
Unexpected ErrorInstance <Query at 0x267853b90f0> is not bound to a Session; attribute refresh operation cannot proceed (Background on this error at: http://sqlalche.me/e/13/bhk3)原创 2021-03-31 15:37:06 · 258 阅读 · 0 评论 -
数据仓库高级工程师面试(最基本的内容)--解答
如何建设数仓,如何构建主题域 缓慢变化维 几种处理方式 什么是维度建模,星型模型与雪花模型的区别 数仓的好处 分层的好处 怎么做数据质量,怎么保证及时性和准确性 什么是维度,什么是度量 如何数据治理? 三范式 数据仓库vs数据中台vs数据湖 做过实时数仓吗,讲一下 ----------------------- 注:新浪也考过 awk输出并求和python:...原创 2021-02-18 10:01:14 · 1337 阅读 · 3 评论 -
hive ,tez , spark sql 小文件合并
hdfs 下小文件是最致命的影响之一Hive 命令hive.merge.mapredfiles=true;hive.merge.mapfiles=truehive.merge.rcfile.block.level=truehive.merge.size.per.task=256000000hive.merge.smallfiles.avgsize=16000000tez 命令hive.merge.tezfiles=truespark 命令 :hive.merg...原创 2021-01-15 15:01:04 · 1178 阅读 · 0 评论 -
在执行Sparksql操作orc类型的表时抛出:java.lang.IndexOutOfBoundsException 或者 java.lang.NullPointerException
案例 (spark version 2.4.6):create tmp.table_Y_x_h partitioned by (key string) stored as orc ;insert overwrite table tmp.table partition(key='ur_my_love') select * from tablex where 1=2 ;会在hdfs key path 下生成一个000000_00 size 大小为 0 的空文件 ;在spark-s...原创 2021-01-12 14:21:46 · 784 阅读 · 0 评论 -
spark2.4.6 版本下创建orc临时表错误
create tmp.table stored as orc as select * from tmp.tablesx;insert into tmp.table select * from tmp.tablesy;会造成 hdfs 文件的后缀名称不一致 ,造成 spark 引擎下部分数据不能读取的错误 ;解决方法 :1. 上述的sql 通过 union all 进行合并2.增加参数强制统一hdfs文件格式 :spark.sql.hive.convertMetast...原创 2021-01-12 14:12:00 · 473 阅读 · 0 评论 -
Kubenetes 与 hadoop 的关系是怎样的
Kubenetes 与 hadoop 的关系是怎样的原创 2020-12-16 20:00:10 · 476 阅读 · 0 评论 -
flink 下的流批一体是怎么一会儿事情
flink 下的流批一体是怎么一会儿事情原创 2020-12-15 15:51:09 · 389 阅读 · 0 评论 -
一个头疼的错误(Hadoop hive )
Error in query : org.apache.hadoop.hive.ql.metadata.HiveException:get partition :Value for key dt is null or empty ;Solution :原创 2020-11-26 16:29:47 · 802 阅读 · 1 评论 -
hadoop 统计系统文件占用空间统计语句
hadoop fs -du -h hdfshadoop fs -du -s -h hdfs://dim.db原创 2020-11-11 15:52:37 · 442 阅读 · 0 评论 -
大数据架构学习交流提高
大数据架构师 \ 专家 战略合作 希望参与 交流会人工智能架构师数据能力 规划 计划 数字货币 六位 老师 实时数据 + 结果BIHbase + 多维分析 查询 决策 风控 AI 建模等 current 统计 支付监管 反洗钱 等 博士 提供驻场等实施 : flink + kafkafusioninsdie人脸识别 ++++ 支付 案例 以及图像识别 Hbase + ES 黑科技江苏公安 跨域协同 公安部的 数据生命周期 准...原创 2020-11-02 10:09:48 · 283 阅读 · 0 评论 -
大数据基础、数据仓库以及数据中台和挖掘阶段性总结
【腾讯文档】大数据基础https://docs.qq.com/slide/DQXlvZHVUTGJQR3hE原创 2020-09-18 15:52:08 · 280 阅读 · 0 评论 -
loading data to table 分区非常的多 ,造成时间非常长
在贴源层大概有两年的数据 ,存在一个分区里面 ,在往odm 写入时候 按照交易时间进行重新分区 ,造成运行时间非常长,这个有什么解决方案呢 ?loading。。。。原创 2020-06-06 17:37:27 · 778 阅读 · 2 评论 -
hive kill command 和 Hadoop Job infomation 之间的时间间隔很大
hive kill command 和 Hadoop Job infomation for stage-19 number of mappers 之间的时间间隔很大超过三分钟 ,不知道什么原因原创 2020-06-04 14:19:12 · 401 阅读 · 0 评论 -
一种增量数据加工处理方法在大数据治理过程中的应用
技术交底书 交底书名称 一种增量数据加工处理方法在大数据治理过程中的应用 发明人(可以多个) 第一发明人身份证号码 交底书撰写人 电话&手机 Emai...原创 2019-03-21 10:12:24 · 1496 阅读 · 0 评论 -
Hive 解析 json,json array
在大数据处理中经常遇到业务端发送json 数据到 table 里 的情况 ,这个需要数据开发工程师能够准备对json string 进行解析 ,并重新定义新表的结构 。在网络上看到很多网友提到 get_json_object ,json_tuple 的使用和案例 ,结合 替换和分组函数可以比较容易的对json 数据完成解析 。不久前我们遇到一个json 类似 格式如下 :{...原创 2018-07-18 14:13:22 · 5471 阅读 · 1 评论 -
通过http 协议 可以访问 Hadoop 50070 端口,hadoop 里面配置的servlet 是什么容器呢 ?
Jetty 是一个开源的servlet容器,它为基于Java的web容器,例如JSP和servlet提供运行环境。Jetty是使用Java语言编写的,它的API以一组JAR包的形式发布。开发人员可以将Jetty容器实例化成一个对象,可以迅速为一些独立运行(stand-alone)的Java应用提供网络和web连接。原创 2016-05-27 15:49:48 · 1191 阅读 · 0 评论 -
日期 Long 类型和date 类型转化
select create_time ,FROM_UNIXTIME(CREATE_TIME/1000,'%Y-%m-%d %H:%i:%s') from xxxx where create_time = 1551691014日期 Long 类型和date 类型转化原创 2019-03-04 17:20:12 · 988 阅读 · 0 评论 -
zk kafka mariadb scala flink integration
zk kafka mariadb scala flink integrationI do not want to write this paper in the beginning , put the codes onto github.com/git.jd.com, while there some errors since moved to jdd(jd finance) this mon...原创 2019-01-17 08:50:28 · 295 阅读 · 0 评论 -
flink stream 终于上local 集群 运行起来
先上图 运行界面运行了三个任务第一个是word count第二三个是 数据 producer and consumer ----> 更多代码 可以参考上一篇blog 里面有很详细的介绍 在数据从idea 导出jar 包 已经 运行的过程中遇到两个问题 1,导出时候 因为是单机环境 需要把 kafka 等相关的依赖 一起导出 参考这个blog ,主要是要勾选...原创 2019-01-23 20:18:46 · 458 阅读 · 0 评论 -
大数据知识体系
整个大数据处理的体系,按我的理解可以分为两个部分,一个是分布式存储系统、另一个是分布式计算框架。分布式存储系统主流是HadoopDFS,其他还有Ceph和Swift。分布式计算框架主流是MapReduce,Storm和Spark。 首先说分布式存储系统HadoopDFS。它是一种本地文件系统之上的更高的抽象,把跨节点的组成的文件系统看成一个逻辑上的整体。它存储的思路是,把原创 2016-11-13 14:36:00 · 5263 阅读 · 0 评论 -
大数据面试题
1.列举spark 比hadoop 快的原 因 ,以及现在存在的主要问题2.描述下使用spark streaming 和 GraphX实现实时计算的可行性,以及可能会遇到的问题3.GraphX的Pregel API 只支持有向图遍历 ,如何实现无xiang 遍历,描述思路4.SPark 通过yarn 提交任务时,yarn-client & yarn-cluster 的区别原创 2016-10-15 13:36:56 · 1102 阅读 · 0 评论 -
大数据hadoop 面试经典题
1.在Hadoop中定义的主要公用InputFormat中,默认是哪一个?(A) A、 TextInputFormatB、 KeyValueInputFormatC、 SequenceFileInputFormat 1. 下面哪个程序负责 HDFS 数据存储?(C) A.NameNodeB.JobTracker原创 2016-10-14 22:18:58 · 39385 阅读 · 3 评论 -
Hadoop 源码编译 step by step 最简洁的步骤
各软件版本:Java : 1.7.0_79Hadoop : hadoop-2.6.5-src.tar.gzmaven:3.3.9protocbuf:2.5解压缩 tar -zxvf 1 配置maven 环境变量 export MAVEN_HOME=/root/compileHadoop/maven-3.3.9export PATH=$PATH:原创 2016-10-12 22:17:42 · 2721 阅读 · 3 评论 -
YARN基本架构
YARN基本架构原创 2016-07-15 09:06:48 · 700 阅读 · 0 评论 -
MapReduce Hive Hbase 项目 优化
一、调优的目的 充分的利用机器的性能,更快的完成mr程序的计算任务。甚至是在有限的机器条件下,能够支持运行足够多的mr程序。二、调优的总体概述 从mr程序的内部运行机制,我们可以了解到一个mr程序由mapper和reducer两个阶段组成,其中mapper阶段包括数据的读取、map处理以及写出操作(排序和合并/sort&merge),而reducer阶段包含mapper输出原创 2016-07-03 17:06:32 · 1477 阅读 · 0 评论 -
大数据技术之Hadoop 基础认识
大数据技术之Hadoop原创 2016-05-03 22:52:23 · 727 阅读 · 0 评论 -
crontab+shell 作业流程调度
在前面的文章中,我们有简单提到过 shell or python 调度hive 的 伪代码 ,今天我们在丰富下 这些伪代码 http://blog.youkuaiyun.com/haohaixingyun/article/details/51821444说明,在实际生产环境中,可能会部署一些成熟的作业流程调度引擎 Oozie or Azkaban 等 ,更多详细资料 请自行查阅 今天我原创 2016-07-19 23:15:52 · 941 阅读 · 0 评论 -
CDH 与 CM 环境搭建,配置,集成大数据服务
CDH 环境搭建配置集成原创 2016-07-15 18:00:46 · 1265 阅读 · 0 评论 -
hadoop fs 运维常用的几个命令
FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认schem原创 2017-05-30 17:58:08 · 1928 阅读 · 0 评论 -
How to establish a big data platform ?
How to establish a big data platform ?http://xyz.insightdataengineering.com/blog/pipeline_map/https://blog.insightdatascience.com/the-data-engineering-ecosystem-in-2017-2c2a3429350e这张图很好的呈现了,每个框原创 2017-08-16 17:36:08 · 361 阅读 · 0 评论 -
Sqoop 调试 错误 from hive to mysql
1. mysql jdbc 错误 需要驱动 2. mysql 服务器 ip 错误 即便是本地 也需要用 域名 或 是 ip 不能 用 localhost 等 3. 数据长度 问题 ,hive 乳沟 大于 mysql 错误4. hive 跟 mysql 字段名称 尽量匹配 或是 一致 5. hive 的 dt 数据 是通步不过去的 需要单独 使用一个 dt 同步时...原创 2018-12-21 20:15:37 · 239 阅读 · 0 评论 -
hive 小文件数据合并
hive 数据有时候需要进行数据合并 #!/bin/bashhadoop jar /software/servers/bdp_tools/mergefiles-1.7.jar -u lzo -p hdfs://ns1/user/dd_edw/adm.db/table_name/dt=2018-09-012018/12/06 今儿谈话聊天更精进一部lovely #!/bi...原创 2018-12-06 14:07:20 · 692 阅读 · 0 评论 -
The most important parameters of spark env when you using spark run data things
The most important parameters of spark env when you using spark run data thingsIn my memory I always confused by these parameters ,so it's a good time to understand them totally thanksThere ar...原创 2018-11-02 16:39:56 · 196 阅读 · 0 评论 -
Hive 行列转换
在京东众多业务中,促销业务充满了复杂性和挑战性,因为业务的灵活性,很多数据都存储成xml和json格式数据,这就要求下游数据分析师们需要对其做解析后方可使用 。在众多操作中 ,有一种是需要对数据做行列转换操作。数据结构:create external table jd_row_to_column(jd_id string ,jd_session string );数据描述:...原创 2018-09-26 20:15:40 · 597 阅读 · 0 评论 -
Hive SQL 将一个行转化成N多列
select explode(Array('row1','row2','...','rown'))Result col_name row1row2...rown原创 2018-06-16 16:53:37 · 2402 阅读 · 0 评论 -
Hive udtf 报错 java.lang.String cannot be cast to java.lang.Integer
Error :Failed with exception java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: java.lang.String cannot be cast to java.lang.Integerreason :在设置IO类型时采用...原创 2018-03-08 09:13:44 · 3451 阅读 · 1 评论