
hadoop
Rudolf__
努力成为有思想的人
展开
-
Kettle将mysql数据导入到Hive 数据类型不支持Decimal
1.我要将mysql的数据迁移到hdfs,使用etl工具Kettle 2.在迁移过程中首先启动hadoop和hive hadoop启动start-all.sh,通过方位webui查看相关服务是否启动正常 hive启动hive --service metastore &;hive --service hiveserver2 &; 查看端口10000是否启动成功,netstat -alnp|grep 10000; 3.在kettle写入的步骤报错Error setting value #124原创 2020-11-26 15:30:24 · 916 阅读 · 0 评论 -
CDH 搭建impala,kudu 建表插入数据问题总结
环境前提:cdh安装了hdfs/hive/yarn/zk/impala/kudu,所以集群都启动,且各个服务web-ui都可以访问,kudu-master-ui找不到tservers,端口都启动正确,用netstat -anlp|grep 端口 1.impala不能插入数据,unable to find SASL plugin: PLAIN 主要是确实依赖, yum install gcc python-devel yum install cyrus-sasl* 2.不能创建kudu表,...原创 2020-11-07 14:55:51 · 1633 阅读 · 1 评论 -
sqoop从mysql导数到hive动态分区
1.创建有dt的普通表homs.oms_order_tmp CREATE TABLE homs.oms_order_tmp(id int,order_id bigint,order_name string,custom string,created_time string,created_by date,updated_time string,updated_by string,status tinyint,day string) COMMENT ‘订单临时表’ STORED As textfile; 问题原创 2020-10-17 11:18:14 · 1193 阅读 · 0 评论 -
w-hadoop02
1.0 简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。 答:第一题:1使用root账户登录 2 修改IP 3 修改host主机名 4 配置SSH免密码登录 5 关闭防火墙 6 安装JDK 6 解压hadoop安装包 7 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred-site.xml ,...原创 2019-06-06 18:21:51 · 311 阅读 · 0 评论 -
w-hadoop01
大数据面试总结 大数据基础部分面试题: 一.你了解Hadoop吗?讲一下Hadoop中HDFS的读写原理。 读: 客户端调用FileSystem的open方法,来打开希望读取的文件。 FileSystem通过Rpc与namenode通信,namenode将获取到的信息整理,并将文件的所有内容发送给FileSystem对象,所有的副本块都会有对应的datanode位置信息;namenode会根据当前...原创 2019-06-06 18:20:59 · 211 阅读 · 0 评论 -
w-sqoop
sqoop sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统 导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HDFS,Hi...原创 2019-06-06 18:20:25 · 255 阅读 · 0 评论 -
w-hive-codeView
一、求单月访问次数和总访问次数 1、数据说明 数据字段说明 用户名,月份,访问次数 数据格式 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-01,25 A,2015-01,5 A,2015-02,4 A,2015-02,6 B,2015-02,10 B,2015-02,5 A,2015-03,16 A,2015-03,22 B,20...原创 2019-06-06 18:19:41 · 204 阅读 · 0 评论 -
w-hive
Hive数据倾斜 原因 key分布不均匀 业务数据本身的特性 SQL语句造成数据倾斜 解决方法 hive设置hive.map.aggr=true和hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中,Map的输出结果集合会随机分布到Reduce中,每个Reduce做部分聚合操作,并...原创 2019-06-06 18:19:04 · 212 阅读 · 0 评论 -
w-Hive sql编写优化总结2-25
Hive sql编写优化总结 Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数据库下开发的一些固有思维。 基本原则: 1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段 select … from A jo...原创 2019-06-06 18:18:31 · 192 阅读 · 0 评论 -
w 数据清洗
etl:数据清洗的一些梳理 数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。 预处理阶段 预处理阶段主要做两件事情: 一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。 二是看数据。这里...转载 2019-06-06 18:17:39 · 255 阅读 · 0 评论 -
Windows运行Hadoop MapReduce
1 导包 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <vers原创 2018-12-06 23:39:28 · 356 阅读 · 0 评论