
Hadoop
文章平均质量分 69
BabyFish13
不要急,慢慢来;控制好节奏,奋斗到底!
展开
-
hive 之 Cube, Rollup等上钻函数
cube和rollup的区别是CUBE会根据指定列进行所有组合,rollup会根据顺序从左到右进行组合可以使用grouping进行空值判断可以使用grouping__id进行粒度区分。原创 2025-02-24 20:03:04 · 1009 阅读 · 0 评论 -
Hadoop大数据生态圈中的组件角色与关系
各种大数据框架近几年发展得如火如荼,比如Hadoop, MapReduce,Hive, Hbase, Storm, Spark, Flink, Kylin 等。一、Hadoop核心组件首先要介绍一下Hadoop,现在Hadoop分为3部分,分别是HDFS,Yarn和Mrv2Hadoop CommonHadoop Common是在Hadoop0.2版本之后分离出来的HDFS和MapReduce独立子项目的内容,是Hadoop的核心部分,能为其他模块提供一些常用工具集,如序列化机制、Hadoop原创 2020-05-15 16:26:39 · 1346 阅读 · 0 评论 -
Hive切换计算引擎
1、默认计算引擎mrset hive.execution.engine=mr;2、spark计算引擎set hive.execution.engine=spark;set spark.executor.cores=2;set spark.executor.memory=10G;set spark.executor.instances=10;set hive.mapred.m...原创 2019-10-16 13:23:02 · 3907 阅读 · 0 评论 -
用Python编写MapReduce代码与调用-统计accessLog中链接的点击量
1、mapper/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/hitCalc_mapper.py#!/usr/bin/env python# encoding: utf-8import sysimport re# 输入为标准输入stdinfor line in sys.stdin: # 删除开头和结果的空格 l原创 2017-08-04 13:58:27 · 680 阅读 · 0 评论 -
Hive汇总统计数据自动化传输到Mysql数据库
之前[Python将Hive汇总数据装载到Mysql]-->http://blog.youkuaiyun.com/babyfish13/article/details/68061213,针对具体情况,而不能工具化使用,本文则解决了工具化使用的问题。本代码实现了Hive数据汇总之后,直接在Mysql上建表并进行数据传输。其中,主要传输的参数有:mysqlConfig, srcSelectText, targ原创 2017-05-24 19:40:09 · 1281 阅读 · 0 评论 -
HDFS的常用操作
一、HDFS文件的权限与Linux文件权限类似r: read; w:write; x:execute,权限x对于文件忽略,对于文件夹表示是否允许访问其内容。如果Linux系统用户hdp使用hadoop命令创建一个文件,那么这个文件在HDFS中owner就是hdp。HDFS的权限目的:阻止好人错错事,而不是阻止坏人做坏事;HDFS相信,你告诉我你是谁,我就认为你是谁。二、HD原创 2017-03-17 14:20:23 · 1884 阅读 · 0 评论 -
Hadoop回收站机制
1、简介在HDFS里,删除文件时,不会真正的删除,其实是放入回收站/trash,回收站里的文件可以快速恢复。可以设置一个时间阀值,当回收站里文件的存放时间超过这个阀值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。2、回收站功能启用Hadoop的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启。修改core-site.xml,增原创 2017-03-17 12:10:44 · 4500 阅读 · 0 评论 -
Python从阿里云Oss拉数据写入Hive表并进行相关处理
数据的流向是:先从Oss拉取原始日志文件数据,根据Hive分区表建表规范放在HDFS上;然后将数据根据不同的过滤条件分别插入到对应的其他中间表;由于空间有限,原始数据转移处理好之后,立马删除从Oss上拉取下来的日志数据;之后,再分别对各中间表数据利用Hive正则进行切分和提取,并根据需求进行汇总统计及tableau展现。1、Hive目标库建表drop table if exists xx_原创 2017-03-20 12:26:58 · 1745 阅读 · 0 评论 -
Hadoop任务查看管理相关
1.查看 Job 信息:hadoop job -list 2.杀掉 Job: hadoop job –kill job_id3.指定路径下查看历史日志汇总:hadoop job -history output-dir 4.作业的更多细节: hadoop job -history all output-dir 5.打印map和reduce完成百分比原创 2017-03-17 19:40:33 · 5593 阅读 · 0 评论 -
用Python编写MapReduce代码与调用-某一天之前的所有活跃用户统计(2)
要实现的需求与相关表结构信息见【用Python编写MapReduce代码与调用-某一天之前的所有活跃用户统计(1)--->http://blog.youkuaiyun.com/babyfish13/article/details/53841990】考虑到此需求与词频统计有一定的相似性,所以代码由词频统计改编而成;且保证了无论如何调试和调用,数据的准确性。1、mapper/Users/nisj/Py原创 2016-12-23 18:38:51 · 950 阅读 · 0 评论 -
用Python编写MapReduce代码与调用-统计accessLog中链接所对应的UV
1、mapper/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/hitCalc_mapper.py#!/usr/bin/env python# encoding: utf-8import sysimport re# 输入为标准输入stdinfor line in sys.stdin: if '/api/o...原创 2017-08-04 17:31:53 · 374 阅读 · 0 评论 -
Python的MapReduce调用及多输入文件的使用(统计url的点击量)
1、在日志中统计对应链接的点击量脚本由于业务上暂用不到reduce过程,所以只有一个mapper脚本。/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/filter_mapperOnly.py#!/usr/bin/env python# encoding: utf-8import sys# 输入为标准输入stdinfor lin原创 2017-08-28 10:16:34 · 2189 阅读 · 0 评论 -
对Hadoop生态圈的一个理解
来源:知乎作者:Xiaoyu Ma链接:https://www.zhihu.com/question/27974418/answer/38965760大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者原创 2017-11-17 11:04:59 · 670 阅读 · 0 评论 -
E-MapReduce上Hive创建基于oss的外部表
1、在E-MapReduce上创建基于OSS的Hive外部表样例:hive> show create table oss_share_feedback;OKCREATE EXTERNAL TABLE `oss_share_feedback`( `uid` string, `os` string, `source_id` string, `type` string,原创 2017-12-20 11:15:14 · 2019 阅读 · 0 评论 -
某live平台生产环境E-MR配置情况一览
1、集群概况Hadoop version:2.7.2Memory Total:409.59 GBVCores Total:164Active Nodes:16namenode:emr-header-1emr-header-2datanode:emr-worker-1emr-worker-2emr-worker-3emr-worker-4emr原创 2017-12-26 10:11:04 · 633 阅读 · 0 评论 -
Hive文件存储格式
hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)-支持有限5、Parquet-主要是用在Cloudera Impala上面其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SEQUENCEFILE,RCFILE,ORCFILE格式的表不能...原创 2019-08-18 16:48:43 · 827 阅读 · 1 评论 -
hive与hbase互通互联
1、hbase建表及插入数据1.1、启动终端hbase shell1.2、hbase建表create 'student', 'id', 'name'1.3、插入数据put 'student', 'row1', 'id:val', '1'put 'student', 'row1', 'name:val', 'Tony'put 'student', 'row2', 'id...原创 2019-09-21 17:03:08 · 447 阅读 · 0 评论 -
Hadoop集群间distcp数据同步小记
1、本地hdfs文件查看hadoop dfs -ls /usr/hive/warehouse/dwf.db/dwf_user_kuanbiao_full_1d/dt=2019-09-21hadoop dfs -ls /usr/hive/warehouse/dwf.db/hadoop dfs -ls /usr/hive/warehouse/dwf.db/dwf_user_kuanbiao_...原创 2019-10-08 10:56:06 · 1573 阅读 · 0 评论 -
Hive的数据存储格式
Hive支持的存储格式有: Text File SequenceFile RCFile Avro Files ORC Files Parquet注:Hive默认的格式为Text File,可以通过set hive.default.fileformat查看。hive支持在创建表的时候对数据进行压缩,配置如下:设置开启压缩:set hive.exec...原创 2019-10-10 17:53:04 · 759 阅读 · 0 评论 -
用Python编写MapReduce代码与调用-某一天之前的所有活跃用户统计(1)
需求:根据access_log数据,按平台与渠道维度统计出某一天之前的独立identifier数量。Hdfs文件对应的表结构信息:源表CREATE TABLE `bi_all_access_log`( `appsource` string, `appkey` string, `identifier` string, `uid` string)PARTIT原创 2016-12-23 17:30:35 · 1558 阅读 · 0 评论 -
Python多线程调用Hive接口的MapReduce示例
1、单线程Hive调用/Users/nisj/PycharmProjects/EsDataProc/bi-static/hive-user_appsource_detail.py# -*- coding=utf-8 -*-import warningsimport datetimeimport timeimport oswarnings.filterwarnings("igno原创 2017-01-03 15:54:48 · 1523 阅读 · 0 评论 -
hadoop分布式复制命令distcp
distcp一般用于在两个HDFS集群中传输数据。如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar Hadoop distcp命令用于在两个不同的集群间拷贝数据,它的优点在于将数据拷贝操作作为mapred程序来执行,这样就大大提高了拷贝的速度,使用d原创 2016-12-15 13:59:22 · 2191 阅读 · 0 评论 -
HIVE授权配置
HIVE授权管理,类似于操作系统权限可以授予给不同的主题,如用户(USER),组(GROUP),角色(ROLES),Hive还是支持相当多的权限管理功能,满足一般数据仓库的使用,同时HIVE能支持自定义权限。HIVE授权并不是完全安全,在其目前的形式来看,授权方案的目的是主要是为了防止用户不小心做了不合法的操作,但不承诺防止用户恶意破坏。1、开启Hive的身份认证功能,默认是false原创 2016-04-18 17:45:38 · 2258 阅读 · 0 评论 -
Hive View
Hive 0.6版本及以上支持视图,Hive View具有以下特点:1)View是逻辑视图,暂不支持物化视图(后续将在1.0.3版本以后支持);2)View是只读的,不支持LOAD/INSERT/ALTER。需要改变View定义,可以是用Alter View;3)View内可能包含ORDER BY/LIMIT语句,假如一个针对View的查询也包含这些语句, 则View中的语句优先级高;原创 2016-04-28 13:43:20 · 1661 阅读 · 0 评论 -
前几篇文章基于的大数据环境说明
1、os版本[hs@master ~]$ lsb_release -a LSB Version: :core-4.1-amd64:core-4.1-noarchDistributor ID: CentOSDescription: CentOS Linux release 7.0.1406 (Core) Release: 7.0.1406Codename: Core[h原创 2016-03-23 20:45:59 · 805 阅读 · 0 评论 -
Hive1.2.1安装配置实录整理
本文是另一篇文章的补充:http://blog.youkuaiyun.com/nisjlvhudy/article/details/49338883。1、配置Hive元数据库(此处为mysql)在已经装好的mysql上新增用户:create user 'hive' identified by 'iloveyou';grant all privileges on *.* to 'hive'@'%原创 2016-03-23 17:29:15 · 1071 阅读 · 2 评论 -
CentOS7安装Hadoop2.7.2实录整理
另一篇相关文章地址:http://blog.youkuaiyun.com/nisjlvhudy/article/details/493388511、安装环境4台CentOS7,64位,Hadoop2.7需要64位Linux版对应的HOSTS文件内容:10.91.99.101 master10.91.99.102 slave110.91.99.103 slave210.91.99.1原创 2016-03-23 15:55:28 · 1114 阅读 · 0 评论 -
HBase环境安装配置
环境:操作系统Centos 7 64-bit3台节点 ip 主机名 10.91.99.101 master10.91.99.102 slave110.91.99.103 slave210.91.99.104 slave3 三个节点上已经布署好hadoop集群并正常启动。1、下载并解压hbase-1.0.3-bin.tar.gz到~/opt原创 2016-03-23 14:24:36 · 1260 阅读 · 0 评论 -
Linux上ZooKeeper单机及集群的安装
Zookeeper的安装和配置相对简单, 既可以配置成单机模式, 也可以配置成集群模式。1、下载解压安装包wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gztar -xzvf zookeeper-3.4.6.tar.gzmv zookeeper-3.4.6 ~/o原创 2016-03-23 13:40:23 · 1257 阅读 · 0 评论 -
HBase表及其数据存储的理解
HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/原创 2016-04-05 11:07:38 · 1609 阅读 · 0 评论 -
Hive与HBase特性及区别
1、HiveApache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,而不是数据库。Hive可以看作是用户编程接口,它本身不存储和计算数据;它依赖于HDFS(Hadoop分布式文件系统)和MapReduce(一种编程模型,映射与化简;用于大数据并行运算)。其对HDFS的操作类似于SQL—名为HQL,它提供了丰富的SQL查询方式来分析存储在HDFS中的数据;HQL经过编原创 2016-03-23 10:21:59 · 1201 阅读 · 0 评论 -
Hive数据倾斜问题总结
1数据倾斜的原因1.1操作:关键词:Join情形:其中一个表较小,但是key集中--->后果:分发到某一个或几个Reduce上的数据远高于平均值情形:大表与大表,但是分桶的判断字段0值或空值过多--->后果:这些空值都由一个reduce处理,灰常慢关键词:group by情形:group by 维度过小,某值的数量过多--->后果:处理某值的reduce灰常耗时原创 2016-07-11 16:31:06 · 885 阅读 · 0 评论 -
hadoop job相关命令
1.查看 Job 信息hadoop job -list 2.杀掉 Jobhadoop job –kill job_id3.指定路径下查看历史日志汇总hadoop job -history output-dir 4.作业的更多细节hadoop job -history all output-dir 5.打印map和reduce完成百分比和所有计数器ha原创 2016-08-26 11:12:29 · 817 阅读 · 0 评论 -
hadoop常用操作命令
启动Hadoop 进入HADOOP_HOME目录。 执行sh bin/start-all.sh 关闭Hadoop 进入HADOOP_HOME目录。 执行sh bin/stop-all.sh 1、查看指定目录下内容 hadoop dfs -ls [文件目录] eg: hadoop dfs -ls hdfs://emr-cluster/user/hive/w原创 2016-08-26 11:00:21 · 600 阅读 · 0 评论 -
几个有关hadoop生态系统的架构图
1、hadoop1.0时期架构2、hadoop2.0时期架构3、hdfs架构Active Namenode主 Master(只有一个),管理 HDFS 的名称空间,管理数据块映射信息;配置副本策略;处理客户端读写请求Secondary NameNodeNameNode 的热备;定期合并 fsimage 和 fsedits,推送给 NameNode;当 Activ原创 2016-09-13 17:24:53 · 20487 阅读 · 1 评论 -
离线安装Cloudera Manager 5(5.1.3)和CDH5(5.1.3)
关于CDH和Cloudera ManagerCDH是cloudera公司开发的一个快速部署、高效管理Hadoop和其各种组件的一个商业化产品。主要分为两部分,分别为Cloudera Manager和CDH软件包。其中Cloudera Manager负责集群的部署与管理。CDH软件包囊括了hdaoop各类的组件的安装包,例如hive、hdfs、Spark等等。CDH (Clouder原创 2016-09-01 15:26:25 · 1938 阅读 · 0 评论 -
【知乎】上关于数据规模与大数据平台方面的一个讨论
请问单月数亿/年度超过十亿级规模的日志分析系统需要使用Hadoop吗? 目前在小范围试用的一个系统,生产环境用的Oracle数据库。系统的行为日志模块要详细记录所有用户(总的活跃用户规模大概几百万)的每一个操作,根据目前小规模试用的现状评估,预计全面使用后单月的行为日志数会达到数亿的规模。用户行为日志分析在系统中是一个蛮重要的模块,目前在小规模试用期几百万数据量的情况下用Oracle速度原创 2016-08-01 13:58:11 · 5470 阅读 · 0 评论 -
查看Hive表信息及占用空间的方法
一、Hive下查看数据表信息的方法方法1:查看表的字段信息desc table_name;方法2:查看表的字段信息及元数据存储路径desc extended table_name;方法3:查看表的字段信息及元数据存储路径desc formatted table_name;方法4:查看建表语句及其他详细信息的方法show create table table_原创 2016-07-28 15:43:47 · 35893 阅读 · 0 评论 -
淘宝Hadoop集群机器硬件配置及使用场景
国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25000个节点,主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、腾讯、华为、中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大)。淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,原创 2016-06-30 17:51:08 · 2136 阅读 · 0 评论 -
Hadoop生态系统搭建总结
主要涉及hadoop、hive、hbase、zookeeper、sqoop等,详细过程参见官方文档,本文只是总结常见的一些问题。1、首先是版本的选择,一般选择cloudera 的cdh版,注意相互之间的兼容性,否则出现莫名其妙的问题。2、配置ssh无密码访问时要注意,.ssh目录的权限问题,跟各个开发包一样,各节点必须一致,否则会出现启动Hadoop时让手动输密码。3、在配置c原创 2016-06-30 17:39:19 · 1165 阅读 · 0 评论