
BigData
文章平均质量分 83
BabyFish13
不要急,慢慢来;控制好节奏,奋斗到底!
展开
-
大数据的发展历史
大数据将近30年的发展历史,经历几多阶段。1 启蒙阶段:数据仓库的出现20世纪90年代,商业智能(也就是我们熟悉的BI系统)诞生,它将企业已有的业务数据转化成为知识,帮助老板们进行经营决策。比如零售场景中:需要分析商品的销售数据和库存信息,以便制定合理的采购计划。显然,商业智能离不开数据分析,它需要聚合多个业务系统的数据(比如交易系统、仓储系统),再进行大数据量的范围查询。而传统数据库都是面向单一业务的增删改查,无法满足此需求,这样就促使了数据仓库概念的出现。传统的数据仓库,第一次明确了数据分.原创 2021-01-15 11:06:22 · 7568 阅读 · 0 评论 -
大数据查询分析引擎比较
1、常见方案比较首先,Hive/SparkSQL 在数据仓库的领域应用是比较广泛的,但是因为查询时延很难能够满足毫秒到秒级的要求,同时因为是离线计算,数据时效性也比较差。其次,ES (Elasticsearch+Logstash+Kibana)是一个功能很强大的系统,在中等数据规模场景下能较好地满足需求,但是在万亿和更大的数据规模场景下,数据的写入性能和查询性能都遇到了很大的瓶颈。最后,Kylin 和 Druid 功能比较类似,考虑到 Druid 采用 OLAP 架构,数据时效性相对于 Kylin原创 2020-05-19 11:49:26 · 2388 阅读 · 0 评论 -
Hadoop大数据生态圈中的组件角色与关系
各种大数据框架近几年发展得如火如荼,比如Hadoop, MapReduce,Hive, Hbase, Storm, Spark, Flink, Kylin 等。一、Hadoop核心组件首先要介绍一下Hadoop,现在Hadoop分为3部分,分别是HDFS,Yarn和Mrv2Hadoop CommonHadoop Common是在Hadoop0.2版本之后分离出来的HDFS和MapReduce独立子项目的内容,是Hadoop的核心部分,能为其他模块提供一些常用工具集,如序列化机制、Hadoop原创 2020-05-15 16:26:39 · 1346 阅读 · 0 评论 -
初识kudu
kudu是一个与hbase类似的列式存储分布式数据库。官方给kudu的定位是:在更新更及时的基础上实现更快的数据分析。hdfs与hbase数据存储的缺点:目前数据存储有了HDFS与hbase,为什么还要额外的弄一个kudu呢?HDFS:使用列式存储格式Apache Parquet,Apache ORC,适合离线分析,不支持单条纪录级别的update操作,随机读写性能差。HBASE:可以进行高效随机读写,却并不适用于基于SQL的数据分析方向,大批量数据获取时的性能较差。正因为HDFS与HBASE有上原创 2020-05-13 13:49:30 · 524 阅读 · 0 评论 -
通过sqoop增量传送oracle数据到hive
从网上看到的一个oracle数据通过sqoop每日增量同步到hive的shell脚本,感觉以后会有用,作为参考,备查。[spark@store ~]$ cat oracle2hive_imcrement.sh#!/bin/bash#Please set the synchronize interval,unit is hour.update_interval=24#Please s原创 2016-06-30 18:18:05 · 2692 阅读 · 0 评论 -
Python脚本进行用户信用评分体系计算的案例
项目的目的是根据各影响因子和权重计算出对应用户的信用分值。数据源涉及到库表(Hive&Mysql)的数据、打点的日志数据,数据分别在Hive及Mysql中装载及计算,相对有些复杂。可以借鉴的点:打点日志从oss上获取及日数数据的处理、装载;通过Python在mysql和Hive中进行数据的传输和计算;日期、月份、x天以前日期的获取;数据从hdfs上下载到本地;mysql关联原创 2017-09-25 19:36:25 · 3983 阅读 · 8 评论 -
大数据平台下利用Python进行Hql并行数据跑批
此是一个简单的示例,如有类似需求进行些许的改动,即可使用。如有基础数据准备的工作,需要提前准备好;本示例只关注Hql并行跑批方面。1、具体业务处理的脚本/Users/nisj/PycharmProjects/BiDataProc/parallelBatchOnBigData-forHql/business_proc.py# -*- coding=utf-8 -*-import o原创 2017-07-05 14:27:58 · 1955 阅读 · 0 评论 -
Python自动化拉取Mysql数据并装载到Hive
程序调用有并行和串行两种方式,是否用并行调度的那个脚本,取决于服务器的磁盘空间大小及源Mysql库的性能。代码调用的时候(串并行),主要修改两方面:1、如果不存在数据源则在【ParProc.py】重新配置一个;2、在串并行调度的时候,传数据源配置名、表名、表类型参数给调度程序。本次更新修改,主要涉及数据的传参等更为合理一些;实际上,在进行数据传输的时候,还有一个Bug,就是数据传输的文本字原创 2017-04-26 11:36:25 · 1620 阅读 · 0 评论 -
Hive汇总统计数据自动化传输到Mysql数据库
之前[Python将Hive汇总数据装载到Mysql]-->http://blog.youkuaiyun.com/babyfish13/article/details/68061213,针对具体情况,而不能工具化使用,本文则解决了工具化使用的问题。本代码实现了Hive数据汇总之后,直接在Mysql上建表并进行数据传输。其中,主要传输的参数有:mysqlConfig, srcSelectText, targ原创 2017-05-24 19:40:09 · 1281 阅读 · 0 评论 -
大数据环境平台日志日常跑批整理
1、日志处理模块文件目录路径/home/spark/opt/User_Behavior_Log│ date.list│ db.py│ dbjson_proc.py│ dbjson_proc_commit_optimalize.py│ json2file.py│ log_batch.sh│ ublog2hive+mysql.sh│ ublog2hi原创 2016-03-24 19:19:15 · 1871 阅读 · 0 评论 -
大数据平台用于生成数据跑批脚本的脚本(version2.0)
一、脚本文件路径[hs@master script_generate]$ pwd/home/hs/opt/dw-etl/script_generate[hs@master script_generate]$ tree -f.├── ./batch_table.list├── ./etl_table_list_update.sh├─原创 2016-06-01 15:46:29 · 17955 阅读 · 0 评论 -
大数据平台用于生成数据跑批脚本的脚本(version3.0)
一、脚本文件路径[hs@master script_generate]$ pwd/home/hs/opt/dw-etl/script_generate [hs@master script_generate]$ tree -f.├── ./batch_table.list├── ./bigtable-create_allstage_suppertab_int_sc原创 2016-06-24 16:20:43 · 3067 阅读 · 0 评论 -
大数据平台新加接口表(或接口表表结构变更)脚本更新及数据初始化
与大数据平台用于生成数据跑批脚本的脚本(version3.0)对应。1、目录路径[hs@master manual_proc]$ pwd/home/hs/opt/dw-etl/manual_proc[hs@master manual_proc]$ tree -f.├── ./cstab_str+data_update.sh├── ./manual_update_原创 2016-06-24 17:19:42 · 1506 阅读 · 0 评论 -
Python自动化拉取Mysql数据并装载到Hive
Mysql的数据表分为普通的表及以键值与256取模分表两种形式;流程顺序是先根据Mysql表结构进行Hive库上的建表,然后从Mysql下载到OS上,最后将数据装载到Hive库中。目前,暂不考虑数据的增量更新;主要考虑目前的数据环境较乱,可以较方便的将数据拉取到大数据平台,然后进行相关的计算。程序调用有并行和串行两种方式,是否用并行调度的那个脚本,取决于服务器的磁盘空间大小及源Mysql库原创 2017-03-21 17:41:02 · 2005 阅读 · 0 评论 -
对Hadoop生态圈的一个理解
来源:知乎作者:Xiaoyu Ma链接:https://www.zhihu.com/question/27974418/answer/38965760大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者原创 2017-11-17 11:04:59 · 670 阅读 · 0 评论 -
初识Impala及与Hive对比
Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计原创 2017-11-17 14:34:50 · 762 阅读 · 0 评论 -
某live平台生产环境E-MR配置情况一览
1、集群概况Hadoop version:2.7.2Memory Total:409.59 GBVCores Total:164Active Nodes:16namenode:emr-header-1emr-header-2datanode:emr-worker-1emr-worker-2emr-worker-3emr-worker-4emr原创 2017-12-26 10:11:04 · 633 阅读 · 0 评论 -
Oss文件与Os及hdfs交互
1、文件从oss上下载到本地hadoop fs -copyToLocal oss://{AccessKeyId}:{AccessKeySecret}@chushou-srv-log.oss-cn-shenzhen-internal.aliyuncs.com/tmp/nisj/Mysql2Hive.zip2、文件从本地上传到osshadoop fs -copyFromLocal /...原创 2018-09-26 14:16:11 · 2050 阅读 · 0 评论 -
OSS基本名词说明
阿里云 OSS(Object Storage Service)提供基于网络的数据存取服务。使用 OSS,可以通过网络随时存储和调用包括文本、图片、音频和视频等在内的各种结构化或非结构化数据文件。阿里云 OSS 将数据文件以对象(object)的形式上传到存储空间(bucket)中。 通过OSS可以创建一个或者多个存储空间,然后向每个存储空间中添加一个或多个文件。也可以通过获取已上传文件的地址进行文...原创 2018-06-07 10:56:49 · 1665 阅读 · 0 评论 -
Sqoop将Mysql数据导入Hadoop测试记录
1、使用query将myql数据导到hdfs目录/usr/lib/sqoop-current/bin/sqoop import \--connect jdbc:mysql://MysqlHost:6605/jellyfish_hadoop_stat \--username MysqlUser \--password MysqlPass \--query 'select operator_u...原创 2018-03-23 15:56:09 · 1094 阅读 · 0 评论 -
Hive分区修复命令MSCK使用1
场景:如果事先建立了一张分区表,然后手动(比如使用 cp 或者 mv )将分区数据拷贝到刚刚新建的表进行数据初始化;但是对于分区表,需要在hive里面手动将刚刚初始化的数据分区加入到hive里面,这样才能够查询使用。通常的做法是使用 alter table add partition命令手动添加分区;但是如果初始化的分区太多,这样一条一条地手动添加分区不免过于麻烦(虽然可以写个脚本生成添加分区原创 2018-01-26 10:38:12 · 3391 阅读 · 1 评论 -
Hive分区修复命令MSCK使用2
1、有分区元数据删除分区数据进行分区修复1.1、删除一个分区数据hadoop dfs -rmr /user/hive/warehouse/xxxxxx_uid_online/pt_day=2017-12-281.2、使用分区修复命令hive> MSCK REPAIR TABLE xxxxxx_uid_online; OKPartitions missing from filesy原创 2018-01-29 09:56:55 · 2299 阅读 · 0 评论 -
初识beeline客户端
Hive提供了两种客户端访问工具,分别是通过Hive命令行和beeline客户端。命令行方式即通过hive进入命令模式后通过执行不同的HQL命令得到对应的结果;相当于胖客户端模式,即客户机中需要安装JRE环境和Hive程序。beeline客户端方式相当于瘦客户端模式,采用JDBC方式借助于Hive Thrift服务访问Hive数据仓库。Beeline工作模式有两种,即本地嵌入模式和远程模式。嵌入模原创 2018-01-18 14:27:02 · 3939 阅读 · 2 评论 -
Hive分桶表
1、分桶表建表drop table xxxxxx_uid_online_buck;create table xxxxxx_uid_online_buck( `datehour` string, `halfhourtype` string, `uid` string, `roomid` string, `roomcreatoruid` string, `sta原创 2018-01-30 17:39:09 · 1578 阅读 · 0 评论 -
hadoop分布式复制命令distcp
distcp一般用于在两个HDFS集群中传输数据。如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar Hadoop distcp命令用于在两个不同的集群间拷贝数据,它的优点在于将数据拷贝操作作为mapred程序来执行,这样就大大提高了拷贝的速度,使用d原创 2016-12-15 13:59:22 · 2191 阅读 · 0 评论 -
使用Python实现Hive的UDF示例
主要分为两个部分,一个部分为Python脚本实现想要实现的功能,另外一个部分为HQL部分,调用Python脚本对数据进行处理。HQL调用Python实现的UDF其实有一个重定向的过程,把数据表中之列的列重定向Python的标准输入中,按行操作,首先将每行按照指定的分割符分开,一般为’\t’,然后剩下的就是对其进行操作,print需要的列,以’\t’分割。1、Python实现的UDF代码原创 2016-12-10 15:49:23 · 5437 阅读 · 0 评论 -
Hive数据倾斜问题总结
1数据倾斜的原因1.1操作:关键词:Join情形:其中一个表较小,但是key集中--->后果:分发到某一个或几个Reduce上的数据远高于平均值情形:大表与大表,但是分桶的判断字段0值或空值过多--->后果:这些空值都由一个reduce处理,灰常慢关键词:group by情形:group by 维度过小,某值的数量过多--->后果:处理某值的reduce灰常耗时原创 2016-07-11 16:31:06 · 885 阅读 · 0 评论 -
大数平台数据仓库处理对应的总控调度
与[大数据平台用于生成数据跑批脚本的脚本(version3.0)]对应。1、定时执行情况[hs@master dw-etl]$ crontab -l*/5 * * * * sh /home/hs/opt/dw-etl/etl-script/qrt/qrt-minute_batch.sh0 * * * * sh /home/hs/opt/dw-etl/etl-script/q原创 2016-06-24 17:56:01 · 903 阅读 · 0 评论 -
Hive与HBase特性及区别
1、HiveApache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,而不是数据库。Hive可以看作是用户编程接口,它本身不存储和计算数据;它依赖于HDFS(Hadoop分布式文件系统)和MapReduce(一种编程模型,映射与化简;用于大数据并行运算)。其对HDFS的操作类似于SQL—名为HQL,它提供了丰富的SQL查询方式来分析存储在HDFS中的数据;HQL经过编原创 2016-03-23 10:21:59 · 1201 阅读 · 0 评论 -
HIVE授权配置
HIVE授权管理,类似于操作系统权限可以授予给不同的主题,如用户(USER),组(GROUP),角色(ROLES),Hive还是支持相当多的权限管理功能,满足一般数据仓库的使用,同时HIVE能支持自定义权限。HIVE授权并不是完全安全,在其目前的形式来看,授权方案的目的是主要是为了防止用户不小心做了不合法的操作,但不承诺防止用户恶意破坏。1、开启Hive的身份认证功能,默认是false原创 2016-04-18 17:45:38 · 2258 阅读 · 0 评论 -
大数据环境平台仓库日常跑批整理
1、树型目录环境/home/hs/opt/dw-etl│ date.list│ dw_batch.sh│ sor-all.sh│ sor-rds.sh│ ssa-all.sh│├─bigtab_int│ init-99dianzhangitem.sh│ init-99dingdan.sh│ init-99dingd原创 2016-03-24 16:41:09 · 2396 阅读 · 0 评论 -
前几篇文章基于的大数据环境说明
1、os版本[hs@master ~]$ lsb_release -a LSB Version: :core-4.1-amd64:core-4.1-noarchDistributor ID: CentOSDescription: CentOS Linux release 7.0.1406 (Core) Release: 7.0.1406Codename: Core[h原创 2016-03-23 20:45:59 · 805 阅读 · 0 评论 -
spark-1.5.2安装配置实录整理
本文是http://blog.youkuaiyun.com/nisjlvhudy/article/details/49338899的补充。1、安装scala-2.11.6环境具体参照[http://blog.youkuaiyun.com/nisjlvhudy/article/details/49338899]文中所述。2、下载spark并安装wget http://d3kbcqa49mib13.c原创 2016-03-23 19:50:37 · 969 阅读 · 0 评论 -
Hive1.2.1安装配置实录整理
本文是另一篇文章的补充:http://blog.youkuaiyun.com/nisjlvhudy/article/details/49338883。1、配置Hive元数据库(此处为mysql)在已经装好的mysql上新增用户:create user 'hive' identified by 'iloveyou';grant all privileges on *.* to 'hive'@'%原创 2016-03-23 17:29:15 · 1071 阅读 · 2 评论 -
CentOS7安装Hadoop2.7.2实录整理
另一篇相关文章地址:http://blog.youkuaiyun.com/nisjlvhudy/article/details/493388511、安装环境4台CentOS7,64位,Hadoop2.7需要64位Linux版对应的HOSTS文件内容:10.91.99.101 master10.91.99.102 slave110.91.99.103 slave210.91.99.1原创 2016-03-23 15:55:28 · 1114 阅读 · 0 评论 -
HBase环境安装配置
环境:操作系统Centos 7 64-bit3台节点 ip 主机名 10.91.99.101 master10.91.99.102 slave110.91.99.103 slave210.91.99.104 slave3 三个节点上已经布署好hadoop集群并正常启动。1、下载并解压hbase-1.0.3-bin.tar.gz到~/opt原创 2016-03-23 14:24:36 · 1260 阅读 · 0 评论 -
Linux上ZooKeeper单机及集群的安装
Zookeeper的安装和配置相对简单, 既可以配置成单机模式, 也可以配置成集群模式。1、下载解压安装包wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gztar -xzvf zookeeper-3.4.6.tar.gzmv zookeeper-3.4.6 ~/o原创 2016-03-23 13:40:23 · 1257 阅读 · 0 评论 -
【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路
原文地址:https://yq.aliyun.com/articles/57901?spm=5176.100239.blogcont57826.25.oaM83B摘要:在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为《企业大数据平台仓库架构建设思路》。本次分享中,李金波主要从总体思路、模型设计、数加架构、数据治理四个方面介绍了如何利用大数据平台的特性,原创 2016-07-22 14:42:32 · 3667 阅读 · 0 评论 -
Hadoop生态系统搭建总结
主要涉及hadoop、hive、hbase、zookeeper、sqoop等,详细过程参见官方文档,本文只是总结常见的一些问题。1、首先是版本的选择,一般选择cloudera 的cdh版,注意相互之间的兼容性,否则出现莫名其妙的问题。2、配置ssh无密码访问时要注意,.ssh目录的权限问题,跟各个开发包一样,各节点必须一致,否则会出现启动Hadoop时让手动输密码。3、在配置c原创 2016-06-30 17:39:19 · 1165 阅读 · 0 评论 -
淘宝Hadoop集群机器硬件配置及使用场景
国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25000个节点,主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、腾讯、华为、中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大)。淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,原创 2016-06-30 17:51:08 · 2136 阅读 · 0 评论