- 博客(15)
- 收藏
- 关注
原创 Azkaban入门级应用
近日刚刚来到一家新公司入职,职位与之前的工作有些偏差,更专注于数据的分析和决策,对于自己来说有更好的发展方向,也特别感谢孔网领导对我的信任。话不多说接下来就把我自己的对Azkaban学习之后的入门技巧与各位小伙伴进行分享!那我们开始吧! Azkaban 是由Linkedin公司推出的一个批量工作流任务调度器。说到这相信大家就都理解了,Azkaban就是一个工作流调度...
2020-01-03 10:55:46
228
1
原创 Hive函数大全,归纳总结常用的都有
一、关系运算:1. 等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A 与表达式B相等,则为 TRUE;否则为 FALSE举例:hive> select 1 from lxw_dual where 1=1;12. 不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式 A 为 NULL,或者表达式 B为...
2020-01-03 10:44:06
356
转载 Spark:在Spark集群中,集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系??
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目关系系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,...
2019-08-06 10:13:13
690
原创 sqoop常用命令三 ---- import导入 与export 覆盖更新,常见问题总结
一.参数说明1.import/export通用选项 含义说明--connect <jdbc-uri> 指定JDBC连接字符串--connection-manager <class-name> 指定要使用的连接管理器类--driver <class-name> 指定要使用的JDBC驱动类--hadoop-mapred-home <...
2019-06-18 16:24:23
5577
转载 sqoop常用命令二(数据导出更新复制)
sqoop的导出工具是把HDFS上文件中的数据导出到mysql中mysql中的表现在在linux上创建一个文件,并把这个文件上传到hdfs上cat person.txt 7,no7,778,no8,88$ hadoop fs -mkdir person_export$ hadoop fs -put -f person.txt person_export$ hado...
2019-06-13 11:18:52
561
转载 sqoop常用命令一
这些内容是从sqoop的官网整理出来的,是1.4.3版本的Document,如果有错误,希望大家指正。 1.使用sqoop导入数据 sqoop import --connect jdbc:mysql://localhost/db --username foo --table TEST 2.账号密码 sqoop import --connect jdb...
2019-06-13 11:17:16
596
原创 02-Hive/Hadoop数据存储格式与avro文件创建hive表
Hive/Hadoop数据存储格式与avro文件创建hive表一.存储格式1.Hadoop 中的文件格式1>.SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API...
2019-05-05 19:09:58
1656
原创 01-window单机部署kafka
搭建环境:一.安装JDK1.8.0_1111.1下载jdk文件:http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html1.2配置环境变量:添加以下的环境变量(右键点击“我的电脑” -> "高级系统设置" -> "环境变量") JA...
2016-11-18 15:52:33
353
原创 01-hive优化总结经验
hive优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from A...
2016-10-31 10:03:58
386
转载 Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。 图1展示了该日志数据的记录格
2016-09-27 20:59:30
425
转载 Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
一、借助Hive进行统计1.1 准备工作:建立分区表 为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)hive>CREATE EXTERNAL
2016-09-27 20:56:15
513
转载 Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
一、项目背景与数据情况1.1 项目来源 本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖,如图1所示。图1 项目来源网站-技术学习论坛 本次实践的目的就在于通过对该技术论坛的apache common日志进行分析,计算该论坛的一些关键指标,供运营者进行决策时参考。PS:开发该系统的目的是为了获取一些
2016-09-27 20:54:47
734
转载 Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2
2016-09-27 20:51:26
554
转载 电信业Hadoop应用分析
昨日,联通研究院处长王志军在第七届“开源中国 开源世界”高峰论坛上分享了Hadoop在电信行业大数据应用的经验。 随着国内3G网络的发展,或者移动通信网络的发展,中国联通目前运营着世界上最大的CDMA网络,流量运营是中国联通一个重要特点。中国联通3G套餐当中流量占比非常非常大,中国联通3G用户流量使用情况也是非常可观的。而目前中国联通遇到一个世纪问题:随着流量的增长,3G流量的争议也迅
2016-09-13 22:57:59
876
转载 Cloudera Manager及CDH安装
问题导读:1.安装需要做哪些准备?2.如何安装CM?3.如何通过CM安装CDH?4.CM及CDH安装的过程都包含什么?目 录1 准备工作........................................................................................................
2016-09-12 22:58:51
528
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人