
大数据
文章平均质量分 79
暗东方
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
canal集群搭建
准备canal-admin的限定依赖:1.MySQL,用于存储配置和节点等相关数据2.canal版本,要求>=1.1.4 (需要依赖canal-server提供面向admin的动态运维管理接口)部署1.下载 canal-admin,1.1.4 版本:1.1.4下载地址2.解压缩mkdir canal-admintar zxvf canal.admin-1.1.4.tar.gz -C canal-admin解压完成后,进入 /canal 目录,可以看到如下结构drwxr-xr-原创 2020-09-11 15:24:29 · 1138 阅读 · 0 评论 -
opentsdb使用
1.maven导入<dependency> <groupId>com.github.eulery</groupId> <artifactId>opentsdb-java-sdk</artifactId> <version>1.1.6</version></dependency>2.编写Op...原创 2020-01-17 17:10:06 · 682 阅读 · 0 评论 -
CDH6.2.1安装步骤
1.CM部署准备1.1 连接服务器1.2 修改hosts文件[root@hadoop001 ~]# vim /etc/hosts127.0.0.1 localhost localhost::1 localhost localhost.localdomain localhost6 localhost6.localdomain6172.17.138.24...原创 2020-01-05 16:57:49 · 3849 阅读 · 3 评论 -
DbSearcher解析ip地址
1.maven导入<dependency> <groupId>org.lionsoul</groupId> <artifactId>ip2region</artifactId> <version>1.7.2</version></de...原创 2019-12-29 14:59:41 · 2634 阅读 · 0 评论 -
spark操作hive工具类
import org.apache.spark.sql.SparkSessionobject HiveUtil { /** * 调大最大分区个数 * * @param spark SparkSession * @return */ def setMaxpartitions(spark: SparkSession): ...原创 2019-12-29 14:46:48 · 275 阅读 · 0 评论 -
sqoop的安装和使用
1.导出脚本#!/bin/bash#cdhexport HADOOP_USER_NAME=hivedb_name=gmallexport_data() {/opt/module/sqoop/bin/sqoop export \--connect "jdbc:mysql://hadoop102:3306/${db_name}?useUnicode=true&charact...原创 2019-12-29 14:37:20 · 147 阅读 · 0 评论 -
hive常用命令和压缩
1.创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive (default)> create database db_hive;FAILED...原创 2019-12-29 14:16:55 · 354 阅读 · 0 评论 -
canal安装(HA)使用
1.canal 入门1.1 什么是 canal阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务。Canal是用java开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,Cana...原创 2019-12-28 23:26:53 · 492 阅读 · 0 评论 -
Flume框架
第1章 Flume概述1.1 Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2 Flume基础架构Flume组成架构如图1-1所示:下面我们来详细介绍一下Flume架构中的组件:1.2.1 AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要...原创 2019-12-26 22:11:35 · 537 阅读 · 0 评论 -
sparkStreaming手动维护offset
1.导入maven<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.47</version></dependency><dependency&...原创 2019-12-12 19:32:00 · 778 阅读 · 0 评论 -
spark提交脚本及优化
1.释放缓存与缓存方法DataFrame//默认使用MEMORY_AND_DISKdataFrame.cache()//释放缓存dataFrame.unpersist()RDD//默认使用MEMORY_ONLYRDD.cache()//自定义使用RDD.persist()//释放缓存RDD.unpersist()SqlsparkSession.catalog.cac...原创 2019-12-10 11:52:12 · 212 阅读 · 0 评论 -
Datax使用
下载地址下载地址:https://github.com/alibaba/DataX实际使用python datax.py --jvm="-Xms5G -Xmx5G" ../job/test.json -p "-Ddt=20190722 -Ddn=webA"hive到mysql的配置文件{ "job": { "setting": { "speed": { "chann...原创 2019-12-10 11:36:40 · 284 阅读 · 0 评论 -
Hive 函数详解
1.数学函数Return TypeName (Signature)DescriptionDOUBLEround(DOUBLE a)返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a)返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a, INT d)返回DOUBLE型d的保留n位小数的DOUBLW型的近似值...原创 2019-12-10 11:19:44 · 269 阅读 · 0 评论 -
Spark Sql 函数详解
1.聚合函数approx_count_distinctcount_distinct近似值avg平均值collect_list聚合指定字段的值到listcollect_set聚合指定字段的值到setcorr计算两列的Pearson相关系数count计数countDistinct去重计数 SQL中用法select count(distinct class)...原创 2019-12-10 10:19:53 · 2223 阅读 · 0 评论 -
spark读取hive和写入hive
1.导入maven<properties> <spark.version>2.1.1</spark.version> <scala.version>2.11.8</scala.version></properties><dependencies> <dep...原创 2019-12-06 18:09:15 · 2035 阅读 · 0 评论 -
linux集群整体操作脚本
1.在/root/bin目录下创建脚本xcall.sh[root@hadoop100 bin]$ vim xcall.sh2.在脚本中编写如下内容#! /bin/bashfor i in hadoop100 hadoop101 hadoop102do echo --------- $i ---------- ssh $i "$*"done3.修改...原创 2019-12-06 10:37:06 · 628 阅读 · 1 评论 -
linux集群同步脚本
1.在/root目录下创建bin目录,并在bin目录下创建文件xsync[root@hadoop100 ~]$ mkdir bin[root@hadoop100 ~]$ cd bin/[root@hadoop100 bin]$ vim xsync2.在该文件中编写如下代码#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==...原创 2019-12-06 10:19:48 · 591 阅读 · 0 评论 -
flink面试相关手册
概述2019 年是大数据实时计算领域最不平凡的一年,2019 年 1 月阿里巴巴 Blink (内部的 Flink 分支版本)开源,大数据领域一夜间从 Spark 独步天下走向了两强争霸的时代。Flink 因为其天然的流式计算特性以及强大的处理性能成为炙手可热的大数据处理框架。时至今日,Flink 已经发展到 1.9 版本,在大数据开发领域,面试中对于 Flink 的考察已经是大数据开发求职者...原创 2019-12-05 10:17:56 · 461 阅读 · 0 评论