大数据小阿姨-优快云博客

原创 Kerberos用户认证-数据安全-简单了解-230403

Kerberos

2024-12-31 21:28:45 402

翻译 hive3x-安装包含mysql

安装hive及配置mysql为元仓

2023-03-01 00:36:19 256

原创 hadoop_mapreduce06-ReduceJoin案例-220526

hadoop_mapreduce06-ReduceJoin案例

2022-06-07 22:02:20 220

java_04-数组一维数组package main.java.chapter3dir;import java.lang.reflect.Array;/** * 一、数组的概述 * 1.数组的理解，数组（Array），是多个相同类型数据按一定顺序排列的集合，并使用一个名字命名，并通过编号的方式对这些数据进行统一管理。 * <p> * 2.数组相关概念 * >数组名 * >元素 * >角标、下标、索引 * >数组的长度：元素的个数 * <

2022-04-10 16:37:35 536

原创 java_02-附1-Scanner类从键盘获取

java_02-附1-Scanner类从键盘获取package chapter2dir;/** *如何实现从键盘获取不同类型的变量：Scanner类 * * 具体实现步骤： * 1、导包：import java.util.Scanner; * 2、Scanner实例化：Scanner scan = new Scanner(System.in); * 3、调用Scanner类的方法。scan.nextXxx() * 4、报错：如果错误输入类型 Exception in thread "ma

2022-04-10 16:32:59 240

原创 java_02-附2-Math类获取一个随机数random

java_02-附2-Math类获取一个随机数random脚本package main.java.chapter2dir;/** * 需求：如何获取一个随机数：[10-99] * 解决公式：获取[a,b]的随机数 (int)(Math.random()*(b-a+1)+a) * */public class q2Demo2Random { public static void main(String[] args) { double ran = Math.r

2022-04-10 16:32:10 380

原创 java_02-流程控制

java_02-流程控制结构类型顺序结构分支结构if-else结构switch-case结构循环结构for循环（遍历数组之类）无限循环 for(;😉{}while循环（条件比较复杂的情况）无限循环 while(true){}do-while循环完整笔记package main.java.chapter2dir;import com.sun.xml.internal.xsom.impl.scd.Step;/** * ## 结构类型 * 顺序结构

2022-04-10 16:30:24 329

原创 java_01_数据类型-运算符

java_01_数据类型-运算符package chapter2dir;/**上数据类型+运算符java基本数据类型：数值型：整数型：byte、short、int、long 浮点型：float、double 字符型：char 布尔型：boolean引用数据类型：类：class 接口：interface 数组：arrray [] 运算符： 1) 算数运算符 2）赋值运算符前++(

2022-04-10 16:28:26 85

原创 java_05-面向对象01

java_05-面向对象01（一）面向对象三条主线两个核心概念package main.java.chapter5dir;/** * 面向对象的分析（OOA，Object Oriented Analysis）， * 面向对象的设计（OOD，Object Oriented Design）、 * 面向对象的编程实现（OOP，Object Oriented Programming * * 一、Java面向对象学习的三条主线：（第4-6章） * 1.Java类及类的成员：属性、方法、构造器；代码

2022-04-10 16:20:58 476

翻译 hadoop_mapreduce05-自定义OutputFormat实现类实操

自定义OutputFormat类可以输出到本地、mysql、hdfs等

2022-02-27 15:20:13 151

翻译 java_03基本语法项目一FamilyAccount-220122

Java基本语法项目一-FamilyAccount

2022-01-23 12:49:49 176

原创 mysql_0n-常见函数-211116

MySQL_0n-常见函数-211116常用命令临时记一下查看字符集：show variables like ‘%char%’;1. 数值函数1.1基本函数含义MySQL函数HIVE函数MaxCompute函数返回x的绝对值ABS(x)返回x的符号。正数返回1，负数返回0，0返回0SIGN(x)返回圆周率PI()返回大于或等于某个值的最小整数。向上取整CEIL(x),CEILING(x) 举例ceil(1.23)=2返回小于或

2022-01-16 14:55:34 1610

翻译 hadoop_mapreduce03-InputFormat数据输入-包括切片与MapTask并行度Combine小文件等

hadoop_mapreduce03-InputFormat数据输入-包括切片与MapTask并行度Combine小文件等注：仅做笔记，摘记，详细见源码和word。1. 切片与MapTask并行度决定机制数据块：Block是HDFS物理上把数据分成一块一块。本地32M，hadoop1.x 64M，hadoop2.x 128M数据切片：逻辑上对数据进行切片，建议和块大小设置一样，否则会有产生很多IO。2. Job提交流程源码和切片源码解读waitForCompletion()submit();

2021-11-28 22:53:52 205

翻译 hadoop_mapreduce02-序列化与反序列化-计算上下行流量

hadoop_mapreduce02-序列化与反序列化-计算上下行流量注：仅做笔记。（一）需求统计每一个手机号耗费的总上行流量、下行流量、总流量。phone_data.txt1 13736230513 192.196.100.1 www.at.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636 192.196.100.3 132 1512 2004 13966251146 192.168.100

2021-11-28 15:30:38 210

原创 hadoop_mapreduce01_wordcount

hadoop_mapreduce01_wordcount（一）需求统计单词个数。1）输入数据：/Users/art/Documents/demo_datas/wordcount_inputs/words.txthive emr hivehive d2 emr odpshelloword hive2）输出数据：/Users/art/Documents/demo_datas/wordcount_inputs（要求运行前文件夹不存在）期望输出结果：d2 1emr 2helloword

2021-11-15 02:55:53 1069

翻译 hadoop_hdfs07-hdfsHA集群配置&ZK集群配置&yarnHA配置

hadoop_hdfs07-hdfsHA集群配置&ZK集群配置&yarnHA配置注:笔记.(一) 集群规划Hadoop102Hadoop03Hadoop04ZKZKZKJournaleNodeJournaleNodeJournaleNodeNameNodeNameNodeDataNodeDataNodeDataNodeResourceManagerResourceManagerNodeManagerNodeMan

2021-08-08 18:28:54 387

原创 hadoop_hdfs06-hdfs2.x

hadoop_hdfs06-hdfs2.x新特性注:笔记使用.(一) 集群间的数据拷贝scp实现两个主机间的远程拷贝(在配置了ssh的情况下)scp -r root@hadoop102:/user/user02/inputs/xiaoming.txt root@hadoop103:/user/user02/inputsdistcp命令实现两个hadoop集群之间的递归数据复制hadoop distcp hdfs://hadoop102:9000/user/user02/inputs/x

2021-07-11 17:08:13 145

原创 hadoop_集群搭建03-完全分布式-集群配置

hadoop_集群搭建03-完全分布式-集群配置及启动注:仅作笔记使用.前提：hadoop_集群搭建02-安装jdk安装hadoop未完后续补（一）编写集群分发脚本xsync实现：循环复制文件到所有节点相同目录下1）在user02家目录下新建bin/目录，再touch xsync[user02@hadooop102 ~]$ mkdir bin[user02@hadooop102 ~]$ cd bin[user02@hadooop102 bin]$ touch xsync[user02@

2021-07-04 12:46:11 306 1

原创 hadoop_hdfs03-java-IO流操作

hadoop_hdfs03-java-IO流操作注:仅作笔记.api操作是hdfs系统封装好的，如果想自己实现api操作，可以使用IO流的方式实现数据的上传和下载.hdfs文件上传hdfs文件下载指定下载起始位置package com.onhadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apach

2021-05-31 00:40:55 184

原创 hadoop_hdfs02-java-api

hadoop_hdfs02-java-api注: 仅作笔记.pom<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </depe

2021-05-30 18:12:15 108

转载 centos68_CLIBC_2.14 not found

Centos68_环境-CLIBC_2.14 not fount原文博客:https://blog.51cto.com/stuart/1840205https://www.cnblogs.com/playboysnow/p/7327270.html报错: /lib64/libc.so.6:version`GLIBC_2.14`not found一、安装glibc-2.14[root@hadoop102 ~]# wget http://ftp.gnu.org/gnu/glibc/glibc-2.

2021-05-05 15:09:41 345

原创 hadoop_集群搭建02-安装jdk安装hadoop

hadoop_集群搭建02-安装jdk安装hadoop前提：hadoop_集群搭建01_mac_parallelsdesktop_centos68克隆虚拟机修改克隆虚拟机的静态ip修改主机名关闭防火墙创建user02用户配置user02用户具有root权限本文：单台机器安装jdk和安装hadoop在/opt文件夹下新建文件夹1）在/opt文件夹下创建module、software文件夹[user02@hadoop102 opt]$ sudo mkdir module[user0

2021-02-18 01:01:04 222

原创 hadoop集群搭建01_mac_parallelsdesktop_centos68

hadoop集群搭建01_mac_parallelsdesktop_centos68centos linux100克隆原版搭建前面不管了一修改ip地址①vim /etc/sysconfig/network-scripts/ifcfg-eth0DECVICE=eth0HWADDR=00:xx:xx:xx:xx:xxTYPE=EthernetUUID=4bxxxxxxxx-4xx3-xxx4-acxx-xxxxxxxxxxxb# 系统启动的时候网络接口是否有效ONBOOT=yesNM_C

2021-01-24 15:53:24 461

原创 linux_目录结构_20210103

linux目录结构/bin ※是binary的缩写，这个目录存放着最常使用的命令。/sbin ※s就是super user的意思，这里存放的是系统管理员使用的系统管理程序。/home ※存放普通用户的主目录，在linux中每一个用户都有一个自己的目录，一般该目录是以用户的账号命名的/root ※该目录为系统管理员,也称作超级权限者的用户主目录。/lib ※系统开机所需要的基本的动态连接共享库。其作用类似于Windows里的DLL文件，几乎所有的应用都需要用到这些共享库。/lost+f

2021-01-16 16:26:43 119

转载 macos_macpath系统路径文件加载顺序_201216

macos_macpath系统路径文件加载顺序_201216#MAC path系统路径文件加载顺序：/etc/profile/etc/paths~/.bash_profile~/.bash_login~/.profile # 当前用户设置~/.bashrc当然/etc/profile和/etc/paths是系统级别的，系统启动就会加载，后面几个是当前用户级的环境变量。后面3个按照从前往后的顺序读取，如果:~/.bash_profile文件存在，则后面的几个文件就会被忽略不读了，如果~/

2020-12-06 02:15:47 502

原创 java_03_Scanner类从键盘获取_201108

java_03_Scanner类从键盘获取_201108package chapter2dir;/** *如何实现从键盘获取不同类型的变量：Scanner类 * * 具体实现步骤： * 1、导包：import java.util.Scanner; * 2、Scanner实例化：Scanner scan = new Scanner(System.in); * 3、调用Scanner类的方法。scan.nextXxx() * 4、报错：如果错误输入类型 Exception in thread

2020-11-08 23:37:35 129

原创 kafka_架构模型_200809

Kafka架构模型Kafka消费速度快：页缓存：找个磁盘当内存；kafka采用顺序读写，比固态磁盘快；如果消费速度太慢，更改topic的分区个数，就会有很多线程来消费。flume与kafka的整合flume监控文件夹，有新文件就搜集起来到kafka队列中source：spoolDir Sourcechannel：memory channelsink：数据到kafka里面副本默认2...

2020-08-09 18:20:04 168

原创 ecs_安全组_vpc_200809

ECS、ECS组件：安全组作用，网络规划、地域、可用区云服务器ECS概念云服务器ECS组件安全组的作用网络规划阿里云中的地域（Region）可用区可用区是指在同一地域内，电力和网络相互独立的物理区域，同一可用区内实例之间的网络延迟更小。在同一地域内可用区域可用区之间内网互通，可用区之间能做到故障隔离。是否将实例放在同一可用区内，主要取决于对容灾能力和网络延迟的要求。高容灾->实例部署在同一地域的不同可用区内。实例间网络延迟低->实例部署在同一可用区内地域和

2020-08-09 16:36:19 232

原创 java_01_数据类型_运算符

package chapter2dir;/*上数据类型+运算符java基本数据类型：数值型：整数型：byte、short、int、long 浮点型：float、double 字符型：char 布尔型：boolean引用数据类型：类：class 接口：interface 数组：arrray []*/public class q1DataType { public static void main(St

2020-07-09 00:18:21 130

原创 Linux_基础命令行_200630

Linux_基础命令行user@Book AAAA_临时文件 % cd testdircmd user@Book testdircmd % lsuser@Book testdircmd % vim tetstxtuser@Book testdircmd % lstetstxtuser@Book testdircmd % cat tetstxt hello worduser@Book testdircmd % echo name:tom,gender=1name:tom,gender=1u

2020-07-01 01:32:27 123

原创 ODPS_数据倾斜查看key分布的通用方案_200628

产生数据倾斜的通用方案知道数据倾斜了，但无法获知数据倾斜的key信息，可以使用以下方法查看数据倾斜。假如select * from tba join tbb on tba.id=tbb.id; 产生了数据倾斜可以执行如下语句来查看key的分布：select left.key,left.cnt*right.cnt from(select key,count(*) as cnt from tba group by key) as left join(select key,count(*) as c

2020-06-28 23:31:29 462

原创 BI_ODPS-D2-离线数仓-8-QuickBI展示

BI_ODPS-D2-离线数仓-8-QuickBI展示（上周学会使用句号）对RDS的gmall_adb数据库中的表做结果展示。(提供DataV和QuickBI两种方式这里选择QuickBI)三个点1.数据集：每一个图标对应一个数据集，一个数据集也对应数据库的一张表。2.维度：要展示的信息。如类型、状态、性别、地区等。量度：要展示的信息的值。如可以汇总求和的信息，像交易额、数量、人次等...

2020-03-22 17:00:40 463

原创 SQL_ODPS-D2-离线数仓-7-临时查询

SQL_ODPS-D2-离线数仓-7-临时查询包括ods dwd dws ads数仓的建表语句以及手动导入数据语句test--odps sql --********************************************************************----author:i--create time:0000-00-00 00:00:00--**...

2020-03-18 00:05:45 598

原创 img_ODPS-D2-离线数仓-6

img_ODPS-D2-离线数仓-6纪念一下，全部跑通的一天。

2020-03-17 23:49:14 263

原创 SQL_ODPS-D2-离线数仓-5-开窗函数在sql中的实际应用

SQL_ODPS-D2-离线数仓-5-开窗函数在sql中的实际应用.md--手动将dwd层数据导入到dws层INSERT OVERWRITE TABLE dws_uv_detail_d PARTITION (ds,hh,mm)SELECT mid, user_id, version_code, version_name, lang, sourc...

2020-03-08 23:33:28 449 1

原创 Java_ODPS-D2-离线数仓-4-自定义函数UDTF，一进多出，处理复杂事件json串

Java_ODPS-D2-离线数仓-4-自定义函数UDTF，一进多出，处理复杂事件json串原始数据和结果都自行想象吧或者翻翻笔记p89 p92FuntionStudio新建一个项目gmall_udtf，运行环境选udfjava新建一个FlatEventUDTFpom.xml中加入fastjson依赖 <dependency> <gr...

2020-03-08 03:07:07 793

原创 Linux_ODPS-D2-离线数仓-3-启动flume，运行jar包

Linux_ODPS-D2-3-启动flume，运行jar包1. 启动flume程序[root@hadoop102 ~]# su ataliyun[ataliyun@hadoop102 ~]# /opt/module/flume/bin/flume-ng agent -n a1 -c /opt/module/flume/conf/ -f /opt/module/flume/conf/file...

2020-03-08 01:44:23 381

空空如也

空空如也