RainbowXin-优快云博客

转载 java笔记--关于线程同步（7种同步方式）

java笔记--关于线程同步（7种同步方式）关于线程同步(7种方式) --如果朋友您想转载本文章请注明转载地址"http://www.cnblogs.com/XHJT/p/3897440.html"谢谢-- 为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方...

2020-05-14 17:55:04 381 1

转载 Hive sql语句必练50题-入门到精通(2)

https://blog.youkuaiyun.com/Thomson617/article/details/83280617

2020-05-13 12:44:39 368

原创数据仓库

数据倾斜倾斜原因： map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL语句本身就有数据倾斜; 如何避免：对于key为空产生的数据倾斜，可以对其赋予一个随机值。解决方案 1>.参数调节：...

2020-04-06 21:25:24 263

原创【大数据高频问题】之Hive

Hive 的组成 Hive , Order by, sort by, distrbute by, Hive 系统函数（时间函数，），自定义函数，UDF, UDTF Hive 开窗函数，Rank(),row_number(),over Hive 优化 ...

2020-04-06 20:58:35 197

原创【大数据高频问题】之Kafka

创建多少个Topic 取决于满足多少个消费者磁盘空间设置多少合适呢（默认保存7天，每天数据量100G,2*100*7/0.7） Kafka ISR，解决了什么问题，（延迟时间，在规定范围内） Kafka 监控， Kafka 里有多少分区（3-10），分区多少有什么影响，会影响并发 Kafka 分区分配策略 Kafka 丢失数据，ACK, ack=0 （数据发送不等待应答）,ack=...

2020-04-06 20:21:01 348

原创【300分钟搞定数据结构算法】- 1，常用数据结构

数组/字符串 /Array & String 1, 优点，构建数组时非常简单，能让我们在O(1) 时间内查询某个元素 2，缺点，构建时必须分配一段连续的时间，查询某个元素是否存在时，耗时O(n)，删除和添加某个元素时，耗时O(n) LeetCode 242 https://leetcode-cn.com/problems/valid-anagram/ 给定两个字符串 s 和...

2020-03-26 13:03:07 581

原创 Hive - 谷粒影音

谷粒影音 - 需求分析谷粒影音 - Mapper 谷粒影音 - ETLUtil 谷粒影音 - Driver 谷粒影音 - 清洗数据谷粒影音 - 建表&导入数据谷粒影音 - 需求（1）谷粒影音 -需求（2）谷粒影音 -需求（3）谷粒影音 -需求（4）谷粒影音 -需求（5）谷粒影音 -需求（6）谷粒影音 -需求（7） ...

2020-03-18 22:44:39 441

原创 Hive 排序

Order By Sort By Distribute By Cluster By 总结 Hive 分桶 - 表创建 Hive 分桶 - 抽样查询

2020-03-18 22:44:32 135

原创 Hive 优化

Hive 优化 - Fetch抓取 Hive 优化 - 小表Join大表 Hive 优化 - 空Key处理 Hive 优化 - MapJoin Hive 优化 - GroupBy Hive 优化 - 去重统计 Hive 优化 - 行列过滤 Hive 优化 - 动态分区 Hive 优化 - 数据倾斜 Hive 优化 - 并行执行 Hive 优化 - 严格模式 Hive ...

2020-03-18 22:43:43 444

原创 Hive 高级

Hive 高级 - 给Null赋值 Hive 高级 - CaseWhen Hive 高级 - 行转列 Hive 高级 - 列转行窗口函数需求（1，2，3，4）回顾总结 Hive 高级 - Rank Hive 高级 - 函数介绍 Hive 高级 - 自定义函数 Hive 高级 - 压缩 Hive 高级 - 存储格式介绍 Hive 高级 - 存储与压缩结合 ...

2020-03-18 22:43:11 329

原创 Hive DML数据操作语言

数据导入向表中装载数据（Load） Insert方式加载数据 Location 方式加载数据 Import 方式导入数据失败将数据导入到Hive 表中， Insert导出数据导出数据的其他方式清空表数据元数据信息基本查询常用的基本函数 where子句查询逻辑运算符 GroupBy Having Join...

2020-03-17 23:25:20 139

原创 Hive 数据定义

分区表与数据关联的三种方式上传数据后修复：dfs -mkdir -p /user/hive/warehouse/dept/month=201709/day=12 dfs -put /opt/module/datas/dept.txt hive (default)> msck repair table stu_partition; OK Partitions not ...

2020-03-17 21:42:19 125

原创 Hive的优缺点

优点操作接口采用SQL，提供快速开发的能力避免了去写MR,减少开发人员的学习成本 Hive执行延迟比较高，常用于数据分析，对实时性要求不高的场合处理大数据缺点 HQL的表达能力有限迭代式算法无法表达数据挖掘方面不擅长 Hive的效率比较低 ...

2020-03-15 12:12:49 313

原创 Kafka 自定义分区的生产者

1，实现接口 Patitioner public class KafkaPartitioner implements Partitioner { @Override public int partition(String s, Object o, byte[] bytes, Object o1, byte[] bytes1, Cluster cluster) { ...

2020-02-12 09:16:52 272

原创 Hive 在 Hadoop 上面的使用

1， Hive 的安装 2，Hive 的使用 3， Hive

2019-12-27 13:48:41 154

转载 linux下mysql忘记密码怎么办

前言今天在服务器安装mysql之后，登录发现密码错误，但是我没有设置密码呀，最后百度之后得知，mysql在5.7版本之后会自动创建一个初始密码。报错如下: [root@mytestlnx02 ~]# mysql -u root -p Enter password: ERROR 1045 (28000): Access denied for user 'root'@'localhost'...

2019-12-26 16:56:40 146

转载 Centos 7 Install Mysql

简述 Linux Centos7.x 操作系统版本下针对Mysql的安装和使用多少跟之前的Centos6之前版本有所不同的，下面介绍下在centos7.x环境里安装mysql5.7的几种方法：一、yum方式安装从CentOS 7.0发布以来，yum源中开始使用Mariadb来代替MySQL的安装。即使你输入的是yuminstall-y mysql , 显示的也是Mariadb的安装...

2019-12-26 14:28:22 198

原创 Hadoop 三结点搭建

技术选型： 1，先搭建主节点机器配置 IP , 添加用户组和用户 lijx groupadd lijx useradd -g lijx lijx su lijx mkdir bin in lijx home touch xsync xsyn.sh is [lijx@slave3 bin]$ touch xsync #!/bin/bash pcount=$#...

2019-11-19 17:41:33 167

原创 Hadoop 搭建单节点

Hadoop 3.x hdfs 端口不是50070 是9870 1，免密钥登陆 $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys 2, 安装JDK,...

2019-11-17 17:07:56 200

原创算法7月-O(n) 解决算法问题最大存水量的问题 Leetcode11- Container With Most Water

Givennnon-negative integersa1,a2, ...,an, where each represents a point at coordinate (i,ai).nvertical lines are drawn such that the two endpoints of lineiis at (i,ai) and (i, 0). Find two...

2019-11-14 12:45:26 229

原创算法7月-O(n) 解决算法问题最大存水量的问题 Leetcode42- Trapping Rain Water

问题描述： Trapping Rain Water 有一数组代表墙的高度如图，输出代表最大的存水量，求解 Input: [0,1,0,2,1,0,1,3,2,1,2,1] Output: 6 O(n) 求解思路，左右最大值中较小的减去当前值就是存水量 public int trap(int[] height) { int...

2019-11-14 12:36:42 274

原创 Hadoop-集群搭建，文件配置

1，core-site.xml <configuration> <property> <name>hadoop.tmp.dir</name> <value>/root/hadoop/hadoop-3.2.1/hdfs/tmp</value> </prop...

2019-11-12 20:32:02 159

原创 Hadoop - Linux 常用到的指令

1，重启网卡 service network restart 2，关闭防火墙service firewalld stop 3，Centos7 安装 Mysql https://www.cnblogs.com/easonscx/p/10644346.html

2019-11-12 15:13:11 134

原创剑指Offer-数组中只出现一次的数字

数组中除了两个数，其他都出现偶数次，请找出这两个数

2019-11-11 21:33:28 134

原创剑指Offer-寻找丑数

丑数定义能被 2，3，5整除的数为丑数，找出序列index中第n个丑数，第一个丑数为1

2019-11-11 13:25:38 115

原创 Java面试题- 集合的区别之HashMap 和 HashTable

线程安全： HashMap 是非线程安全的 HashTable是线程安全，内部的方法基本都是synchronized修饰效率：因为线程安全的问题，hashmap 要比hashtable 高，但hashtable 基本被淘汰，不要在代码中使用它。对null key 和null value的支持 hashmap 键可以为null，但null value 可以有多个 ha...

2019-11-10 16:53:52 157

原创剑指Offer-数组中超过一半的数字

1，给定一个数组，找出超出一半的数字 {1,2,3,2,22,2,2,5,4,2} 输出2 ,不存在输出0 hashMap 个数加加再次遍历然后输出个数 2, 第二种解法，空间复杂度为o(1), 时间复杂度为o（n）思想：消除法，不等则消除 count-1，相等则 Count+1， ...

2019-11-10 11:44:18 142

原创剑指Offer-不用加减乘除做加法

1，写一个函数，求两个整数之和，要求函数体内，不得使用+,- ,*, / 2, 第二种解法，空间复杂度为o(1), 时间复杂度为o（n）思想：消除法，不等则消除 count-1，相等则 Count+1， ...

2019-11-10 11:40:40 166

原创剑指Offer-二进制中1的个数

输入一个整数，输出该二进制表示中1的个数，其中负数用补码表示 1，补码正数不变，负数是它的正数反码加1 -2 的补码：1.......10 按位与操作，循环遍历到 32 位结束 ...

2019-11-10 11:10:33 120

原创剑指Offer-链表中环的入口点

1，如何判断链表有没有环添加空间判断环

2019-11-10 10:50:33 125

原创剑指Offer-小朋友的游戏

n个小朋友，报数到m，则m-1出列，问最后一个出列的序号第一次从 0 开始第二次从 m 开始相当于从 0 开始的，和去掉m-1 从m开始是一样的也就是 f(n) = f(m) + m-1 f(n) = i 从0 开始报数 f'(n-1) =i 从m-1开始报数推导过程；公式推导过程 1， public int Solution(int n,int...

2019-11-10 10:19:03 141

原创剑指Offer-两个链表的公共结点

寻找两个公共结点的差，先让长的走k步，然后再同时遍历，直至遇到相等的结点。

2019-11-10 09:28:01 97

原创剑指Offer-判断压栈顺序的正确性

关键的点在于 while 循环判断，之前和剩余 pop相等的元素 while(!push.isEmpty() && push.peek() == pop[index]){ push.pop(); index++; } public class IsPopOrder { public boolean IsPopOrde...

2019-11-07 13:53:21 153

原创网站数据统计分析系统之性能调优

(一)硬件层面优化 (1)多网卡 1）多网卡绑定为一个IP地址 2）可以增加网络带宽、形成网卡的冗余阵列 •分担负载，网络流量可以被同时分配到多个网卡上，在同样的流量下，每块网卡负载降低，在流量增加的时候，由于多块网卡协同作用能够提高网络流量 •提高通信可靠性：当其中一块网卡发生故障时，另一块网卡可以继续工作，传输不间断 3）在Linux上可以通过配置文件的方式将两个物理网卡绑定在一

2017-03-29 14:34:39 161

原创 Hadoop监控工具ganglia

Hadoop监控工具Ganglia 一、Ganglia是什么？Ganglia主要用来解决什么样的问题？ ganglia是一个可扩展的分布式监控系统，用于监控和显示分布式集群节点的状态信息，比如CPU、内存、磁盘利用率、I/O负载、网络流量情况等方面的数据，这些信息是由运行在各个节点上的gmond守护进程来采集，然后汇总到gmetad守护进程中。这些数据使用rrdtool来存储，然后将这些历史数

2017-03-09 13:33:21 188

原创 Hadoop集群管理与维护

一、Hadoop集群的管理对于一个集群管理员来说，理解HDFS各个进程存储在磁盘上的数据含义是十分有用的，可以帮助你诊断和排查一些集群问题 (一)Namenode的目录结构 HDFS进行初次格式化之后将会在$dfs.namenode.name.dir/current目录下生成一系列文件： ${dfs.namenode.name.dir}/ current VERSION edi

2017-03-09 13:31:49 380

原创集群部署工具Ambari

一、Ambari安装前准备（一）机器准备 192.168.20.144 dajiangtai01 部署Ambari-server和Mirror server 192.168.20.145 dajiangtai02 192.168.20.146 dajiangtai03 192.168.20.147 dajiangtai04 后面3台机器部署Agent （二）机器的部署配置这里我们

2017-03-09 11:25:34 101

原创 Hadoop工作流：Oozie与Azkaban

Hadoop 工作流 (一)什么是工作流工作流（Workflow），指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。在计算机中，工作流属于计算机支持的协同工作（CSCW）的一部分。后者是普遍地研究一个群体如何在计算机的帮助下实现协同工作的。工作流之JBpM 工作流之Activiti (二)Hadoop内置工作流

2017-03-08 16:24:43 323

原创 Hive基本语法操练

Hive 操作（一）表操作 Hive 和 Mysql 的表操作语句类似，如果熟悉 Mysql，学习Hive 的表操作就非常容易了，下面对 Hive 的表操作进行深入讲解。 (1)先来创建一个表名为student1的内部表 hive> CREATE TABLE IF NOT EXISTS student1 > (sno INT,sname STRING,age IN

2017-02-27 21:58:03 605

原创 Hive环境的安装部署

Hive 环境的安装部署 Hive 安装依赖 Hadoop 的集群，它是运行在 Hadoop 的基础上。所以在安装 Hive 之前，保证 Hadoop 集群能够成功运行。Hive的安装详细流程如下所示。 1、下载Hive Hive是Apache 的一个顶级开源项目，我们可以直接到官网下载需要的版本即可。课程中我们使用的是apache-hive-1.0.0-bin.tar.gz版本，大家可

2017-02-26 10:03:53 293

ios开发文档Object-c

猫都能学会的Unity3D Shader入门指南

MJServer 可以使用

NGUI Next-Gen UI v3.9.9

PlayMaker插件

Unity3D 游戏开发

windows 客户端开发