- 博客(72)
- 资源 (6)
- 问答 (1)
- 收藏
- 关注
转载 java笔记--关于线程同步(7种同步方式)
java笔记--关于线程同步(7种同步方式)关于线程同步(7种方式)--如果朋友您想转载本文章请注明转载地址"http://www.cnblogs.com/XHJT/p/3897440.html"谢谢--为何要使用同步? java允许多线程并发控制,当多个线程同时操作一个可共享的资源变量时(如数据的增删改查), 将会导致数据不准确,相互之间产生冲突,因此加入同步锁以避免在该线程没有完成操作之前,被其他线程的调用, 从而保证了该变量的唯一性和准确性。1.同步方...
2020-05-14 17:55:04
326
1
转载 Hive sql语句必练50题-入门到精通(2)
https://blog.youkuaiyun.com/Thomson617/article/details/83280617
2020-05-13 12:44:39
325
原创 数据仓库
数据倾斜倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL语句本身就有数据倾斜; 如何避免:对于key为空产生的数据倾斜,可以对其赋予一个随机值。 解决方案 1>.参数调节:...
2020-04-06 21:25:24
218
原创 【大数据高频问题】之Hive
Hive 的组成 Hive , Order by, sort by, distrbute by, Hive 系统函数(时间函数,),自定义函数,UDF, UDTF Hive 开窗函数,Rank(),row_number(),over Hive 优化 ...
2020-04-06 20:58:35
163
原创 【大数据高频问题】之Kafka
创建多少个Topic 取决于满足多少个消费者 磁盘空间设置多少合适呢(默认保存7天,每天数据量100G,2*100*7/0.7) Kafka ISR,解决了什么问题,(延迟时间,在规定范围内) Kafka 监控, Kafka 里有多少分区 (3-10),分区多少有什么影响,会影响并发 Kafka 分区分配策略 Kafka 丢失数据,ACK, ack=0 (数据发送不等待应答),ack=...
2020-04-06 20:21:01
305
原创 【300分钟搞定数据结构算法】- 1,常用数据结构
数组/字符串 /Array & String1, 优点,构建数组时非常简单,能让我们在O(1) 时间内查询某个元素2,缺点,构建时必须分配一段连续的时间,查询某个元素是否存在时,耗时O(n),删除和添加某个元素时,耗时O(n)LeetCode 242https://leetcode-cn.com/problems/valid-anagram/给定两个字符串 s 和...
2020-03-26 13:03:07
550
原创 Hive - 谷粒影音
谷粒影音 - 需求分析 谷粒影音 - Mapper 谷粒影音 - ETLUtil 谷粒影音 - Driver 谷粒影音 - 清洗数据 谷粒影音 - 建表&导入数据 谷粒影音 - 需求 (1) 谷粒影音 -需求 (2) 谷粒影音 -需求 (3) 谷粒影音 -需求 (4) 谷粒影音 -需求 (5) 谷粒影音 -需求 (6) 谷粒影音 -需求 (7)...
2020-03-18 22:44:39
405
原创 Hive 排序
Order By Sort By Distribute By Cluster By 总结 Hive 分桶 - 表创建 Hive 分桶 - 抽样查询
2020-03-18 22:44:32
104
原创 Hive 优化
Hive 优化 - Fetch抓取 Hive 优化 - 小表Join大表 Hive 优化 - 空Key处理 Hive 优化 - MapJoin Hive 优化 - GroupBy Hive 优化 - 去重统计 Hive 优化 - 行列过滤 Hive 优化 - 动态分区 Hive 优化 - 数据倾斜 Hive 优化 - 并行执行 Hive 优化 - 严格模式 Hive ...
2020-03-18 22:43:43
416
原创 Hive 高级
Hive 高级 - 给Null赋值 Hive 高级 - CaseWhen Hive 高级 - 行转列 Hive 高级 - 列转行 窗口函数需求(1,2,3,4) 回顾总结 Hive 高级 - Rank Hive 高级 - 函数介绍 Hive 高级 - 自定义函数 Hive 高级 - 压缩 Hive 高级 - 存储格式介绍 Hive 高级 - 存储与压缩结合...
2020-03-18 22:43:11
305
原创 Hive DML数据操作语言
数据导入 向表中装载数据(Load) Insert方式加载数据 Location 方式加载数据 Import 方式导入数据失败 将数据导入到Hive 表中, Insert导出数据 导出数据的其他方式 清空表数据 元数据信息 基本查询 常用的基本函数 where子句查询 逻辑运算符 GroupBy Having Join...
2020-03-17 23:25:20
115
原创 Hive 数据定义
分区表与数据关联的三种方式 上传数据后修复:dfs -mkdir -p /user/hive/warehouse/dept/month=201709/day=12 dfs -put /opt/module/datas/dept.txt hive (default)> msck repair table stu_partition; OK Partitions not ...
2020-03-17 21:42:19
103
原创 Hive的优缺点
优点操作接口采用SQL,提供快速开发 的能力 避免了去写MR,减少开发人员的学习成本 Hive执行延迟比较高,常用于数据分析,对实时性要求不高的场合 处理大数据 缺点 HQL的表达能力有限 迭代式算法无法表达 数据挖掘方面不擅长 Hive的效率比较低 ...
2020-03-15 12:12:49
284
原创 Kafka 自定义分区的生产者
1,实现 接口 Patitionerpublic class KafkaPartitioner implements Partitioner { @Override public int partition(String s, Object o, byte[] bytes, Object o1, byte[] bytes1, Cluster cluster) { ...
2020-02-12 09:16:52
243
转载 linux下mysql忘记密码怎么办
前言今天在服务器安装mysql之后,登录发现密码错误,但是我没有设置密码呀,最后百度之后得知,mysql在5.7版本之后会自动创建一个初始密码。报错如下:[root@mytestlnx02 ~]# mysql -u root -pEnter password: ERROR 1045 (28000): Access denied for user 'root'@'localhost'...
2019-12-26 16:56:40
109
转载 Centos 7 Install Mysql
简述Linux Centos7.x 操作系统版本下针对Mysql的安装和使用多少跟之前的Centos6之前版本有所不同的,下面介绍下在centos7.x环境里安装mysql5.7的几种方法:一、yum方式安装从CentOS 7.0发布以来,yum源中开始使用Mariadb来代替MySQL的安装。即使你输入的是yuminstall-y mysql , 显示的也是Mariadb的安装...
2019-12-26 14:28:22
170
原创 Hadoop 三结点搭建
技术选型:1,先搭建主节点 机器配置 IP , 添加用户组 和 用户 lijxgroupadd lijxuseradd -g lijx lijxsu lijxmkdir bin in lijx hometouch xsyncxsyn.sh is[lijx@slave3 bin]$ touch xsync#!/bin/bashpcount=$#...
2019-11-19 17:41:33
142
原创 Hadoop 搭建 单节点
Hadoop 3.x hdfs 端口不是50070 是98701, 免密钥登陆 $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys2, 安装JDK,...
2019-11-17 17:07:56
169
原创 算法7月-O(n) 解决算法问题 最大存水量的 问题 Leetcode11- Container With Most Water
Givennnon-negative integersa1,a2, ...,an, where each represents a point at coordinate (i,ai).nvertical lines are drawn such that the two endpoints of lineiis at (i,ai) and (i, 0). Find two...
2019-11-14 12:45:26
171
原创 算法7月-O(n) 解决算法问题 最大存水量的 问题 Leetcode42- Trapping Rain Water
问题描述:Trapping Rain Water有一数组代表 墙的高度 如图,输出代表最大的存水量,求解Input: [0,1,0,2,1,0,1,3,2,1,2,1]Output: 6O(n) 求解思路,左右最大值中 较小的 减去 当前值 就是存水量 public int trap(int[] height) { int...
2019-11-14 12:36:42
245
原创 Hadoop-集群搭建,文件配置
1,core-site.xml<configuration> <property> <name>hadoop.tmp.dir</name> <value>/root/hadoop/hadoop-3.2.1/hdfs/tmp</value> </prop...
2019-11-12 20:32:02
136
原创 Hadoop - Linux 常用到的指令
1,重启网卡 service network restart2,关闭防火墙service firewalld stop3,Centos7 安装 Mysqlhttps://www.cnblogs.com/easonscx/p/10644346.html
2019-11-12 15:13:11
112
原创 Java面试题- 集合的区别之HashMap 和 HashTable
线程安全: HashMap 是非线程安全的 HashTable是线程安全,内部的方法基本都是synchronized修饰 效率: 因为线程安全的问题,hashmap 要比hashtable 高,但hashtable 基本被淘汰,不要在代码中使用它。 对null key 和null value的支持 hashmap 键可以为null,但null value 可以有多个 ha...
2019-11-10 16:53:52
134
原创 剑指Offer-数组中超过一半的数字
1,给定一个数组,找出超出一半的数字{1,2,3,2,22,2,2,5,4,2} 输出2 ,不存在输出0hashMap 个数加加再次遍历 然后 输出 个数2, 第二种解法 ,空间复杂度为o(1), 时间复杂度为o(n) 思想 : 消除法,不等则消除 count-1,相等则 Count+1,...
2019-11-10 11:44:18
111
原创 剑指Offer-不用加减乘除做加法
1, 写一个函数,求两个整数之和,要求函数体内,不得使用+,- ,*, /2, 第二种解法 ,空间复杂度为o(1), 时间复杂度为o(n) 思想 : 消除法,不等则消除 count-1,相等则 Count+1,...
2019-11-10 11:40:40
132
原创 剑指Offer-二进制中1的个数
输入一个整数,输出该二进制表示中1的个数,其中负数用补码表示1,补码 正数不变,负数是它的正数反码加1-2 的补码:1.......10按位与操作,循环遍历 到 32 位 结束...
2019-11-10 11:10:33
95
原创 剑指Offer-小朋友的游戏
n个小朋友,报数到m,则m-1出列,问最后一个出列的序号第一次从 0 开始第二次从 m 开始相当于 从 0 开始的 ,和去掉m-1 从m开始是一样的 也就是 f(n) = f(m) + m-1f(n) = i 从0 开始报数f'(n-1) =i 从m-1开始报数推导过程;公式推导过程1,public int Solution(int n,int...
2019-11-10 10:19:03
114
原创 剑指Offer-判断压栈顺序的正确性
关键的点在于 while 循环 判断,之前和 剩余 pop相等的元素while(!push.isEmpty() && push.peek() == pop[index]){ push.pop(); index++;}public class IsPopOrder { public boolean IsPopOrde...
2019-11-07 13:53:21
128
原创 网站数据统计分析系统之性能调优
(一)硬件层面优化(1)多网卡1)多网卡绑定为一个IP地址2)可以增加网络带宽、形成网卡的冗余阵列•分担负载,网络流量可以被同时分配到多个网卡上,在同样的流量下,每块网卡负载降低,在流量 增加的时候,由于多块网卡协同作用能够提高网络流量•提高通信可靠性:当其中一块网卡发生故障时,另一块网卡可以继续工作,传输不间断3)在Linux上可以通过配置文件的方式将两个物理网卡绑定在一
2017-03-29 14:34:39
134
原创 Hadoop监控工具ganglia
Hadoop监控工具Ganglia一、Ganglia是什么?Ganglia主要用来解决什么样的问题?ganglia是一个可扩展的分布式监控系统,用于监控和显示分布式集群节点的状态信息,比如CPU、内存、磁盘利用率、I/O负载、网络流量情况等方面的数据,这些信息是由运行在各个节点上的gmond守护进程来采集,然后汇总到gmetad守护进程中。这些数据使用rrdtool来存储,然后将这些历史数
2017-03-09 13:33:21
157
原创 Hadoop集群管理与维护
一、Hadoop集群的管理对于一个集群管理员来说,理解HDFS各个进程存储在磁盘上的数据含义是十分有用的,可以帮助你诊断和排查一些集群问题(一)Namenode的目录结构HDFS进行初次格式化之后将会在$dfs.namenode.name.dir/current目录下生成一系列文件: ${dfs.namenode.name.dir}/current VERSION edi
2017-03-09 13:31:49
331
原创 集群部署工具Ambari
一、Ambari安装前准备(一)机器准备192.168.20.144 dajiangtai01 部署Ambari-server和Mirror server192.168.20.145 dajiangtai02192.168.20.146 dajiangtai03192.168.20.147 dajiangtai04 后面3台机器部署Agent(二)机器的部署配置这里我们
2017-03-09 11:25:34
74
原创 Hadoop工作流:Oozie与Azkaban
Hadoop 工作流(一)什么是工作流工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。在计算机中,工作流属于计算机支持的协同工作(CSCW)的一部分。后者是普遍地研究一个群体如何在计算机的帮助下实现协同工作的。工作流之JBpM工作流之Activiti(二)Hadoop内置工作流
2017-03-08 16:24:43
260
原创 Hive基本语法操练
Hive 操作(一)表操作 Hive 和 Mysql 的表操作语句类似,如果熟悉 Mysql,学习Hive 的表操作就非常容易了,下面对 Hive 的表操作进行深入讲解。(1)先来创建一个表名为student1的内部表hive> CREATE TABLE IF NOT EXISTS student1 > (sno INT,sname STRING,age IN
2017-02-27 21:58:03
546
原创 Hive环境的安装部署
Hive 环境的安装部署Hive 安装依赖 Hadoop 的集群,它是运行在 Hadoop 的基础上。 所以在安装 Hive 之前,保证 Hadoop 集群能够成功运行。Hive的安装详细流程如下所示。1、 下载HiveHive是Apache 的一个顶级开源项目,我们可以直接到官网下载需要的版本即可。课程中我们使用的是apache-hive-1.0.0-bin.tar.gz版本,大家可
2017-02-26 10:03:53
255
windows 客户端开发
2021-08-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人