- 博客(44)
- 资源 (1)
- 收藏
- 关注

转载 JAVA面试题集锦
Java面试题(01)Java面试题(02)Java面试题(03)Java面试题(04)Java面试题(05)Java面试题(06)Java面试题(07)Java面试题(08)Java面试题(09)Java面试题(10)Java面试题(11)Java面试题(12)Java面试题(13)...
2018-09-28 16:29:21
15608
10
原创 使用MySQL进行日期的统计
按照日期维度统计SELECT YEARWEEK(NOW(),1),YEAR(NOW()),DATE(NOW()),REPLACE(SUBSTRING(NOW(),1,7),'-','') AS YEARMONTH,MONTHNAME(NOW()),MONTH(NOW()),WEEK(NOW(),1),WEEKOFYEAR(NOW()),NOW();查询出的结果如下按十...
2019-05-15 10:15:43
615
转载 HIVE的窗口函数
https://www.jianshu.com/p/9fda829b1ef1?from=timelineHIVE的窗口函数写的很棒
2019-02-28 23:22:18
322
转载 JVM的垃圾回收机制
JVM中的垃圾回收机制:JVM中的分代模型,根据object对象的存在时间分成了三种代年轻代、老年代、持久代年轻代中分为两大空间,Eden和S层(也就是存活层),存活层S分为两部分S0、S1.官方建议年老代是年轻代的两倍年轻代的object对象要到年老代的三种方式:object对象经历了默认的15次GC还在活跃就会被移动到年老代object对象超出设置的参数也会被移动到年老代当...
2019-01-25 15:21:28
402
转载 HIVE如何处理大量小文件
小文件是如何产生的:动态分区插入数据的时候,会产生大量的小文件,从而导致map数量的暴增数据源本身就包含有大量的小文件reduce个数越多,生成的小文件也越多小文件的危害:从HIVE角度来看的话呢,小文件越多,map的个数也会越多,每一个map都会开启一个JVM虚拟机,每个虚拟机都要创建任务,执行任务,这些流程都会造成大量的资源浪费,严重影响性能在HDFS中,每个小文件约占150...
2019-01-25 15:16:44
8901
1
转载 10个Java运行时常见的异常
java.lang.NullPointerException这个异常的解释是,简单地说就是调用了未经初始化的对象或者是不存在的对象,这个错误经常出现在创建图片,调用数组这些操作中,比如图片未经初始化,或者图片创建时的路径错误等等。对数组操作中出现空指针,即把数组的初始化和数组元素的初始化混淆起来了。数组的初始化是对数组分配需要的空间,从而初始化后的数组,其中的元素并没有实例化,依然是空的,所以...
2019-01-23 11:48:55
840
原创 Linux解决ip ping不通百度的问题
Linux解决ip ping不通百度的问题首先先把Linux中的ip设置好,在这里我的本地的VM8的 IP4的地址是 192.168.101.1然后看Linux的ip是多少再进行相应的配置这里填写的是正确的然后再将网卡重启service network restart重启成功后尝试ping www.baidu.com如果没有成功,就查看一下你的window本地的VM8的IP4...
2019-01-22 15:20:21
81600
19
转载 打不开磁盘“H:\centos-6.0-710\CentOS 64 位.vmdk”或它所依赖的某个快照磁盘
这是我在拷贝别人的虚拟机时候,有些资源锁住了,需要删除一些文件夹以及文件才可以vmware下启动Centos虚拟机报错虚拟无法打开磁盘
2019-01-22 11:41:34
6117
转载 Centos 7 LVM xfs文件系统修复
拷贝别人的虚拟机的时候出现的问题,Generating “/run/initramfs/rdsosreport.txt”Centos 7 LVM xfs文件系统修复
2019-01-22 11:37:19
1247
转载 Spark性能优化指南——高级篇
数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如...
2019-01-16 11:49:49
179
原创 spark笔记
1、spark架构与作业执行流程简介运行spark最简单的方法就是通过local模式(即伪分布模式)./bin/run-example org.apache.examples.SparkPi local2、基于Standalone的spark架构与作业执行流程Standalone模式下,集群启动时包括master与worker,其中master负责接受客户端提交的作业,管理work...
2019-01-06 23:09:12
174
转载 HIVE优化
问题导读:1、Hive整体架构优化点有哪些?2、如何在MR阶段进行优化?3、Hive在SQL中如何优化?4、Hive框架平台中如何优化?一、整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。 整体架构优化点:...
2018-12-17 09:27:21
197
原创 java.lang.Exception: java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.
java.lang.Exception: java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z前提我windows配置了Hadoop的系统环境变量了导入这个包才好,这个包的名字一定要是org.apache.io.nativeio....
2018-12-07 23:11:32
978
转载 程序员必须掌握的600个英语单词
application 应用程式 应用、应用程序 application framework 应用程式框架、应用框架 应用程序框架 architecture 架构、系统架构 体系结构 argument 引数(传给函式的值)。叁见 parameter 叁数、实质叁数、实叁、自变量 array 阵...
2018-11-30 10:14:43
763
转载 Hadoop1000条笔记总汇
作者笔记汇总Zookeeper用于集群主备切换。YARN让集群具备更好的扩展性。Spark没有存储能力。Spark的Master负责集群的资源管理,Slave用于执行计算任务。Hadoop从2.x开始,把存储和计算分离开来,形成两个相对独立的子集群:HDFS和YARN,MapReduce依附于YARN来运行。YARN可以为符合YARN编程接口需求的集群提供调度服务。YARN:R...
2018-10-10 19:16:03
386
转载 算法的时间复杂度和空间复杂度
原文地址为:算法的时间复杂度和空间复杂度常用的算法的时间复杂度和空间复杂度 排序法 最差时间分析 平均时间复杂度 稳定度 空间复杂度 冒泡排序 O(n2) O(n2) 稳定 O(1) 快速排序 O(n2)...
2018-10-04 22:14:16
202
转载 学JAVA有哪些好的技巧及方法
出处本文一共929字,预计阅读时间4-6分钟作为编程语言届的老大哥,学习JAVA的人数不胜数,在这里分享一些学习JAVA的技巧以及方法,当然,这些技巧及方法使用范围包含但不限于JAVA.① 笔记软件印象笔记:多端互通很方便(https://www.yinxiang.com/)应用场景(只描述编程学习用的到的部分):1.策划和管理项目——在印象笔记中收集项目资料,制作项目计划,并用印象笔...
2018-10-03 12:54:17
1878
转载 JAVA 51道练习题
JAVA 51道练习题这里一共有51道JAVA基础练习题,代码中有题目,太懒了我就不一个个打目录了,只是把代码粘了上去输出9*9口诀/** * * * */public class Test { public static void main(String[] args) { for (int i = 1; i < 10; i++) { for (i...
2018-10-02 19:44:43
806
2
转载 算法和编程面试题精选TOP50!(附代码+解题思路+答案)
作者 | javinpaul编译 | 王天宇、Jane整理 | Jane出品 | AI科技大本营【导读】之前我们给同学们推荐了很多关于 Python 的面试资源,大家都表示很有用。这次营长表示要翻 Java 的牌子啦~ 应大家的强烈反馈,我们找了一套 Java 语言的算法和编程的面试题。这份面试资源主要包含五部分内容:数组、链表、字符串、二叉树和重要算法(如排序算法)的编程面试题,其中每...
2018-09-28 08:56:38
1840
1
转载 Linux环境下搭建Apache服务器(完整版)
Linux下搭建Apache服务器(完整版)什么是Apache?Apache Licence是著名的非盈利开源组织Apache采用的协议。该协议和BSD类似,同样鼓励代码共享和尊重原作者的著作权,同样允许代码修改,再发布(作为开源或商业软件)。需要满足的条件也和BSD类似Apache主要特点1、开放源代码、跨平台应用2、支持多种网页编程语言3、模块化设计 、运行稳定...
2018-09-26 14:59:26
28417
2
原创 Flume安装和实时读取HIVE的日志
一、解压tar包二、配置环境变量1、Flume安装在Hadoop集群中export JAVA_HOME=/usr/lib/jvm/java-6-sun2、Flume安装在了Hadoop集群中,配置HA#export JAVA_HOME=还需要把Hadoop中的core-site.xml hdfs-site.xml 拷贝到Flume的conf目录下。3、没有安装在集群中export...
2018-09-26 14:44:45
568
原创 Flume
一、概述Cloudera 公司开发的实时的日志采集-> 捐献给了apache适用于实时的数据分析 (spark)同样也可以用于离线的分析 (hive)Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amou...
2018-09-26 14:29:26
194
原创 MapReduce处理数据
1、编写自定义类如果写二次排序的话再在里面添加package org.hdfs.urlMapReduce;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class...
2018-09-25 11:40:42
1300
原创 HIVE与HBase的集成
作用:将HBase的数据映射到HIVE表中。HIVE表类型:管理表:在HIVE表中建表的同时在HBase中不存在该表,HBase创建相同的表·,数据不是在HIVE中而是在HBase中。外部表:在HIVE中建表,同时HBase的表要提前存在,数据同样存储在HBase中。(你创建的外部表的数据来源于HBase中)框架之间的继承操作,首先考虑的是jar包:可以把HIVE集成HBase...
2018-09-25 11:12:11
1116
转载 用hive解决数据的查找问题(影评案例)
现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Ju...
2018-09-23 17:59:39
1024
2
转载 group by 多个字段
首先group by 的简单说明: group by 一般和聚合函数一起使用才有意义,比如 count sum avg等,使用group by的两个要素: (1) 出现在select后面的字段 要么是是聚合函数中的,要么就是group by 中的. (2) 要筛选结果 可以先使用where 再用group by 或者先用...
2018-09-23 15:26:06
5876
转载 JDK的安装及环境部署
from: https://blog.youkuaiyun.com/u012934325/article/details/73441617/1.JDK下载地址: http://www.oracle.com/technetwork/java/javase/downloads/index.html点开链接你应该看到如下图所示的界面: 2.点击上图中箭头所指的地方,会出现下面的这个界面,此时你...
2018-09-22 12:11:48
3837
转载 HBase的RowKey设计
转载出自:https://blog.youkuaiyun.com/silentwolfyh/article/details/51620724#t1 阅读目录2.1.1 Rowkey长度原则2.1.2 Rowkey散列原则2.1.3 Rowkey唯一原则2.2.1 针对事务数据Rowkey设计2.2.2 针对统计数据的Rowkey设计2.2.3 针对通用数据的Rowkey设计2.2.4 支持多条件...
2018-09-21 10:50:24
538
原创 HBase表的分区
Table RegionsNameRegion ServerStart KeyEnd KeyRequeststt2,1537493510149.5a01a3698ddcb718c2c38137a912eada.hh:600201000000tt2,100000,1537493510149.d6e0352bda247d949c428d5410512c18....
2018-09-21 09:38:49
2807
原创 Mapreduce于HBase集成
Mapreduce于HBase集成集成的模式从hbase中读取数据,Hbase的数据作为map的输入,输出可以任意指定.将数据写入Hbase,将hbase作为reduce的输出,输入可以任意指定.从hbase中读 最终在写入到hbase中,场景: 数据迁移.在hbase中已经封装好了jar包:hbase-server-0.98.6-cdh5.3.6.jar1、环境的配置将hbas...
2018-09-20 22:42:13
386
原创 Pom文件的错误
Pom导入包第一行出现错误项目从JAVA转到MAVEN的时候加载包出错了。因为网不好,包没有加载全。我的Maven没有选中 ,要选中这个Maven。要么是我这里没有选中Maven的lib包...
2018-09-19 17:19:57
2182
原创 HBase的JAVA_API
HBase的JAVA_API先加载包<?xml version="1.0"?>&
2018-09-19 17:13:36
164
转载 HBase官方文档中文版
<link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-e2445db1a8.css"> <div class="htmledit_views"&
2018-09-19 10:41:43
6111
原创 fsimage与editslog
fsimage与editslogNameNode中的元数据是在内存中用ArrayList保存的,但是要考虑到如果电脑停电了突然关机了,那么NameNode中的元数据就被释放掉没有了,所以就有editslog,editslog包含了元数据还有一系列的操作。如果要使用这些数据,在开机的时候就会加载editslog,恢复到关机之前的场景,因为我们处理的是大数据,里面有亿万级的操作,每次开机的时候很慢...
2018-09-18 19:52:32
921
1
原创 HBase的命令
Hbase的基本命令进入语句bin/hbase shell要想删除内容就得先把会话界面修改成Linux。 然后用Ctrl+Backspace组合键进行删除。创建命名空间域
2018-09-17 19:39:39
268
原创 HBase基础知识
1、Hbase的概念HBase 的原型是 Google 的 BigTable 论文,受到了该论文思想的启发,目前作为 Hadoop 的 子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org2006 年 Google 发表 BigTable 白皮书2006 年开始开发 HBase2008 年北京成功开奥运会,程序员默默地将 HBas...
2018-09-17 15:36:55
375
原创 Hbase的安装
Hbase安装1 解压hbase的安装包2 配置conf/配置文件配置Hbase-env.sh给定java的安装路径export JAVA_HOME=/opt/app/jdk1.8.0_181设置hbase自带zk为false 表示不使用hbase自带的zkexport HBASE_MANAGES_ZK=false 配置 hbase-site.xml...
2018-09-17 14:58:15
171
原创 HIVE之优化
HIVE优化1、表和sql语句的优化思想: 大表拆分成小表,分区表,(动态分区)有可能产生大量的分区,外部表(保证数据安全),临时表是将表的数据清洗,获得想要的字段。2、MR优化思想: HIVE中底层运行的是MR程序,所以也要对MR进行优化。并行执行: 在map运行过程中,有的时候需要存在依赖关系。 例如:做单词统计,一个map做完单词统计,下一个map的输入正好是...
2018-09-17 13:58:26
245
原创 伪分布式安装zookeeper
前提:在一台机器上运行三个zk服务cd ~/bigdater/softs; wget http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.3.6.tar.gz cd ..; tar -zxvf softs/zookeeper-3.4.5-cdh5.3.6.tar.gz mv zookeeper-3.4.5-cdh5.3...
2018-09-17 11:27:54
1269
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人