- 博客(44)
- 收藏
- 关注
原创 sqoop
一、 Sqoop 简介Apache Sqoop™是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop 于 2012 年 3 月孵化出来,现在是一个顶级的 Apache 项目。最新的稳定版本是 1.4.6。 Sqoop2 的最新版本是 1.99.7。请注意, 1.99.7 与 1.4.6 不兼容,且没有特征不完整,它并不打算用于生产部署。二、 Sqoop 原理将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 map
2020-12-01 17:04:55
1186
原创 sparkstreaming写入hbase
import org.apache.hadoop.hbase.client.{ConnectionFactory, Put}import org.apache.hadoop.hbase.util.Bytesimport org.apache.hadoop.hbase.{HBaseConfiguration, TableName}import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.
2020-10-13 09:26:12
841
2
原创 phoenix建表映射有命名空间的hbase表
1.先开启schema与namespace的对应关系在phoenix中与hbase的命名空间相对应的是schema概念,默认是没有开启的,需要在hbase的hbase-site.xml中增加以下配置项<property> <name>phoenix.schema.isNamespaceMappingEnabled</name> <value>true</value></property><property>
2020-08-19 16:25:36
495
原创 Hive创建表时添加中文注释后乱码问题
创建数据表时我们经验会添加一些中文注释到表里面方便识别,最近在测试hive的时候,发现添在Hive创建表时添加COMMENT时的中文注释就会出现乱码,如下:解压思路:1、查看存放Hive元数据信息的数据库表字符集;是否因为字符集问题可以看出,由于表使用的是默认的latin1字符集,所以中文显示不出来,应该使用utf8;但是很奇怪,我整个Mysql都是使用utf8的字符集;所以这个与Mysql的配置无直接关系;但是可以通过修改Mysql上面的表默认字符集来解决,这个是不需要修改Hive配置的方法
2020-07-22 11:35:59
388
原创 flume采集kafka数据到hdfs,不会产生大量小文件的配置
Name the components on this agenta1.sources=r1a1.channels=c1a1.sinks=k1sourcea1.sources.r1.type = org.apache.flume.source.kafka.KafkaSourcea1.sources.r1.channels = c1a1.sources.r1.batchSize = 5...
2020-03-31 15:56:23
1408
1
原创 centos7安装cdh全过程
centos7配置静态ipVi /etc/sysconfig/network-scripts/ ifcfg-ens33TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticDEFROUTE=yesIPV4_FAILURE_FATAL=noIPV6...
2019-11-21 08:50:57
3234
原创 hive调优
参数调优1、map阶段数据压缩set hive.exec.compress.intermediate=trueset mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodecset mapred.map.output.compression.codec=com.hadoop.compress...
2019-09-24 12:12:49
156
原创 HBase
HBase简介:hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的一个非关系型的(nosql)数据库系统。支持读写查询操作等等它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与...
2019-09-01 15:51:06
212
原创 二分查找法
object ScalaSeach {def main(args: Array[String]): Unit = {/*** List(1,9,8,10,2,3,6) 8* 4,List(1,2,3,6,8,9,10)*/val list=List(1,9,8,10,2,3,6)val x=8seach(list.sorted,x)}/*** 二分查找法* 二分查...
2019-08-28 20:43:13
171
原创 redis
想会redis 首先需要知道redis的几种数据类型,根据其数据类型的特性进而得知它的使用场景,即可知道redis!首先redis有五种数据类型字符串 String特点: 存储所有的字符和字符串应用场景: 做缓存使用哈希 hash特点: 相当于java中hashMap集合应用场景: 可以存储javaBean对象, 此种使用场景不多,可被String替代...
2019-08-20 16:27:12
105
原创 Azkaban工作流调度
1. 工作流调度实现方式简单的任务调度:直接使用linux的crontab来定义,但是缺点也是比较明显,无法设置依赖。复杂的任务调度:自主开发调度平台,使用开源调度系统,比如azkaban、Apache Oozie、Cascading、Hamake等。其中知名度比较高的是Apache Oozie,但是其配置工作流的过程是编写大量的XML配置,而且代码复杂度比较高,不易于二次开发。Azka...
2019-08-20 16:21:36
167
原创 数据仓库-Hive
1.1. 基本概念英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化 数据环境,为企业提供决策支持(Decision Support)。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基 于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表 等。可以理解为: 面向分析的存储系统 。1.2...
2019-08-20 15:14:03
115
原创 kafka
kafka基本概念1.1 什么是kafka1) Apache Kafka 是一个开源的分布式消息队列(生产者消费者模式)2) Apache Kafka 目标:构建企业中统一的、高通量的、低延时的消息平台。3) 大多的是消息队列(消息中间件)都是基于JMS标准实现的,Apache Kafka 类似于JMS的实现。1.2 kafka的特点作为缓冲(流量消减),来异构、解耦系统。用户注...
2019-08-20 13:29:54
192
原创 yarn分布式资源调度
yarn是hadoop集群当中的分布式资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务.yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管理(ResourceManager,RM...
2019-08-20 13:17:09
351
原创 分布式计算:MapReduce
MapReduce的思想MpReduce运行在yarn之上阶段划分:Map阶段: 负责将一个大的任务划分成小的任务,小任务之间不能有依赖关系Reduce阶段: 负责将Map阶段的结果进行汇总一个完整的mapreduce程序在分布式运行时有三类实例进程:MRAppMaster 负责整个程序的过程调度及状态协调MapTask 负责map阶段的整个数据处理流程ReduceTask 负责...
2019-08-20 13:15:23
150
原创 分布式文件系统HDFS
1:hdfs适合的应用场景1:高吞吐量,高延时2:一次写入,多次读取3:具有高扩展性和容错性2:hdfs不适合的应用场景1: 需要低延时2: 不适合存储小文件1个文件—>一条元数据—>150字节---->namenode的内存中1T文件每一个文件是一个字节: 10241024102410241024个每一个文件1T: 1个3: 不支持数据的任意修改和读写h...
2019-08-20 13:12:50
190
原创 zookeeper
Zookeeper的概述:zookeeper是一个开源的分布式协调服务框架,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题zookeeper的特点zookeeper本质上是一个分布式文件系统,适合存放小文件,也可以理解为一个数据库如上图可知,zookeeper中存储的其实是一个又一个znode,znode是zookeeper中的节点znode是有路径的,例如/data/ho...
2019-08-20 13:09:02
146
原创 多线程
● 如何保证线程安全通过合理的时间调度,避开共享资源的存取冲突。另外,在并行任务设计上可以通过适当的策略,保证任务与任务之间不存在共享资源,设计一个规则来保证一个客户的计算工作和数据访问只会被一个线程或一台工作机完成,而不是把一个客户的计算工作分配给多个线程去完成。●线程的基本状态以及状态之间的关系其中Running表示运行状态,Runnable表示就绪状态(万事俱备,只欠CPU),Bloc...
2019-08-08 18:03:16
96
原创 文件上传和下载
1. 什么是文件上传* 文件上传:将本地的文件通过流写入到服务器的过程。package com.itheima.contollor;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io...
2019-06-19 23:17:48
181
原创 Jsonp跨域
1. 什么是跨域跨域它是不同的域名(服务器)之间的相互的资源的访问。当协议,域名,端口号任意一个不相同,它们就是不同的域。正常情况下,因为浏览器安全问题,不同域的资源是不可以访问的。跨域解决方案有三种解决方案:1.代理方案前端页面访问本地的服务器,本地服务器访问其它域的资源,它是服务器端的跨域问题解决。(这种方式就是前端访问本项目的servlet,然后servlet跳转到其他服务器的页...
2019-06-19 23:11:33
113
原创 AJAX
AJAX是异步请求流程:用户在浏览器向服务器发送请求,会经过AJAX引擎 AJAX引擎会把请求发给服务器服务器处理请求需要时间(可能两秒),但是在这个过程中,用户可以继续发送请求!直到用户不发送请求,并服务器把请求处理的数据响应给用户,这样用户的体验更好!不用像传统方式发送一个请求就需要等服务器响应完才能继续发请求用json处理异步请求的案例:<!DOCTYPE html...
2019-06-19 23:08:48
90
原创 注解
1. 注解介绍注解(Annotation),也叫元数据。一种代码级别的说明。它是JDK1.5及以后版本引入的一个特性,与类、接口、枚举是在同一个层次。它可以用于创建文档,跟踪代码中的依赖性,甚至执行基本编译时检查。注解是以‘@注解名’在代码中存在的它可以声明在包、类、字段、方法、局部变量、方法参数等的前面,用来对这些元素进行说明,注释。你可以在编译时选择代码里的注解是否只存在于源代码级,或者...
2019-06-19 23:05:59
123
原创 代理模式
代理模式介绍即Proxy Pattern,23种常用的面向对象软件的设计模式之一代理模式的定义:为其他对象提供一种代理以控制对这个对象的访问。在某些情况下,一个对象不适合或者不能直接引用另一个对象,而代理对象可以在客户端和目标对象之间起到中介的作用。静态代理:是由程序员创建或工具生成代理类的源码,再编译代理类。所谓静态也就是在程序运行前就已经存在代理类的字节码文件,代理类和委托类的关系在运...
2019-06-19 23:02:59
121
原创 反射
类的加载:当程序要使用某个类时,如果该类还未被加载到内存中,则系统会通过加载,连接,初始化三步来实现对这个类进行初始化加载:就是指将class文件读入内存,并为之创建一个class对象.任何类被使用时系统都会建立一个class对象连接:验证 是否有正确的内部结构,并和其他类协调一致准备 负责为类的静态成员分配内存,并设置默认初始化值解析 将类的二进制数据中的符号引用替换为直接引用...
2019-06-19 22:58:46
132
原创 Linux下安装redis
第一步:将redis.tar.gz解压到 local/redis-3.2.8tar -zxvf redis-3.2.8.tar.gz第二步: 在local目录下创建一个redis文件夹,然后进入redis-3.2.8目录cd redis-3.2.8第三步:在local/redis-3.2.8目录下对redis进行编译make头次安装redis使用make编译会报错,需要安装gc...
2019-06-17 12:37:25
154
原创 在Linux上安装tomcat
1.Tomcat上传到linux上2.将上传的tomcat解压3.在tomcat/bin目录下执行 ./startup.sh(注意防火墙)4.去tomcat/logs 目录下执行tail -f catalina.out(就可以看到你启动tomcat的日志信息了)在linux中很多软件的端口都被”防火墙”限止,我们需要将防火墙关闭防火墙打开3306端口/sbin/iptables -I ...
2019-06-16 10:01:49
101
原创 vi使用方法详细介绍
vi编辑器是所有Unix及Linux系统下标准的编辑器,它的强大不逊色于任何最新的文本编辑器,这里只是简单地介绍一下它的用法和一小部分指令。由于对Unix及Linux系统的任何版本,vi编辑器是完全相同的,因此您可以在其他任何介绍vi的地方进一步了解它。Vi也是Linux中最基本的文本编辑器,学会它后,您将在Linux的世界里畅行无阻。1、vi的基本概念 基本上vi可以分为三种状态,分别是命...
2019-06-07 12:50:23
158
原创 Vim命令合集
命令历史以:和/开头的命令都有历史纪录,可以首先键入:或/然后按上下箭头来选择某个历史命令。启动vim在命令行窗口中输入以下命令即可vim 直接启动vimvim filename 打开vim并创建名为filename的文件文件命令打开单个文件vim file同时打开多个文件vim file1 file2 file3 …在vim窗口中打开一个新文件:open file在新窗...
2019-06-07 12:49:34
74
原创 Linux各目录及每个目录的详细介绍
【常见目录说明】Linux目录和Windows目录有着很大的不同,Linux目录类似一个树,最顶层是其根目录,如下图:/bin 二进制可执行命令/dev 设备特殊文件/etc 系统管理和配置文件/etc/rc.d 启动的配置文件和脚本/home 用户主目录的基点,比如用户user的主目录就是/home/user,可以用~user表示/lib 标准程序设计库,又叫动态链接共享库...
2019-06-07 12:48:32
109
原创 bios开启虚拟化技术
检测是否电脑支持CPU虚拟化通过securable.exe工具检测是否支持虚拟化技术和虚拟化是否开启。已开启:支持,但是未开启:什么是BIOS:BIOS 是一个内置于个人计算机的程序,当您打开计算机时该程序启动操作系统。也称为系统固件。BIOS 是计算机硬件的一部分,不同于 Windows。如何进入BIOS:电脑进入BIOS的方法各有不同,通常会在开机时,显示电脑logo的时候提...
2019-06-07 12:46:04
1450
原创 使用VMware安装CentOS 6.4
安装步骤第1步:首先安装VMware Workstation,只需点下一步即可,安装过程略第2步:文件 → 新建虚拟机 或 直接点击 创建新的虚拟机 图标第3步:选择 典型(推荐)→ 下一步第4步:稍后安装操作系统第5步:选择操作系统和版本第6步:输入虚拟机名称和安装路径第7步:设置磁盘大小第8步:自定义硬件第9步:选择CentOS安装镜像文件第10步:点击完成...
2019-06-07 12:44:02
136
原创 虚拟软件vmware安装
什么是虚拟软件:虚拟原件是一个可以使你在一台机器上同时运行二个或更多Windows、LINUX等系统。它可以模拟一个标准PC环境。这个环境和真实的计算机一样,都有芯片组、CPU、内存、显卡、声卡、网卡、软驱、硬盘、光驱、串口、并口、USB控制器等常用的虚拟原件:1.VMware workstation2.VirtualBoxVMware workstation安装:1双击VMware-...
2019-06-07 12:33:51
140
原创 Linux下安装lrzsz
手动编译安装1、 下载安装包,wget https://ohse.de/uwe/releases/lrzsz-0.12.20.tar.gz 或者是 上传已经下载好的安装包2、 cd /usr/local/src/3、 mkdir lrzsz4、 cd lrzsz/5、 解压:tar -xvf lrzsz-0.12.20.tar.gz6、 cd lrzsz-0.12.207、 执...
2019-06-07 12:29:43
198
原创 Linux下安装mysql
下载http://dev.mysql.com/downloads/mysql/或者使用wget下载:wget http://dev.mysql.com/get/Downloads/MySQL-5.6/MySQL-5.6.22-1.el6.i686.rpm-bundle.tar安装2.1. 检测是否已经安装了mysqlrpm -qa | grep mysql如果已经安装了,...
2019-06-07 12:27:28
109
原创 Linux下安装jdk1.7
先卸载open-jdkjava –versionrpm -qa | grep javarpm -e --nodeps java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64开始安装:mkdir /usr/local/sr...
2019-06-07 12:22:19
188
原创 Servlet
什么是ServletServlet其实就一个运行在web服务器上的小的Java程序,用于处理从web客户端发送的请求,并且对请求作出响应。Servlet的生命周期Servlet生命周期:Servlet对象从创建到销毁的过程。Servlet何时被创建又是何时被销毁的?Servlet中有init,service,destroy方法,这几个方法称为是Servlet生命周期相关的方法。Se...
2019-06-07 12:19:28
106
原创 JSP的由来
Servlet技术生成动态网页的时候很麻烦,需要通过response获得输出流,调用print方法进行打印的。这种编程方式很麻烦,而且美工也不容易处理。SUN公司为了简化动态网页开发,推出JSP。什么是JSP?JSP:Java Server Pages Java服务器端页面。JSP 就是 HTML + Java代码 + JSP自身东西。JSP的运行原理JSP在执行时,会被服务器翻译为S...
2019-06-06 14:14:50
544
原创 Cookie和Session
Cookie和Session都是会话技术会话简单理解为:用户打开一个浏览器,点击多个超链接访问服务器的web资源,然后关闭浏览器,整个过程称为是一次会话。每个用户与服务器进行交互过程中,产生一些各自的数据,程序想要把这些数据进行保存,就需要使用会话技术。Cookie是客户端技术,程序把每个用户的数据以cookie的形式保存到各自浏览器中。当用户使用浏览器再次访问服务器中的web资源的时候...
2019-06-06 13:57:43
82
原创 java环境变量的配置
计算机-右键属性-高级系统设置-高级-环境变量-系统变量,新建一个系统变量JAVA_HOME为JAVA_HOME添加变量值:JDK安装目录修改path环境变量在path环境变量最前面添加:%JAVA_HOME%\bin;• 如何测试在控制台输入java和javac能看到和我一样的内容如何打开控制台win+R,输入cmd,然后回车...
2019-06-06 13:44:17
130
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人