- 博客(31)
- 收藏
- 关注
原创 多个join的执行过程
嵌套循环连接,就是先根据Join的类型和on条件进行逐层连接,每次连接完后用where对结果进行过滤。 在这个例子里,第一步只有A一个表,所以没有join的操作,直接对A用where a.id in (1,2,3,4,5,6)进行过滤,符合条件的记录作为主表,得到临时表t_A;第二步,t_A和B按照 A left join B b on a.bid = b.id 的规则来连接,对结果b.class...
2019-08-02 11:47:43
2250
原创 sqlldr命令:将文本格式数据导入到数据库
第一步:写一个 ctl格式的控制文件LOAD DATA -- 控制文件标识 CHARACTERSET 'UTF8' -- 格式统一utf8 INFILE '/u01/mbd/dy_channel.txt' -- 要导入的数据文件名(提前把这txt文...
2019-07-22 16:35:41
1431
原创 案例:数据从flume--kafka——spark streaming
编写一个SocketTest.java文件,用来模拟日志文件一条数据一条数据的生成SocketTest File ctoFile = new File(args[0]); //数据源 File dest=new File(args[1]); //目标文件 InputStreamReader rdCto = new InputStreamReader(new ...
2018-12-28 10:45:16
531
原创 Hadoop-使用mapreduce对数字进行排序
我写了三个类创建一个Mapper类import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop....
2018-12-15 17:46:46
2117
1
原创 Hadoop-InputFormat,FileInputFormat,TextInputFormat,LineRecordReader
InputFormat: InputFormat描述了Map-Reduce作业的输入规范。 Map-Reduce框架依赖于作业的InputFormat: 1.验证job的输入规范。 2.将输入文件分解为逻辑inputsplit,每个inputsplit都被分配给一个单独的mapper。 3.提供RecordReader实现,用于从逻辑...
2018-12-13 22:09:30
633
原创 Hadoop-Mapper和Reducer的知识点集合
MapReduce主要分为两个过程:Map和ReduceMapper过程:Mapper<K1, V1, K2, V2 >Reducer过程:Reducer<K2, V2, K3, V3 >Mapper和Reducer的K2 V2需要保持一致:当Mapper输出格式与Reducer的输出格式一样时可以省略job.setOutputKeyClass()与job....
2018-12-10 21:37:38
1527
原创 Hadoop-写文件顺序,mapreduce基础,运行常见错误
1.加载配置文件 2.获取文件系统 3.创建写入路径(Path) 4.创建输出流 5.写入输出流 6.关闭输出流mapreduce:填空式编程 MapReduce是一个分布式计算框架 分而治之-数据在哪计算在哪两个阶段 map(映射)阶段 reduce(规约或合并)阶段 MapReduce作业...
2018-12-08 18:48:45
481
原创 Hadoop-hdfs读写流程
HDFS写流程 写详细步骤:客户端向NameNode发出写文件请求。 检查是否已存在文件、检查权限。若通过检查,直接先将操作写入EditLog,并返回输出流对象。 (注:WAL,write ahead log,先写Log,再写内存,因为EditLog记录的是最新的HDFS客户端执行所有的写操作。如果后续真实写操作失败了,由于在真实写操作之前,操作就被写入EditLog中了,...
2018-12-06 19:16:51
1325
原创 Hadoop-搭建window下hadoop开发环境,查看hdfs上的文件,随机读取数据,写入数据,创建文件夹,获取文件状态
把jar包倒在eclipse安装路径的plugins.zip 解压放置到对应目录 重启eclipse eclpise调整到map/reduce视图 配置hadoop安装目录 window-》preferences-》hadoop map/reduce ->选择路径-》apply 新建hadoop location 在ma...
2018-12-05 19:36:28
866
原创 Hadoop-机架感知,副本存放策略,网络带宽,数据磁盘故障,数据的完整性,文件删除和取消删除
机架感知: 检查两台是否在同一机架上 NameNode通过Hadoop Rack Awareness中概述的过程确定每个DataNode所属的机架ID 。 一个简单但非最优的策略是将复制品放在独特的机架上。这可以防止在整个机架发生故障时丢失数据, 并允许在读取数据时使用来自多个机架的带宽。此策略在群集中均匀分布副本, 这样可以轻松平衡组件故障的负载。但是,此...
2018-12-04 18:46:53
1015
原创 Hadoop-hdfs的设计理念,block,namenode,datanode启动过程,心跳机制,安全模式
( hdfs的设计理念 硬件故障是常态而非例外。HDFS实例可能包含数百或数千台服务器计算机, 每台计算机都存储文件系统数据的一部分。事实上,存在大量组件并且每个 组件具有非平凡的故障概率意味着HDFS的某些组件始终不起作用。 因此,检测故障并从中快速自动恢复是HDFS的核心架构目标。 在HDFS上运行的应用程序需要...
2018-12-03 15:57:01
740
原创 Hadoop-基本模块,运行模式,配置文件,namenode,datanode,secondarynamenode作用
hadoop模块: Hadoop Common:支持其他Hadoop模块的常用实用程序。 Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。 Hadoop YARN:作业调度和集群资源管理的框架。 Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。(一种计算框架) Hadoop Oz...
2018-12-02 16:34:31
586
原创 数据库知识点集结
一、数据库的发展史 (1)手工管理:藏书阁,图书馆。 优点:分类管理,直观性强 缺点:信息流动慢,不方便 (2)文件管理:计算机文件系统,图书管理系统 优点:分类管理,层次分明 缺点: 查找不方便 (3)数据库管理: 优点:存取数据非常方便. 缺点:有数据的安全...
2018-09-12 22:55:54
316
原创 API-网络编程
网络编程: java语言中,提供了一套统一的编程接口。很多细节都已经底层化。 所在,可以进行无痛的网络通信编程。 提供的是Socket套接字技术。常用的通信协议:(1)TCP/IP:在通信之前,需要建立连接,通信之后需要断开连接 一般会有一个做为服务器端,有一个做为客户端 主要将通信模式分成四个层: ...
2018-09-12 22:55:27
248
原创 API-线程进程
线程:还会涉及到一些名词概念: 程序,进程,线程,多进程,多线程 进程中所包含的一个或多个执行单元称为线程,一个线程就是进程中的一个顺序执行流。进程拥有一个私有的虚拟地址空间,该空间仅能被它所包含的线程访问。即同一个进程中的多个线程共享一块内存空间和一组系统资源。线程只能归属于一个进程并且它只能访问该进程所拥有的资源。线程本身也有一个供程序执行时的堆栈,在线程切换时,...
2018-09-12 22:55:03
666
原创 API-对象流,字符流,子类中转换流,缓冲流,文件字符流
对象流: 有的时候,我们可能需要将内存中的对象持久化到硬盘上,或者将 硬盘中的对象信息读到内存中,这个时候我们需要使用对象输入 输出流。 序列化: 是对象转换成一个字节序列的过程,是一个写操作 反序列化: 一个字节序列转换成对象的过程 ,是一个读操作 ObjectOutputStream 构造器: ...
2018-08-24 22:56:21
204
原创 API-File类型,IO流,字节流,缓冲流,数据输出流
=============================================File类型 java.io.File类型,可以对硬盘上的文件以及目录,进行操作。 如查看文件/目录的属性信息,创建,删除文件/目录。此类型 不能查看和修改文件里的内容。常用构造器: File(String pathname): 指定一个路径,...
2018-08-24 22:55:44
307
原创 API-Set接口,Map接口
Set接口: 特点1: 无序,存储的元素与添加顺序无关 特点2: 不可重复(使用元素的equals方法来判定是否重复) 特点3: 能存储null元素,只能存储一次。Hash算法机制Set集合在添加或查看元素时,当集合中的元素过多时,就是进行 多次的比较,效率变低。 在设计元素类型时,提供hash算法,用于返回对象的一个哈希值...
2018-08-24 22:55:12
1752
原创 API-集合,Collection,list,queue,泛型,list排序
(一)集合概念: 用于存储多个对象的单一对象(容器)。存储的数据叫元素。 元素都是引用类型。 用于存储多个对象的容器。Ps:容器内存储的都是对象的地址。(用于模拟现实生活中的存储容器,因此集合类型,不单单是一种。有很多类型,设计成各种存储的数据结构。这些类型统称为集合框架) 集合框架中包含多种接口,抽象类,实现类等,用此满足我们所需要的的用...
2018-08-24 22:52:00
319
原创 API-正则表达式,包装类,Date,SimpleDateFormat,Calendar
正则表达式: (1)很多时候,我们都需要对一些字符进行匹配,查找,替换等复杂的 操作。我们可以通过"正则表达式"来帮助实现这些复杂操作。 (2)正则表达式, 它是一个有“特殊意义”的字符串,定义了一种" 校验规则"常用字符集 []:表示匹配括号内的一个字符 [abc]:表示匹配abc中的任意一个字符 [a-z]:表示匹配a-z...
2018-08-24 22:51:18
199
原创 API-异常,StringBuilder,String,常量池
API:应用程序编程接口,即jdk文档手册,里面以类的形式提供了 很多常用的功能。常用的包与类: java.lang包:因为常用,所以不需要导包 字符串,线程 java.util包: 数组工具类,日期,集合等 java.net包: 网络相关的类型 java.io包: 输入输出类型...
2018-08-11 10:41:09
272
原创 抽象类,接口,多态,向上(下)转型,内部类
抽象类: 因为继承的关系,子类的功能可以越来越具体,相对来说,父类 更加一般化,通用化。因为父类封装了子类的共同行为,所以, 在定义时,我们可以定义方法的逻辑。有的时候,在父类中无法完成 子类的功能需求,此时,不如不写,即不写方法体,代码简单化。 但是此方法必须使用abstract修饰,那么此类型也必须使用abstract 修饰,即抽象类 1、抽象方法与抽象类 1)用ab...
2018-08-11 10:40:36
422
原创 Object类,导包,访问权限修饰词,修饰词final,static,单例模式
Object:是所有引用类型的顶级父类, 系统都会默认使引用类型extends Object.此类中提供了常用的方法:1:toString(): 在Object中,返回的是类全名@HashCode值, 即对象的内存堆中的位置信息 【类有类名和类全名之分: ...
2018-08-05 16:27:09
273
原创 继承,方法重写,父类变量引用子类对象
继承:java继承是定义一种的新的类型,从已有的类中吸收 成员变量和方法,新的类型可以添加新的方法和成员变量。 这种方式可以提高代码的复用性,缩短开发周期, 减少开发费用。 现实世界中:通过分析多种类型,然后发现有一些共同特征和共同行为 再将这些种类,归纳为一种新类型 ...
2018-08-05 16:26:37
737
原创 方法,重载,构造方法,引用类型数组,this关键字
方法: 概念:类的共同行为,封装了一段逻辑代码,在封装方法时,尽可 能的只完成一项功能(避免将多个功能封装到一个方法内) 方法的使用: 方法属于对象的行为,应该使用:引用.方法,这些方法 动态绑定到对象上 方法签名: 方法名+形参列表=方法签名 形参列表:...
2018-08-05 13:02:52
229
原创 面向对象的概念,类对象变量内存管理机制,空指针,垃圾回收
----------面向对象概述:java编程语言是纯粹的面向对象思想的语言。现在程序开发有两个主流的方法:(1)结构化程序设计,也叫面向过程程序设计 结构化程序设计主张以功能/步骤来进行软件设计。 如在解决问题时,主要是思考的是解决问题的步骤思路: 围棋游戏: 1.游戏开始,2,黑棋执行,3,绘制图片,4,判断输赢, 5,白棋执行,6,绘制图片,7...
2018-08-05 12:39:30
206
原创 方法,eclipse的使用步骤
方法:即功能,封装了一段逻辑代码。方法的定义: 固定语法: 修饰词 返回值类型 方法名(形式参数){ 逻辑代码 }方法的位置: 在类体中,与main方法是并列关系,类体中可以有 多个方法。修饰词: (1)public--公共的 (2)protected--受保护的 (3)private...
2018-08-05 12:26:41
752
原创 数组
数组:1、概念:一组相同类型的数据的组合 数组也是一种引用类型,2、名称:数组名称不是固定的,与存放的数据的类型有关。 如: 存放一组int类型的数据, 数组名称 int[] 存放一组字符串数据 数组名称 String[] 存放一组Scanner类型的...
2018-08-05 12:20:48
127
原创 分支和循环结构
程序的运行顺序: 顺序结构:从程序开始,到程序结束 分支结构:在顺序结构基础上,根据条件进行选择执行方向。 循环结构:在顺序结构基础上,根据条件进行多次执行相同的或相似的代码分支结构:根据条件的成立与否,选择执行方向。 (一)if分支结构: 语句1; if(条件表达式){ 代码块//条件成立时,执行的逻辑 } ...
2018-08-05 12:07:17
2078
原创 运算符
运算符: (1)算术运算符 (2)关系运算符 (3)逻辑运算符(短路运算符): &&,||,! (4)赋值运算符 (5)字符串拼接符:+ (6)三目运算符 条件表达式? 值1:值2 两原一封: 两个原则: 1、不同类型的数据做运算时,一定会先转换成较大范围类型后 再运算。 2、by...
2018-08-05 09:53:40
124
原创 JDK,变量,类型
jdk:java development kit-java开发工具包 --java开发工具 编译器,调试器,javadoc.exe. java.exe,javac.exe --jre(java runtime environment)--java运行环境 --jvm(java虚拟机): 使用程序模拟一台计算机,使java程序运行在此jv...
2018-08-05 09:46:13
205
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人