
Hadoop
文章平均质量分 78
lkq0112
这个作者很懒,什么都没留下…
展开
-
Hadoop学习笔记一(通过Java API 操作HDFS,文件上传、下载)
package demo.hdfs;import java.util.Arrays;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.FileStatus;import org.apac转载 2018-01-23 19:50:34 · 2651 阅读 · 0 评论 -
SQL中的多表查询
1、笛卡尔积:举例2、根据连接条件的不同:(*)等值连接(*)不等值连接(*)外连接(*)自连接二、多表查询:等值连接查询员工信息:部门名称 员工姓名select d.dname,e.enamefrom emp e,dept dwhere e.deptno=d.deptno;三、多表查询:自连接:就是通过表的别名,将同一张表视为多张表查询员工转载 2018-01-25 17:10:53 · 5466 阅读 · 0 评论 -
MapReduce的高级特性(4、合并: Combiner)以及案例 distict去重以及MR的核心shuffle(洗牌)
(*)什么是合并?在Map端先进行一次Reducer的操作,Combiner是一种特殊的Reducer(*)好处:减少Map输出到Reducer中的数据量,从而提高性能(*)举例:使用Combiner重写WordCount程序(*)注意事项: ----> 编程:求平均值 谨慎使用!!!!(1)并不是所有的问题都可以使用Combiner: 求平均值(2)引入了Co转载 2018-01-25 16:57:15 · 472 阅读 · 0 评论 -
MapReduce的高级特性 3、分区: Partition
MapReduce的高级特性3、分区: Partition(*)MR默认只有一个分区(一个输出的文件);如果有多个分区,就有多个输出文件 /output/0918/s8/part-r-00000 /output/0918/s8/part-r-00001 /output/0918/s8/part-r-00002 (*)什么是分区?结合一下Oracle的表转载 2018-01-25 16:48:17 · 1406 阅读 · 1 评论 -
MapReduce的高级特性 (2、排序)
--------------------------------------------------------------------------------------------------------------------2、排序:(*)Java的排序:实现接口Comparable(*)MR的排序:按照Map的输出的key(按照key2进行排序)(1)基本数据类型:转载 2018-01-25 16:40:42 · 257 阅读 · 0 评论 -
MR的高级功能 1、序列化
(*)Java的序列化:如果一个类实现了Java的序列化接口(Serializable),这个类的对象可以作为InputStream和OutputStream对象(*)MR的序列化:(1)所有的hadoop的数据类型都实现了Hadoop的序列化 (2)如果一个类实现了Hadoop的序列化接口(Writable),这个类对象可以作为Map和Reduce的输入和输出(key value)转载 2018-01-25 16:22:52 · 575 阅读 · 0 评论 -
MR的案例:求每个部门的工资总额
MR的案例:求每个部门的工资总额1、表:员工表emp SQL: select deptno,sum(sal) from emp group by deptno;DEPTNO SUM(SAL)---------- ----------30 940020 1087510 87502、开发MR实现[root@111转载 2018-01-25 14:41:19 · 2259 阅读 · 0 评论 -
MapReduce开发自己的wordcount程序
1、Mapper阶段2、Reducer阶段3、主程序job阶段=====================================================================1、Mapper阶段package demo.wc;import java.io.IOException;import org.apache.hadoop.io转载 2018-01-25 14:26:12 · 275 阅读 · 0 评论 -
Java 的RPC:remote procedure call 远程过程调用
RPC:remote procedure call 远程过程调用 Hadoop实现了RPC协议(*) Server(*) Client========================================================================(*) RPC服务Server端1、首先定义自己的接口实现Hadoop的VersionedPr转载 2018-01-25 14:12:16 · 674 阅读 · 0 评论 -
Java 的动态代理实例(JDBC的数据库的连接池(DataSource))
问题:以下两种方式的区别是什么?//注册数据库的驱动Class.forName(driver);//还有一种方式//DriverManager.registerDriver(new com.mysql.jdbc.Driver());==================================================================转载 2018-01-25 13:53:12 · 715 阅读 · 0 评论 -
Java 的动态代理
1、Java的动态代理对象:本质是一种包装设计模式(特点:不修改源码的情况下,增强某个方法的功能) 应用案例:JDBC的数据库的连接池(DataSource)1、首先定义接口2、定义接口的实现类3、创建真正对象和代理对象,并用代理对象去实现增强功能方法==========================================================转载 2018-01-25 13:39:55 · 152 阅读 · 0 评论