- 博客(16)
- 收藏
- 关注
原创 mapreduce小案例
– 思考超链接在互联网中的作用?– 入链====投票• PageRank让链接来“投票“,到一个页面的超链接相当于对该页投一票。– 入链数量• 如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。– 入链质量• 指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。– 初始值•...
2019-05-09 08:43:54
235
原创 mapreduce各自定义组件demo
#################需求为求每个月温度最高的两天主运行job文件:public class MyTQ {public static void main(String[] args) throws Exception { Configuration conf = new Configuration(true); Job job = Job.getInstance...
2019-05-07 19:30:40
186
原创 mapreduce小demo
包含三个文件:主文件,mapper文件,reduce文件主文件:public class MyWC { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(true); ...
2019-05-06 18:29:36
1072
原创 单机读取大文件方法
有这样一个需求1T 文件,行存储只有一台 128M,64M,256G要求计算重复行。 做法:参考hashmap的数据结构,有这种做法.仅仅是思路每次读取一行数据,对它取哈希模上一个值,比如 i.hashCode()%2000,用2000个小文件分开存储1T文件的内容,这样保证了相同内容的行数据肯定落在同一个小文件中,再根据hashset的不可重复特点,找出重复行。这样...
2019-04-29 20:46:35
426
原创 Java的三种代理模式
代理(Proxy)是一种设计模式,提供了对目标对象另外的访问方式;即通过代理对象访问目标对象.这样做的好处是:可以在目标对象实现的基础上,增强额外的功能操作,即扩展目标对象的功能.这里使用到编程中的一个思想:不要随意去修改别人已经写好的代码或者方法,如果需改修改,可以通过代理的方式来扩展该方法举个例子来说明代理的作用:假设我们想邀请一位明星,那么并不是直接连接明星,而是联系明星的经纪人,来达...
2019-04-26 17:35:56
131
原创 插入排序
插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中,从而得到一个新的、个数加一的有序数据,算法适用于少量数据的排序,时间复杂度为O(n^2)。是稳定的排序方法。将一个数据插入到已经排好序的有序数据中将要排序的是一个乱的数组int[] arrays = {3, 2, 1, 3, 3}; 在未知道数组元素的情况下,我们只能把数组的第一个元素作为已经排好序的有序数据,也就是说,把{3...
2019-04-25 17:45:43
124
原创 linux 循环遍历小脚本练习
有这样一个需求:• 循环遍历文件每一行:流程控制语句– 定义一个计数器num– 打印num正好是文件行数目前有四种方法可以解决: 1.for循环遍历oldIFS=$IFSIFS=$'\n'num=0for i in `cat data.txt` ;do echo $i ((num++))doneecho num:$numIF...
2019-04-25 13:56:52
703
原创 迭代器模式
迭代器模式(Iterator),提供一种方法顺序访问一个聚合对象中的各种元素,而又不暴露该对象的内部表示。迭代器模式的角色构成(1)迭代器角色(Iterator):定义遍历元素所需要的方法,一般来说会有这么三个方法:取得下一个元素的方法next(),判断是否遍历结束的方法hasNext()),移出当前对象的方法remove(),(2)具体迭代器角色(Concrete Iterator)...
2019-04-24 20:54:23
132
原创 DQL、DML、DDL、DCL的概念与区别
SQL语言共分为四大类:数据查询语言DQL,数据操纵语言DML,数据定义语言DDL,数据控制语言DCL。1. 数据查询语言DQL数据查询语言DQL基本结构是由SELECT子句,FROM子句,WHERE子句组成的查询块:SELECT <字段名表>FROM <表或视图名>WHERE <查询条件>2 .数据操纵语言DML数据操纵语言DML主要有三种形式:...
2019-04-24 20:46:20
139
原创 HashMap的原理
HashMap的是java的中使用最为频繁的地图类型,其读写效率较高,但是因为其是非同步的,即读写等操作都是没有锁保护的,所以在多线程场景下是不安全的,容易出现数据不一致的问题。在单线程场景下非常推荐使用。HashMap是由数组和链表两种数据结构组合而成的,其节点类型均为名为条目的类(后边会对条目做讲解)。采用这种数据结果,即是综合了两种数据结果的优点,既能便于读取数据,也能方便的进行数据的...
2019-04-24 20:43:43
230
原创 归并排序
归并排序(MERGE-SORT)是利用归并的思想实现的排序方法,该算法采用经典的分治(divide-and-conquer)策略(分治法将问题分(divide)成一些小的问题然后递归求解,而治(conquer)的阶段则将分的阶段得到的各答案"修补"在一起,即分而治之)。 分的阶段: 就是把数组的元素全部分开作为一个独立数字。 ...
2019-04-24 20:05:11
152
原创 工厂设计模式
为什么要用工厂设计模式? 工厂设计模式就是用来帮助你new对象的。为什么不直接new对象,而是通过工厂模式呢?避免直接对对象进行创建,而且把所有的对象都集中起来管理,也可以在不改动应用程序的基础上直接添加对象,便于对象的维护。工厂模式的种类:1、简单工厂场景:用户需要机器来生产布,但因为布有不同种类,所以需要不同的机器。工厂负责把这些机器生产出来。...
2019-04-24 16:51:48
122
原创 排序算法:快速排序
快速排序(QuickSort)是对冒泡排序的一种改进。快速排序由C. A. R. Hoare在1962年提出。它的基本思想是:从要排序的数据中取一个数为“基准数”。通过一趟排序将要排序的数据分割成独立的两部分,其中左边的数据都比“基准数”小,右边的数据都比“基准数”大。然后再按步骤2对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。该思想可以概括为:...
2019-04-24 16:45:41
264
原创 描述克隆linux的步骤,以及后续配置
• 关机• 拍摄快照• 注意:日后,虚拟机一定要用快照克隆。• 配置IP• 配置主机名– vi /etc/sysconfig/network• HOSTNAME=OOXX• 配置hosts– vi /etc/hosts LINUX– c:/windows/system32/drivers/etc/hosts • 关机• 拍摄快照...
2019-04-24 16:23:31
225
原创 描述vmware安装linux的流程步骤
点击虚拟机的文件----新建虚拟机-----选择稍后安装操作系统----选择linux,centOS 64-----最大磁盘大小可更改为100G-----选择镜像文件----选择 create custom layout------进行分盘(1.选择系统初始化盘/boot 200M 2.选择系统交互磁盘 swap 3./作为剩余磁盘容量)----------修改第一块网卡(1– vi /e...
2019-04-24 16:20:39
287
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅