- 博客(19)
- 收藏
- 关注
原创 Hbase之getroworbefore()函数
现在表emp1中插入如下两条数据那么我们要运用函数getroworbefore把这两条数据查出来import java.io.IOException;import java.util.Scanner;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConf
2017-07-24 10:17:21
892
原创 如何在hbase中快速插入10万条数据
我们知道每一条put操作实际上都是一个rpc操作,它将客户端数据传送到服务器然后返回。这只是折小数据量的操作,如果有一个应用需要插入十万行数据到hbase表中,这样处理就太不合适了。 hbase的api配备了一个客户端的些缓冲区,缓冲区负责手机put操作,然后调用rpc一次性将put送往服务器。 下面是一个插入十万行到一个表的代码:import org.apache.h
2017-05-09 15:42:08
3801
原创 用java生成一个表白二维码
之前对二维码粗略的看了一下觉得可以自己实现一个二维码用来表白,程序员的浪漫。其实生成一个二维码非常简单几个类就可以搞定import java.io.File;import java.nio.file.Path;import java.util.HashMap;import java.util.Scanner;import com.google.zxing.BarcodeForma
2017-05-02 17:11:16
8500
2
原创 java实现简单的网络爬虫(爬取电影天堂电影信息)
在最开始,我们要在网上下载所用到的jar包,应为这只是一个简单的网络爬虫所以很多包里的内容没有用到。下面几个包就可以了。并且要引入这些包。主类Bigdata.javaimport org.htmlparser.util.ParserException;public class Bigdata { public static void main(String[] args) t
2017-05-02 16:38:25
9890
原创 mapreduce代码整理之实现压缩输出减少网络传输
在mian函数里这样写public static void main(String[] args) throws Exception { Configuration conf = new Configuration();conf.setStrings("mapred.tasktracker.reduce.tasks.maximum", "4");conf.setClass("mapred.
2017-04-05 11:17:49
503
原创 HDFS之删除数据
import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class FSdelete { publ
2017-03-27 16:26:14
2357
原创 hadoopAPI之FileSystem和FSDataInputStream对象
这个程序将一个文件读取两编利用了FileSystem的open方法创建一个InputStream赋值给FSDataInputStream。import java.io.IOException;import java.net.URI;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configurati
2017-03-27 16:09:27
797
原创 mapreduce代码整理之简单的kmeans聚类
我们的目标是将如下坐标点分成两类,可以很清楚地看到这个数据可以很明确的分为两类。要分类的数据在kmeans.txt里,初始中心在cluster.center.conf.txt里,把这两个文件都上传到hdfs中。Utils.javaimport java.io.IOException;import java.util.ArrayList;import java.util.List
2017-03-26 12:48:25
2439
1
原创 hadoopAPI之LineReader类
在keams算法代码里发现其中用了一个LineReader类中的readline方法故查看api代码中用了第三个方法创建了一个lineReader实例在调用lineReader实例的readline(String)方法把输入流fsis中的一行写入到Text型的line中返回一个int型如果大于零说明这一行不为空。
2017-03-25 16:58:53
773
转载 hadoop之map shuffle reducer 过程
转载自http://bit1129.iteye.com/blog/2184239深入Spark Shuffle之前,首先总结下Hadoop MapReduce的Shuffle过程,了解了Hadoop MR的shuffle过程,有助于对Spark的Shuffle过程的理解 Hadoo MapReduce的Shuffle总体流程图 问题:下图中Map
2017-03-20 13:22:46
993
原创 hadoop之Writable序列化
代码如下:import java.io.ByteArrayInputStream;import java.io.DataInputStream;import java.io.DataOutputStream;import java.io.IOException;import org.apache.commons.io.output.ByteArrayOutputStream;impo
2017-03-15 21:27:04
384
翻译 HDFS之SequenceFile的读写操作
本文代码参考hadoop权威指南里第四章hadoop的i/o操作SequenceFile写操作:import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.ap
2017-03-15 18:24:50
2543
原创 HDFS之上传文件到hdfs中
Filecopywithprogress.javaimport java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStream;import java
2017-03-14 19:30:10
857
原创 HDFS之globStatus()函数(用通配符匹配制定模式的路径)liststatus() (列出目录下的所有文件)
Globstatus.javaimport java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import o
2017-03-14 18:51:55
5224
原创 HDFS之filestatus(查看hdfs里的数据信息)
FileTest.java本程序列出了hdfs里的test.txt的信息import java.io.IOException;import java.net.URI;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.
2017-03-14 18:22:42
2633
原创 mapreduce代码整理之MyInputFormat(自定义InputFormat)
自定义的InputFormat可以更好的读入数据,用textinputformat就只能读取一行,本程序主要实现了读取多行的情况。MboxFileFormat.javaimport java.io.IOException;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.InputSplit;im
2017-03-13 15:26:43
438
原创 mapreduce代码整理之mywritable(自定义writable)
这个程序包含四个类:MyWritable.java自定义mywritable 把(张三 李四)作为一个writable读入。import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Text;import org.a
2017-03-13 15:10:48
886
原创 mapreduce代码整理之sort
本编文章主要运用mapreduce中的机制进行排序import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop
2017-03-06 11:25:07
394
原创 mapreduce代码整理之wordcount
大家都说wordcount是mapreduce中的halloword,代码如下。import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration
2017-03-06 11:10:07
398
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人