自定义hadoop的inputformat

本文介绍如何自定义Hadoop的InputFormat,以解析基于时间的URL数据,创建键值对,其中键是时间(Calendar类型),值是URL(URL类型)。通过实现WritableComparable接口和RecordReader接口,实现了数据的定制化处理和转换。

基于时间url的解析

2014-01-2517:00:00 www.baidu.com

2014-01-2517:00:00 www.google.com

现在需要解析得键值对为时间和URL的键值对。

首先构建键的类型CalendarWriteableComparable 

class CalendarWriteableComparable implements WritableComparable<CalendarWriteableComparable>{
private Calendar calendar;
public CalendarWriteableComparable() {
super();
}

public CalendarWriteableComparable(Calendar calendar) {
super();
this.calendar = calendar;
}
public void set(String str) throws ParseException{
calendar =Calendar.getInstance();
calendar.setTime(new SimpleDateFormat("yyyy-mm-ddhh-mm-ss").parse(str));
}
@Override
public void write(DataOutput out) throws IOException {
// TODO Auto-generated method stub
out.writeUTF(calendar.getTime().toLocaleString());
}


@Override
public void readFields(DataInput in) throws IOException {
// TODO Auto-generated method stub
try {
calendar.setTime(new SimpleDateFormat("yyyy-mm-ddhh-mm-ss").parse(in.readUTF()));
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}


@Override
public int compareTo(CalendarWriteableComparable o) {
return this.calendar.after(o.calendar)?0:1;
}
}

然后构建值得对应的对象

class UrlWriteable implements Writable {
public URL url;


public UrlWriteable() {


}


public UrlWriteable(URL url) {
super();
this.url = url;
}


@Override
public void write(DataOutput out) throws IOException {
// TODO Auto-generated method stub
out.writeUTF(url.toString());
}


public void setUrl(String str) {
try {
url = new URL(str);
} catch (MalformedURLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}


@Override
public void readFields(DataInput in) throws IOException {
// TODO Auto-generated method stub
url = new URL(in.readUTF());
}


}

由于键会参与排序和去重所以必须显示comparable接口

format方法直接继承fileinputformat

public class TimeUrlInputformat extends FileInputFormat<Text, UrlWriteable> {


@Override
public RecordReader<Text, UrlWriteable> getRecordReader(InputSplit split,
JobConf job, Reporter reporter) throws IOException {
// TODO Auto-generated method stub
return new TimeUrlLineRecordReader(job,(FileSplit)split);
}
}

同时我们需要些一个读取转换的类去实现RecordReader接口

public TimeUrlLineRecordReader(JobConf job,FileSplit fileSplit) {
try {
lineRecordReader = new KeyValueLineRecordReader(job, fileSplit);
linekey = lineRecordReader.createKey();
linevalue = lineRecordReader.createValue();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}


@Override
public boolean next(Text key, UrlWriteable value) throws IOException {
// TODO Auto-generated method stub
if(!lineRecordReader.next(linekey,linevalue)){
return false;
}
key.set(linekey);
value.setUrl(linevalue.toString());
return true;
}




@Override
public long getPos() throws IOException {
// TODO Auto-generated method stub
return lineRecordReader.getPos();
}


@Override
public void close() throws IOException {
// TODO Auto-generated method stub
lineRecordReader.close();
}


@Override
public float getProgress() throws IOException {
// TODO Auto-generated method stub
return lineRecordReader.getProgress();
}


@Override
public Text createKey() {
// TODO Auto-generated method stub
return new Text("");
}


@Override
public UrlWriteable createValue() {
// TODO Auto-generated method stub
return new UrlWriteable();
}

}

主要参照其next方法借用KeyValueLineRecordReader,将原本为Text的兼职对转换成我们需要的calendar和url类型。这样我们就定义了一个自己的输入格式

一、数据采集层:多源人脸数据获取 该层负责从不同设备 / 渠道采集人脸原始数据,为后续模型训练与识别提供基础样本,核心功能包括: 1. 多设备适配采集 实时摄像头采集: 调用计算机内置摄像头(或外接 USB 摄像头),通过OpenCV的VideoCapture接口实时捕获视频流,支持手动触发 “拍照”(按指定快捷键如Space)或自动定时采集(如每 2 秒采集 1 张),采集时自动框选人脸区域(通过Haar级联分类器初步定位),确保样本聚焦人脸。 支持采集参数配置:可设置采集分辨率(如 640×480、1280×720)、图像格式(JPG/PNG)、单用户采集数量(如默认采集 20 张,确保样本多样性),采集过程中实时显示 “已采集数量 / 目标数量”,避免样本不足。 本地图像 / 视频导入: 支持批量导入本地人脸图像文件(支持 JPG、PNG、BMP 格式),自动过滤非图像文件;导入视频文件(MP4、AVI 格式)时,可按 “固定帧间隔”(如每 10 帧提取 1 张图像)或 “手动选择帧” 提取人脸样本,适用于无实时摄像头场景。 数据集对接: 支持接入公开人脸数据集(如 LFW、ORL),通过预设脚本自动读取数据集目录结构(按 “用户 ID - 样本图像” 分类),快速构建训练样本库,无需手动采集,降低系统开发与测试成本。 2. 采集过程辅助功能 人脸有效性校验:采集时通过OpenCV的Haar级联分类器(或MTCNN轻量级模型)实时检测图像中是否包含人脸,若未检测到人脸(如遮挡、侧脸角度过大),则弹窗提示 “未识别到人脸,请调整姿态”,避免无效样本存入。 样本标签管理:采集时需为每个样本绑定 “用户标签”(如姓名、ID 号),支持手动输入标签或从 Excel 名单批量导入标签(按 “标签 - 采集数量” 对应),采集完成后自动按 “标签 - 序号” 命名文件(如 “张三
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值