Mahout文本聚类学习之DocumentProcessor类

本文介绍了一种基于MapReduce框架的高效分词方法,适用于大规模文本数据集的预处理,通过documentprocessor类实现自动化的分布式分词过程。
        做为文本聚类实现的第一步对语料分词是必须的,而documentprocessor类提供了一个基于mapreduce对大量数据集分词的高效灵活的实现。高效是其基于mapreduce分布式计算框架,灵活是其提供了可扩展的分词接口可以对多种语言分词的支持。

  下面就要深入一下类内部的流程进行学习:documentprocessor类,它只提供了一个静态方法tokenizeddocuments();

tokenizeddocuments(path, class<? extends analyzer>, path, configuration);

  参数中设置了输入文件的路径,也就是前一步生成的文档集的序列文件;另一个是继承了lucene analyzer抽象类的一个子类,用于分词功能的扩展;第三个就是分词的输出路径;最后一个就是job的一个configruation对象。

 1 public static void tokenizedocuments(path input,
 2                                        class<? extends analyzer> analyzerclass,
 3                                        path output,
 4                                        configuration baseconf)
 5     throws ioexception, interruptedexception, classnotfoundexception {
 6     configuration conf = new configuration(baseconf);
 7     // this conf parameter needs to be set enable serialisation of conf values
 8     conf.set("io.serializations", "org.apache.hadoop.io.serializer.javaserialization,"
 9                                   + "org.apache.hadoop.io.serializer.writableserialization"); 
10     //对分词的类进行设置,到时会直接实例化分词类的对象
11     conf.set(analyzer_class, analyzerclass.getname());
12     job job = new job(conf);
13     job.setjobname("documentprocessor::documenttokenizer: input-folder: " + input);
14     job.setjarbyclass(documentprocessor.class);
15     //输出键值为text做为文档的唯一标识
16     job.setoutputkeyclass(text.class);
17     //stringtuple对象中有一个list<string>对象,可以理解为分词后将文档存储为词组的序列
18     job.setoutputvalueclass(stringtuple.class);
19     fileinputformat.setinputpaths(job, input);
20     fileoutputformat.setoutputpath(job, output);
21     //sequencefiletokenizermapper是分词核心类
22     job.setmapperclass(sequencefiletokenizermapper.class);
23     job.setinputformatclass(sequencefileinputformat.class);
24     job.setnumreducetasks(0);
25     job.setoutputformatclass(sequencefileoutputformat.class);
26     //运行job前删除已经存在的目录
27     hadooputil.delete(conf, output);
28     //将job提交到hadoop集群并等待其结束 
29     boolean succeeded = job.waitforcompletion(true);
30     if (!succeeded) 
31       throw new illegalstateexception("job failed!");
32 
33   }

下面对seqencefiletokenizermapper进行分析

 1 public class sequencefiletokenizermapper extends mapper<text, text, text, stringtuple> {
 2 
 3   private analyzer analyzer;
 4 
 5   @override
 6   protected void map(text key, text value, context context) throws ioexception, interruptedexception {
 7       //调用分词提供的方法对value也就是文本正文的内容进行分词处理
 8     tokenstream stream = analyzer.reusabletokenstream(key.tostring(), new stringreader(value.tostring()));
 9     chartermattribute termatt = stream.addattribute(chartermattribute.class);
10     stringtuple document = new stringtuple();
11     stream.reset();
12     while (stream.incrementtoken()) {
13       if (termatt.length() > 0) {
14          //把词组加入stringtuple
15         document.add(new string(termatt.buffer(), 0, termatt.length()));
16       }
17     }
18     context.write(key, document);
19   }
20 
21   @override
22   protected void setup(context context) throws ioexception, interruptedexception {
23     super.setup(context);
24     //map任务开始时会从context中取出configuration对象,解析出分词组件的名称并生成对象的实例
25     analyzer = classutils.instantiateas(context.getconfiguration().get(documentprocessor.analyzer_class,
26                                                                        defaultanalyzer.class.getname()),
27                                         analyzer.class);
28   }
29 }

输入输出数据结构总结:输入数据结构sequencefile形式存储的文件键值为<text, text>;输出数据结构为sequencefile形式存储,文件的键值为<text, stringtuple>。

代码转载自:https://pan.quark.cn/s/a4b39357ea24 本文重点阐述了利用 LabVIEW 软件构建的锁相放大器的设计方案及其具体实施流程,并探讨了该设备在声波相位差定位系统中的实际运用情况。 锁相放大器作为一项基础测量技术,其核心功能在于能够精确锁定微弱信号的频率参数并完成相关测量工作。 在采用 LabVIEW 软件开发的锁相放大器系统中,通过计算测量信号与两条参考信号之间的互相关函数,实现对微弱信号的频率锁定,同时输出被测信号的幅值信息。 虚拟仪器技术是一种基于计算机硬件平台的仪器系统,其显著特征在于用户可以根据实际需求自主设计仪器功能,配备虚拟化操作界面,并将测试功能完全由专用软件程序实现。 虚拟仪器系统的基本架构主要由计算机主机、专用软件程序以及硬件接口模块等核心部件构成。 虚拟仪器最突出的优势在于其功能完全取决于软件编程,用户可以根据具体应用场景灵活调整系统功能参数。 在基于 LabVIEW 软件开发的锁相放大器系统中,主要运用 LabVIEW 软件平台完成锁相放大器功能的整体设计。 LabVIEW 作为一个图形化编程环境,能够高效地完成虚拟仪器的开发工作。 借助 LabVIEW 软件,可以快速构建锁相放大器的用户操作界面,并且可以根据实际需求进行灵活调整和功能扩展。 锁相放大器系统的关键构成要素包括测量信号输入通道、参考信号输入通道、频率锁定处理单元以及信号幅值输出单元。 测量信号是系统需要检测的对象,参考信号则用于引导系统完成对测量信号的频率锁定。 频率锁定处理单元负责实现测量信号的锁定功能,信号幅值输出单元则负责输出被测信号的幅值大小。 在锁相放大器的实际实现过程中,系统采用了双路参考信号输入方案来锁定测量信号。 通过分析两路参考信号之间的相...
边缘计算环境中基于启发式算法的深度神经网络卸载策略(Matlab代码实现)内容概要:本文介绍了在边缘计算环境中,利用启发式算法实现深度神经网络任务卸载的策略,并提供了相应的Matlab代码实现。文章重点探讨了如何通过合理的任务划分与调度,将深度神经网络的计算任务高效地卸载到边缘服务器,从而降低终端设备的计算负担、减少延迟并提高整体系统效率。文中涵盖了问题建模、启发式算法设计(如贪心策略、遗传算法、粒子群优化等可能的候选方法)、性能评估指标(如能耗、延迟、资源利用率)以及仿真实验结果分析等内容,旨在为边缘智能计算中的模型推理优化提供可行的技术路径。; 适合人群:具备一定编程基础,熟悉Matlab工具,从事边缘计算、人工智能、物联网或智能系统优化方向的研究生、科研人员及工程技术人员。; 使用场景及目标:①研究深度神经网络在资源受限设备上的部署与优化;②探索边缘计算环境下的任务卸载机制与算法设计;③通过Matlab仿真验证不同启发式算法在实际场景中的性能表现,优化系统延迟与能耗。; 阅读建议:建议读者结合提供的Matlab代码进行实践操作,重点关注算法实现细节与仿真参数设置,同时可尝试复现并对比不同启发式算法的效果,以深入理解边缘计算中DNN卸载的核心挑战与解决方案。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值