hadoop 数据挖掘

http://www.cnblogs.com/zhangchaoyang

k-means: http://codecloud.net/hadoop-k-means-591.html

### Hadoop 数据挖掘 示例代码与教程 Hadoop 是一个开源的分布式计算平台,旨在利用普通服务器集群提供可靠、可扩展的大数据存储和计算能力[^4]。通过其分布式文件系统(HDFS)和 MapReduce 编程模型,Hadoop 能够支持大规模的数据挖掘任务,如聚类分析、关联规则挖掘等[^2]。 以下是一个简单的 Hadoop 数据挖掘示例代码,展示如何使用 Hadoop 进行关联规则挖掘: #### 示例代码:使用 Hadoop 实现关联规则挖掘 ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import java.io.IOException; import java.util.StringTokenizer; public class AssociationRuleMining { public static class TokenizerMapper extends Mapper<Object, Text, Text, Text> { private final static Text one = new Text("1"); public void map(Object key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line, ","); while (tokenizer.hasMoreTokens()) { context.write(new Text(tokenizer.nextToken()), one); } } } public static class IntSumReducer extends Reducer<Text, Text, Text, Text> { private Text result = new Text(); public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException { int sum = 0; for (Text val : values) { sum += Integer.parseInt(val.toString()); } result.set(String.valueOf(sum)); context.write(key, result); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "Association Rule Mining"); job.setJarByClass(AssociationRuleMining.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 此代码实现了一个简单的 MapReduce 程序,用于统计每个项目的出现次数。可以进一步扩展此代码以实现更复杂的关联规则挖掘算法。 #### Hadoop 数据挖掘教程推荐 1. **Hadoop 教程与示例** 提供了关于 Hadoop 的一站式大数据分析平台教程,包括 HDFS 和 MapReduce 的基本操作[^1]。 2. **Hadoop 数据分析高级教程** 在最后一章中研究了 Hadoop 的当前状态,并探讨了未来可能
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值