MR中自定义bean作为key,输出某组排序中最大值。

目录

  • 需求:MR中自定义bean作为key,输出某组排序中最大值。
  • 方案:重写MR中groupingcomparator方法

1.需求:MR中自定义bean作为key,输出某组排序中最大值。

   场景:求出多个订单中,金额最大的商品价格。

2.方案:重写MR中 groupingcomparator 方法

  •       定义排序:orderBean 类,重写compareto方法,订单相同时,比较价格,并且降序desc

public class OrderBean implements WritableComparable<OrderBean>{

 

            private Text itemid;

            private DoubleWritable amount;

 

            public OrderBean() {

            }

 

            public OrderBean(Text itemid, DoubleWritable amount) {

                       set(itemid, amount);

 

            }

 

            public void set(Text itemid, DoubleWritable amount) {

 

                       this.itemid = itemid;

                       this.amount = amount;

 

            }

 

 

 

            public Text getItemid() {

                       return itemid;

            }

 

            public DoubleWritable getAmount() {

                       return amount;

            }

 

            @Override

            public int compareTo(OrderBean o) {

                       int cmp = this.itemid.compareTo(o.getItemid());

                       if (cmp == 0) {

                                   cmp = -this.amount.compareTo(o.getAmount());

                       }

                       return cmp;

            }

 

            @Override

            public void write(DataOutput out) throws IOException {

                       out.writeUTF(itemid.toString());

                       out.writeDouble(amount.get());

                      

            }

 

            @Override

            public void readFields(DataInput in) throws IOException {

                       String readUTF = in.readUTF();

                       double readDouble = in.readDouble();

                      

                       this.itemid = new Text(readUTF);

                       this.amount= new DoubleWritable(readDouble);

            }

 

 

            @Override

            public String toString() {

 

                       return itemid.toString() + "\t" + amount.get();

                      

            }

 

}

     

  •      定义分区:itemPartitioner 类,按照订单id分组

public class ItemIdPartitioner extends Partitioner<OrderBean, NullWritable>{

            @Override

            public int getPartition(OrderBean bean, NullWritable value, int numReduceTasks) {

                       //相同id的订单bean,会发往相同的partition

                       //而且,产生的分区数,是会跟用户设置的reduce task数保持一致

                       return (bean.getItemid().hashCode() & Integer.MAX_VALUE) % numReduceTasks;

            }

}

 

 

  •      定义groupingComparator,利用reduce中该组件将订单相同的bean组成一组

public class ItemidGroupingComparator extends WritableComparator {

 

         //传入作为key的bean的class类型,以及制定需要让框架做反射获取实例对象

         protected ItemidGroupingComparator() {

                  super(OrderBean.class, true);

         }

        

 

         @Override

         public int compare(WritableComparable a, WritableComparable b) {

                  OrderBean abean = (OrderBean) a;

                  OrderBean bbean = (OrderBean) b;

                 

                  //比较两个bean时,指定只比较bean中的orderid

                  return abean.getItemid().compareTo(bbean.getItemid());

                 

         }

 

}

 

      运行类SecondarySort

public class SecondarySort {

           

            static class SecondarySortMapper extends Mapper<LongWritable, Text, OrderBean, NullWritable>{

                      

                       OrderBean bean = new OrderBean();

                      

                       @Override

                       protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

 

                                   String line = value.toString();

                                   String[] fields = StringUtils.split(line, ",");

                                  

                                   bean.set(new Text(fields[0]), new DoubleWritable(Double.parseDouble(fields[2])));

                                  

                                   context.write(bean, NullWritable.get());

                                  

                       }

                      

            }

           

            static class SecondarySortReducer extends Reducer<OrderBean, NullWritable, OrderBean, NullWritable>{

                      

                      

                       //到达reduce时,相同id的所有bean已经被看成一组,且金额最大的那个一排在第一位

                       @Override

                       protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

                                   context.write(key, NullWritable.get());

                       }

            }

           

           

            public static void main(String[] args) throws Exception {

                      

                       Configuration conf = new Configuration();

                       Job job = Job.getInstance(conf);

                      

                       job.setJarByClass(SecondarySort.class);

                      

                       job.setMapperClass(SecondarySortMapper.class);

                       job.setReducerClass(SecondarySortReducer.class);

                      

                      

                       job.setOutputKeyClass(OrderBean.class);

                       job.setOutputValueClass(NullWritable.class);

                      

                       FileInputFormat.setInputPaths(job, new Path("hdfs://shizhan01:9000/secondarysort/input"));

                       FileOutputFormat.setOutputPath(job, new Path("hdfs://shizhan01:9000/secondarysort/output3"));

                      

                       //在此设置自定义的Groupingcomparator

                       job.setGroupingComparatorClass(ItemidGroupingComparator.class);

                       //在此设置自定义的partitioner

                       job.setPartitionerClass(ItemIdPartitioner.class);

                      

                       job.setNumReduceTasks(1);

                      

                       job.waitForCompletion(true);

                      

            }

 

}

    预处理数据:

                      

   处理后结果:

                     

<think>嗯,用户想了解CRC32校验算法的实现和使用方法。我需要先回顾一下CRC32的基本原理,然后考虑如何用简单易懂的中文解释清楚。首先,CRC32是基于循环冗余校验的一种算法,主要用于检测数据传输或存储中的错误。用户可能希望知道它的具体步骤,比如如何初始化、处理数据、异或操作以及最终得到校验值。 根据提供的引用资料,CRC32的核心是多项式除法,但实际中通过查表法优化速度。需要解释生成多项式,比如常见的0xEDB88320,以及初始值、输入输出是否反转这些参数。用户提供的代码片段中有两个版本,一个是逐位计算,另一个是查表法,这可能需要在回答中对比说明,突出查表法的效率优势。 接下来,用户可能关心具体怎么使用这个算法,比如在C语言中的实现步骤,或者如何应用到实际项目中,比如文件校验或网络传输。要分步骤讲解,从初始化到处理每个字节,再到最终计算,可能需要示例代码来辅助说明。同时,注意用户要求行内数学表达式用$...$,比如多项式应该写成$0xEDB88320$这样的格式。 另外,用户的问题里提到生成相关问题,我需要考虑相关的问题可能涉及性能优化、不同生成多项式的影响,或者CRC32与其他校验算法的比较。这些可以作为相关问题放在最后,帮助用户进一步探索。 需要确保回答结构清晰,先讲原理,再讲实现步骤,然后使用方法,最后附上相关问题。同时,引用提供的资料,比如引用[^1]和[^2]来支持解释。要避免技术术语过于复杂,保持语言通俗易懂,同时满足LaTeX格式要求,比如多项式用$符号包裹。检查是否有遗漏的步骤,比如输入反转和输出反转的处理,这在代码示例中有所体现,需要解释清楚这些参数的作用。</think>### CRC32校验算法实现及使用方法 #### 一、CRC32基本原理 CRC32通过多项式除法生成32位校验值,用于检测数据传输或存储中的错误。其核心是生成多项式$G(x)$,常用标准为$0xEDB88320$(反向多项式形式)[^1]。算法流程如下: 1. **初始化**:设置32位寄存器初值为$0xFFFFFFFF$ 2. **数据输入**:逐字节与寄存器异或运算 3. **位移处理**:根据多项式进行循环移位和异或操作 4. **结果取反**:最终值与$0xFFFFFFFF$异或 #### 二、算法实现(C语言) ```c // 查表法实现(高效) uint32_t crc32_table[256]; void init_crc32_table() { for (int i = 0; i < 256; i++) { uint32_t crc = i; for (int j = 0; j < 8; j++) { crc = (crc >> 1) ^ ((crc & 1) ? 0xEDB88320 : 0); } crc32_table[i] = crc; } } uint32_t calc_crc32(uint8_t *data, size_t len) { uint32_t crc = 0xFFFFFFFF; while (len--) { crc = (crc >> 8) ^ crc32_table[(crc ^ *data++) & 0xFF]; } return crc ^ 0xFFFFFFFF; } ``` 此实现通过预先生成的256元素查找表,将时间复杂度从$O(n \cdot 8)$优化到$O(n)$。 #### 三、使用场景及方法 1. **文件校验**:计算文件CRC32值验证完整性 ```bash $ crc32 filename.txt ``` 2. **网络传输**:在数据帧尾部附加4字节校验码 3. **存储系统**:RAID、ZFS等文件系统使用CRC32校验数据块 #### 四、参数配置 | 参数 | 说明 | 标准值 | |---------------|---------------------------|-----------------| | 初始值 | 寄存器初始状态 | 0xFFFFFFFF | | 多项式 | 生成多项式 | 0xEDB88320 | | 输入/输出反转 | 字节处理顺序 | 通常需要反转 |
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值