78. Subsets I && 90. Subsets II

------------------------------------------- SUBSETS 1 -------------------------------------------

一、问题描述

Given a set of distinct integers, nums, return all possible subsets (the power set).

Note: The solution set must not contain duplicate subsets.

For example,
If nums = [1,2,3], a solution is:

[
  [3],
  [1],
  [2],
  [1,2,3],
  [1,3],
  [2,3],
  [1,2],
  []
]

二、我的解法

参考了别人的解法。

因为要“return all possible subsets”,所以可以用DFS解(不太明白)。

难点在于如何去掉重复set,这里采用的方法是选代表。比如[1,2,3],[3,1,2]...我们选123,因为它排好序了。

递归的时候要处理极端情况。然后回溯的时候记得remove。

代码:

class Solution {
    public List<List<Integer>> subsets(int[] nums) {
        List<List<Integer>> list = new ArrayList<List<Integer>>();

        if(nums == null){
            return list;
        }

        if(nums.length == 0){
            list.add(new ArrayList<Integer>());
            return list;
        }

        Arrays.sort(nums);
        ArrayList<Integer> subset = new ArrayList<Integer>();
        this.recursion(subset, nums, 0, list);

        return list;
    }

    private void recursion(ArrayList<Integer> subset, int[] nums, int startIndex, List<List<Integer>> list){
        // deep copy
        list.add(new ArrayList<>(subset));

        for(int i = startIndex; i < nums.length; i++){
            subset.add(nums[i]);
            recursion(subset, nums, i+1, list);
            // !!!
            subset.remove(subset.size()-1);
        }

    }
}


三、其他解法

全部引用自http://bangbingsyb.blogspot.com/2014/11/leetcode-subsets-i-ii.html

1. bit manipulation

由于S[0: n-1]组成的每一个subset,可以看成是对是否包含S[i]的取舍。S[i]只有两种状态,包含在特定subset内,或不包含。所以subset的数量总共有2^n个。所以可以用0~2^n-1的二进制来表示一个subset。二进制中每个0/1表示该位置的S[i]是否包括在当前subset中。


2. 添加数字构建subset

起始subset集为:[]
添加S0后为:[], [S0]
添加S1后为:[], [S0], [S1], [S0, S1]
添加S2后为:[], [S0], [S1], [S0, S1], [S2], [S0, S2], [S1, S2], [S0, S1, S2]
红色subset为每次新增的。显然规律为添加Si后,新增的subset为克隆现有的所有subset,并在它们后面都加上Si。


------------------------------------------- SUBSETS 2 -------------------------------------------

一、问题描述

Given a collection of integers that might contain duplicates, nums, return all possible subsets (the power set).

Note: The solution set must not contain duplicate subsets.

For example,
If nums = [1,2,2], a solution is:

[
  [2],
  [1],
  [1,2,2],
  [2,2],
  [1,2],
  []
]

二、我的解法

参考了这篇笔记:http://blog.youkuaiyun.com/u011095253/article/details/9158397

和Subset 1的区别在于集合中有重复元素了。如果按照1的方法去做,[1,2,2]的结果是:

[

  [],

  [1],

   [1, 2],

  [1, 2, 2],

  [1, 2]  <= 回溯到subset==[1],又取了第二个2形成新的subset,就重复了

  [2]

  [2, 2]

  [2]  <= 回溯到subset==[],又取了第二个2形成新的subset,就重复了

]

所以和1的区别是,形成新subset之前加判断,是否和之前取的数字一样,如果一样就continue。

class Solution {
    public List<List<Integer>> subsetsWithDup(int[] nums) {
        List<List<Integer>> result = new ArrayList<List<Integer>>();
        
        if(nums == null){
            return result;
        }
        
        if(nums.length == 0){
            result.add(new ArrayList<Integer>());
            return result;
        }
        
        Arrays.sort(nums);
        List<Integer> subset = new ArrayList<Integer>();
        this.recursion(subset, nums, 0, result);
        
        return result;
    }
    
    private void recursion(List<Integer> subset, 
                           int[] nums,
                          int startIndex,
                          List<List<Integer>> result){
        result.add(new ArrayList<Integer>(subset));
        
        for(int i = startIndex; i < nums.length; i ++){
            // here is the difference, giving up the redundant numbers
            if(i > startIndex && nums[i] == nums[i-1]){
                continue;
            }
            subset.add(nums[i]);
            recursion(subset, nums, i + 1, result);
            subset.remove(subset.size()-1);
        }
    }
}


四、反思&收获

1. deep copy VS shallow cpy VS clone

https://stackoverflow.com/questions/6182565/deep-copy-shallow-copy-clone

http://www.jianshu.com/p/8d3b4b195501




<think>好的,我现在需要帮助用户完成他们提供的Python类DynamicDatasetSampler的代码。用户已经给出了部分代码,看起来这是一个继承自Sampler的类,用于动态数据集采样。他们的代码在__init__方法中开始预计算每个子集的索引范围,但循环部分没有写完,特别是for循环的条件和后续处理可能有问题。 首先,我需要理解用户的目标。这个类可能用于分布式训练中,根据某种切换器(RoundRobinDatasetSwitcher)来动态选择不同的数据子集。预计算每个子集的索引范围可能是为了在后续的采样中快速定位到各个子集的数据。 用户提供的代码中,在__init__方法里,self.subsets是一个列表,初始start为0,然后循环遍历concat_dataset中的每个数据集d,计算每个子集的结束位置end = start + len(d),然后将(start, end)添加到self.subsets中,并更新start为end。但用户的循环部分没有写完,可能缺少循环体或者循环变量。 接下来,我需要补全这部分代码。正确的做法应该是遍历concat_dataset的每个子数据集,计算每个子集的索引范围,并保存这些范围。例如: for d in concat_dataset.datasets: end = start + len(d) self.subsets.append((start, end)) start = end 这样,每个子集的起始和结束索引就被记录下来了,方便后续根据全局rank和num_replicas来分配任务。 然后,用户可能需要实现__iter__方法,生成每个进程的样本索引。这通常涉及到根据当前rank和num_replicas来划分数据。例如,在分布式环境中,每个进程处理一部分数据。这里可能需要结合switcher来决定当前应该使用哪个子集,然后根据子集的索引范围进行采样。 另外,需要注意concat_dataset是否是ConcatDataset的实例,确保其有datasets属性。同时,dist.get_world_size()和dist.get_rank()需要正确初始化,这通常在分布式训练中使用。 可能的错误点:用户可能在遍历concat_dataset时没有正确访问内部的数据集列表,比如是否应该使用concat_dataset.datasets或者另一个属性。需要确认ConcatDataset的定义,通常PyTorch的ConcatDataset有一个datasets属性。 此外,switcher的作用可能是在多个数据集之间轮换,所以在每次迭代时可能需要切换当前使用的数据集。这部分逻辑可能需要在__iter__方法中实现,比如根据switcher的当前状态决定使用哪个子集,然后生成对应的索引。 总结需要完成的部分: 1. 补全__init__中的循环,正确计算每个子集的索引范围。 2. 实现__iter__方法,生成每个epoch的索引,考虑分布式设置和当前子集的选择。 3. 可能需要实现__len__方法,返回每个epoch的样本数量。 可能的后续问题包括如何处理轮换逻辑、如何分配索引到不同的进程,以及如何确保每个子集的样本被均匀分配。用户可能还需要考虑shuffle或其他采样策略,但根据现有代码,可能暂时不需要。</think>```python class DynamicDatasetSampler(Sampler): def __init__(self, concat_dataset: ConcatDataset, switcher: RoundRobinDatasetSwitcher): self.concat_dataset = concat_dataset self.switcher = switcher self.num_replicas = dist.get_world_size() self.rank = dist.get_rank() # 预计算每个子集的索引范围 self.subsets = [] start = 0 for d in concat_dataset.datasets: # 假设ConcatDataset通过.datasets访问子集 end = start + len(d) self.subsets.append((start, end)) start = end # 计算总样本数和每个副本的基础样本数 self.total_size = start self.num_samples = self.total_size // self.num_replicas if self.total_size % self.num_replicas != 0: self.num_samples += 1 def __iter__(self): # 获取当前轮次使用的子集索引 current_subset_idx = self.switcher.get_current_subset() subset_start, subset_end = self.subsets[current_subset_idx] # 生成全局索引 indices = list(range(self.total_size)) # 根据分布式设置划分当前副本的数据 per_replica_indices = indices[self.rank::self.num_replicas] # 仅保留属于当前子集的索引 subset_indices = [i for i in per_replica_indices if subset_start <= i < subset_end] return iter(subset_indices) def __len__(self): return self.num_samples ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值