数据清洗必备技能！手把手教你玩转数组去重（附多语言代码）

原创于 2025-05-13 21:46:01 发布 · 560 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#其他

部署运行你感兴趣的模型镜像

一、为什么要去重？（全是干货！）

数组去重是数据处理中的基础操作（重要程度⭐⭐⭐⭐⭐）！想象一下这些场景：

电商平台统计独立访客（UV）时，需要从访问日志中筛选唯一用户ID
数据分析时发现同一实验样本被重复录入多次（血压飙升！）
爬虫抓取的数据里混入了重复链接（浪费计算资源💸）

不去重的数据就像混杂沙子的米饭——不仅影响分析结果，还会导致存储空间浪费！（别问我怎么知道的，都是血泪教训😭）

二、各语言去重大法（总有一款适合你）

2.1 Python篇（简单到哭！）

方法1：集合暴力去重法

original_list = [2,3,5,2,4,3]
unique_list = list(set(original_list))
print(unique_list)  # 输出：[2, 3, 4, 5]

⚠️注意：这种方法会打乱原始顺序！（适合不要求顺序的场景）

方法2：有序去重（保持顺序！）

from collections import OrderedDict
original = [5,3,5,2,1,3]
unique = list(OrderedDict.fromkeys(original))
print(unique)  # 输出：[5, 3, 2, 1]

方法3：Pandas大法好！

import pandas as pd
data = pd.Series([2,2,3,4,3])
print(data.drop_duplicates().tolist())  # 输出：[2,3,4]

2.2 JavaScript篇（前端仔必看！）

新语法秒杀法

let arr = [1,2,2,3,3,3];
let uniqueArr = [...new Set(arr)]; 
console.log(uniqueArr); // [1,2,3]

传统filter写法

let arr = ['a','b','a','c'];
let filtered = arr.filter((item,index) => arr.indexOf(item) === index);
console.log(filtered); // ['a','b','c']

2.3 R语言篇（统计大师专用）

基础去重

vec <- c(1,2,2,3,3,3)
unique_vec <- unique(vec)
print(unique_vec)  # 1 2 3

dplyr优雅版

library(dplyr)
df <- data.frame(id = c(1,1,2,2,3))
distinct_df <- df %>% distinct(id, .keep_all = TRUE)

2.4 MATLAB篇（科研党福利）

矩阵操作

data = [2 3 2 4 2];
unique_data = unique(data);
disp(unique_data);  % 2 3 4

表格数据去重

T = table([1;1;2], {'A';'A';'B'}, 'VariableNames', {'ID','Type'});
unique_T = unique(T);  % 去除完全重复的行

三、高阶技巧（装X必备）

3.1 自定义去重规则

当需要根据特定字段去重时（比如保留最新记录）：

import pandas as pd
data = [
    {'id':1, 'time':'2023-01-01'},
    {'id':1, 'time':'2023-01-02'},
    {'id':2, 'time':'2023-01-01'}
]

df = pd.DataFrame(data)
df['time'] = pd.to_datetime(df['time'])
result = df.sort_values('time').drop_duplicates('id', keep='last')

3.2 大数据优化方案

当处理百万级数据时，试试生成器表达式：

def stream_processor(data_stream):
    seen = set()
    for item in data_stream:
        if item not in seen:
            seen.add(item)
            yield item