leetcode 182. Duplicate Emails

题目描述

Write a SQL query to find all duplicate emails in a table named Person.

+----+---------+
| Id | Email   |
+----+---------+
| 1  | a@b.com |
| 2  | c@d.com |
| 3  | a@b.com |
+----+---------+

For example, your query should return the following for the above table:

+---------+
| Email   |
+---------+
| a@b.com |
+---------+

Note: All emails are in lowercase.

解题思路:

对于sql还是缺乏相关的经验,这道题我AC的办法有些复杂:

select distinct P1.Email from Person P1, Person P2 where P1.Id > P2.Id and P1.Email = P2.Email;

将两个表进行笛卡尔乘积,然后取id不同,email相同的行,最后用distinct来得到结果,使其唯一,但效率是非常低的,尤其是前面的笛卡尔乘积,即使有索引,在大表的情况下运行时间仍然是不可接受的,在本题中耗时977ms,然后我在讨论区看到一个比较好的做法:

select Email from Person group by Email having count(*) > 1
没有进行笛卡尔乘积,这已经是很大的进步了,但时间是929ms,似乎并没有很大的提升,毕竟字符串比较,磁盘读取,表的大小也起到一个很大的影响。

不过作为一道算法题来说,最优的做法应该能够达到O(n),

将每个邮件进行一次MD5或者其他签名算法(注意要保证不同邮箱有不同的值),这样可以用数字的比较来避免字符串比较的代价,然后遍历一次全表,统计出现次数大于1的邮箱。其实也就是hash桶的思想啦~


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值