让Excel成为SQL的学习法!

本文通过具体的例子介绍了SQL在数据分析中的应用,包括联表查询、数据筛选、汇总计算等实用技巧。

小匿 | 作者

知乎专栏 | 来源

https://zhuanlan.zhihu.com/p/30212389


SQL,数据分析岗的必备技能,你可以不懂Python,R,不懂可视化,不懂机器学习。但SQL,你必须懂。要不然领导让你跑个数据来汇......,哦不,你不懂SQL都无法入职数据分析岗,更别说领导了。

SQL难吗?说实话,要写好,很难很难。但要通过SQL笔试这关,并不难。相信大伙都使用过Excel,用SQL实现excel 常用操作去学,感觉会比较具体。

数据是网上找到的销售数据,命名为sale,长这样:

1

关联公式:Vlookup

vlookup是excel几乎最常用的公式,一般用于两个表的关联查询等。所以我先创建一个新表:复制sale表并筛选出地区仅为广州的,命名为sale_guang。

create table sale_guang SELECT * from sale where city="广州";

需求:根据订单明细号关联两表,并且sale_guang只有订单明细号与利润两列

SELECT * from sale a 
inner JOIN 
(SELECT ordernum,profit from sale_guang) b 
on a.`ordernum`=b.`ordernum`;

2

对比两列差异

需求:对比sale的订单明细号与sale_guang订单明细号的差异

SELECT * from sale a 
WHERE a.ordernum not in 
(SELECT b.ordernum from sale_guang b);

3

去除重复值

需求:去除业务员编码的重复值

SELECT * FROM sale 
where salesnum not in 
(SELECT salesnum from sale GROUP BY salesman HAVING COUNT(salesnum)>1)

4

缺失值处理

需求:用0填充缺失值或则删除有地区名称缺失值的行

#用0填充:
update sale set city = 0 where city = NULL 
#删除有缺失值的行:
delete from sale where city = NULL;

5

多条件筛选

需求:想知道业务员张爱,在北京区域卖的商品订单金额大于等于6000的信息

SELECT * from sale 
where salesman = "张爱" 
and city = "北京" 
and orderaccount >=6000;

6

模糊筛选数据

需求:筛选存货名称含有"三星"或则含有"索尼"的信息

SELECT * from sale where inventoryname like "%三星%" or 存货名称 like "%索尼%";

7

分类汇总

需求:北京区域各业务员的利润总额。

SELECT city,sum(`profit`) from sale 
WHERE city = "北京" 
GROUP BY `city`;

8

条件计算

需求:存货名称含“三星字眼”并且税费高于1000的订单有几个?这些订单的利润总和和平均利润是多少?

#有多少个?
SELECT COUNT(*) from sale 
where inventoryname like "%三星%"
and `tax` > 1000 ;

#这些订单的利润总和和平均利润是多少?
SELECT `ordernum`,SUM(profit),AVG(`profit`) from sale 
where inventoryname like "%三星%"
and `tax` > 1000 
GROUP BY `ordernum`;

9

删除数据间的空格

需求:删除存货名称两边的空格

SELECT trim(inventoryname) from sale;

10

合并与排序列

需求:计算每个订单号的成本并从高到低排序(成本 = 不含税金额 - 利润)

SELECT city,ordernum,(Nontaxamount - profit) as cost from sale 
order by cost DESC;

总结:结构化查询语言(Structured Query Language)简称SQL,果然和它名字一样,查询起来得心应手,但做想做数据处理方面,能明细感受到比Python和excel吃力(也可能是我还没学好orz)。

 SQL笔试题 

1. 某数据服务公司

  • Student:

  • Score:

(1)查询Student表中的所有记录的Sname、Ssex和Class列

select sname,ssex,class from student;

(2)查询Score表中成绩在60到80之间的所有记录

select * from score between 60 and 80;

(3)查询95033班和95031班的平均分

select class,avg(degree) from Score a 
join student b 
on a.sno = b.sno 
GROUP BY CLASS;

总之是比较简单的SQL笔试题了,当时很快就写完了。实际上这不是原题,不过我有印象就是考察这几个知识点,并且蛮简单的。

2. 某手游公司的SQL笔试题(原题)

(1)建立表Student的语句写下来,表Student是由学好Sno,姓名Sname,性别Ssex,年龄Sage,所在系Sdept五个属性组成,其中学号属性不能为空,并且其值是唯一的。

create table Student_new 
(sno varchar(20) PRIMARY KEY, 
sname varchar(10),ssex char(2), 
sage int,sdept varchar(25));

(2)在student 表中查询Sdept是“计算机”的学生所有信息并按SNO列排序。

select * from student where sdept = "计算机" order by sno ;

(3)在以上三个表中查询Ccredit为5并且Grade大于60的学生的学号、姓名和性别。

select a.sno,a.sname,a.ssex from student a        
join (Course b ,SC c) 
on a.sno=c.sno and b.cno =c.cno        
where Ccredit = 5 and Grade > 60;

3. 某互联网金融公司SQL笔试题(原题)

(1)表A和表B的交集:

SELECT a.cus_id from `表a` as a 
INNER JOIN `表b` as b 
on a.cus_id=b.cus_id;

(2)表A和表B的并集:

SELECT * from `表a`        
UNION        
SELECT * from `表b`;

(3)表A和表B的对称差:

SELECT * from `表a`        
where cus_id not in (SELECT * from `表b`) 
UNION         
SELECT * from `表b`        
where cus_id not in (SELECT * from `表a`);

(4)表A中存在但表B中不存在:

SELECT * from `表a`        
WHERE cus_id not in (SELECT cus_id from `表b`);

END -

这几个数据源网站你都知道吗!?

10大Python数据可视化库!

后台回复“入群”即可加入小z数据干货交流群
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值