SQL 数据查询与文本挖掘技巧
一、查询优化与数据可视化
在数据查询方面,我们可以通过在多个位置添加子查询,实现对数据的精细筛选和预处理,从而让查询发挥更大的作用。同时,使用交叉制表可以将数据以矩阵形式可视化,还能对数据进行分组重新分类,这为我们挖掘数据背后的故事提供了更多途径。
为了更好地掌握这些概念,这里有两个实践任务:
1. 深入分析威基基高温数据 :修改相关代码,将 temps_collapsed 表限定为威基基的每日最高气温观测值。然后使用 CASE 语句的 WHEN 子句将温度重新分类为七个组,输出结果如下:
- ‘90 or more’
- ‘88 - 89’
- ‘86 - 87’
- ‘84 - 85’
- ‘82 - 83’
- ‘80 - 81’
- ‘79 or less’
分析威基基的每日最高气温最常落在哪个组。
- 翻转冰淇淋调查交叉表 :修改冰淇淋调查的交叉表,使口味作为行,办公室作为列。思考需要更改查询中的哪些元素,以及计数是否会不同。
二、文本挖掘获取有意义的数据
文本数据虽然大多是非结构化或半结构化的,但我们可以使用 SQL 从中提取和量化数据。主要有两种方法:一是将文本转换为结构化数据,通过搜索和提取文本中的日期、代码等元素,加载到表中进行分析;二是利用高级文本分
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



