一、需求
使用 Hive 统计出过去 7 天的访问日志中访问次数最多的前 3 个 url 的请求路径。
二、知识点
使用 Hive 的内置函数 parse_url 解析出 url 字段中的请求路径,官网(Hive内置函数)示例如下:

基本用法如下:
-- 例:获取 url 中的主机名
select parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'HOST');
第一个参数是 url 字符串,第二个参数是要获取的内容,常用的有如下几个:
| partToExtract |
|---|

本文介绍了如何利用Hive的内置函数parse_url,结合访问日志,统计并分析出过去7天访问量最高的三个URL请求路径。详细讲述了需求背景、函数用法、测试数据及实现步骤,适用于大数据处理场景。
最低0.47元/天 解锁文章
1741

被折叠的 条评论
为什么被折叠?



