
大数据学习
Gone、
这个作者很懒,什么都没留下…
展开
-
大数据之spark udf函数使用详解
今天我们来讲讲spark中的udf函数,我们经常会碰到某些需求需要我们对数据中某个字段的数据做自定义处理,UDF:User Defined Function,下面我用实际代码举两个例子:两种方法:1 dataframe中使用# 声明自定义方法def json_decode(string): decode_json = json.loads(string) if bool(decode_json): return decode_json.get('channel原创 2022-02-07 18:49:41 · 2711 阅读 · 0 评论 -
SparkSql内置函数之substring_index()
我们往往需要利用url中夹带的参数进行数据分析,例如一个urlhttps://abc.com/*****/detail?id=132&channel_code=11-132-c:channelTwo如何提取出url中的id,channel_code等参数进行数据分析呢?可以巧妙利用substring_index函数。substring_index(str,delim,count)-在分隔符delim出现计数之前,从str返回子字符串。如果count为正,则返回最后一个分隔符左侧的所有内原创 2022-01-18 17:24:16 · 1987 阅读 · 0 评论 -
大数据pyspark sql分析函数lead()和lag()
1 功能Lag和Lead函数可以在一次查询中取出同一字段的前N行的数据和后N行的值2 语法lag(col, offset=1, default=None)col 被对比的字段offset 偏移量default 默认值3 不多说,直接上案例session_window = Window.partitionBy("user_id", "sponsor_id").orderBy(functions.col("event_time").asc()) diff_df = df原创 2022-01-10 22:52:06 · 2203 阅读 · 0 评论 -
大数据pyspark之计算用户每个页面停留时间
用户停留时长(Time on Page),我们可以简单理解为用户访问两个页面之间的时间差。因为对于每个页面,打开时,前端只需要上报固定格式的日志,我们就可以利用日志分析出用户的停留时间,举个例子,日志格式如下:{"ip":"101.82.208.128","event_type":"show","user_id":null,"terminal":"H5_WEIXIN","lang":"zh-cn","ua":"Mozilla/5.0 (Linux; Android 11; M2011K2C Build原创 2022-01-05 20:58:57 · 2258 阅读 · 0 评论