建议体验时长:1小时
云产品资源使用时长:0小时
体验简介
本教程通过使⽤数据湖构建(DLF)产品对于淘宝⽤户⾏为样例数据的分析,介绍DLF产品的数据发现和数据探索功能。
教程内容包括:
1. 服务开通:开通阿⾥云账号及DLF/OSS相关服务
2. 样例数据集下载和导⼊:下载样例数据(csv⽂件),并上传⾄OSS
3. DLF数据发现:使⽤DLF⾃动识别⽂件Schema并创建元数据表
4. DLF数据探索:使⽤DLF数据探索,对⽤户⾏为进⾏分析,包括⽤户活跃度、漏⽃模型等
数据说明
本次测试的数据集来⾃阿⾥云天池⽐赛中使⽤的淘宝⽤户⾏为数据集,为了提⾼性能,我们做了⼀定的裁剪。数据集中以csv的格式存储了⽤户⾏为及商品样例数据。数据范围:2014年12⽉1⽇ - 2014年12⽉7⽇数据格式:
user表:
| Column | Description | Comment |
| user_id | Identity of users | Sampled&desensitized |
| item_id | Identity of items | Desensitized |
| behavior_type | The user behavior type | Including click, collect,add-to-cart and payment, the corresponding values are 1, 2, 3 and 4,respectively. |
| user_geohash | Latitude(user location when the behavior occurs, whichmay be null) | Subject to fuzzing |
| item_category | The category id of the item | Desensitized |
| time | The time of the behavior | To the nearest hours |
item表:
| Column | Description | Comment |
| item_id | Identity of items | Sampled & desensitized |
| item_ geohash | user location where the behavior occurs (may be null) | generated by longitude and altitude through a certain privacy-preserving algorithm |
| item_category | The category id of the item | Desensitized |
本教程通过阿里云数据湖构建(DLF)产品,演示如何对淘宝用户行为数据进行分析。内容涵盖服务开通、数据上传、数据发现和数据探索,涉及用户活跃度、漏斗模型等分析,数据来源于2014年12月的淘宝用户行为样本。
https://developer.aliyun.com/adc/scenario/c46e97cc1ccf4a31881296ee95bb607a?spm=a2c6h.13858375.0.0.59eb5b90CgVsAr

9

被折叠的 条评论
为什么被折叠?



