小白问题描述:
通过类似word2vec等方法,利用商品的历史订单,我们可以获取一些商品之间的关联关系。通常这些关联关系是以json串的形式存储在Hive表中,且一个关联关系下包含多个商品,通常的格式为:
商品 | 关联商品列表 |
1001 | [{"product_id":"1002","confidence":0.86},{"product_id":"1003","confidence":0.72}] |
1004 | [{"product_id":"1005","confidence":0.89},{"product_id":"1001","confidence":0.63}] |
其中,product_id代表商品的id,confidence代表当前商品与第一列商品的关联程度。
但是,在我们平时使用或查询某商品的关联商品时,只能获取“关联商品列表”这一坨列表化的json数据,十分繁琐。因此,为了方便查询和使用我们需要将其解析为如下形式:
商品 | 关联商品 |