淘宝穿衣搭配算法_方案三

最新推荐文章于 2025-04-14 09:58:47 发布

原创

最新推荐文章于 2025-04-14 09:58:47 发布 · 3.3k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#淘宝网 #算法 #预测 #产品

该博客详细介绍了淘宝穿衣搭配算法的改进方案，包括产品替换、相似度计算、搭配筛选等多个步骤，旨在提高推荐的精准度。通过计算产品分词的相似度，排除相似度过高但类别不同的产品，最终选出相似度高且具有多样性的搭配推荐。

ReplaceItem1.java将原先的matchsets中的产品替换为它的分词结果，分词结果以空格隔开，产品与产品间用逗号隔开，输出结果ToTerms1.txt。为了之后比较每个产品与预测产品的相似度，排除方案二中出现多可替代产品，而造成该搭配的相似度虚高的情况（比只有一种产品，但是它们分词重合的面比较广）
CommonCount1.java将预测产品的分词结果和每行都算相似度（分词重合的个数除以预测产品的分词个数）将一行产品的相似度最高值保存为该行的相似度值，然后根据相似度降序排序.
将大于相似度大于0.8的前100条搭配套餐的行号记录下来（输出文件：line_0.8）
将大于相似度大于0.6的前100条搭配套餐的行号记录下来。（输出文件：line_0.6）
将大于相似度大于0.6的前100条搭配套餐的行号记录下来。如果该行最高的相似度达不到0.6，那只取第一条（输出文件：line0.6_100）
将大于相似度大于0.6的前10条搭配套餐的行号记录下来。如果该行最高的相似度达不到0.6，那只取第一条（输出文件：line0.6_10）
将line0.6_10中补上line_0.8中出现不止10条的记录（输出文件：line0.6_10_0.8）

SelectTop200_1.java根据行号找到相应的搭配套餐，剔除同类产品，将其搭配产品输出到文件（final_example.txt），
ReplaceItem2.java将final_example中的每个产品的id替换为其分词结果（分词结果用空格隔开，产品用逗号隔开），(输出结果：ExampleToTerms.txt)
然后对每行的每个分词结果去到产品库中找出最相似的产品，（可以先排序，可以设定阈值>0.8），每行的都要去产品库匹配，然后所有匹配商品都要放在一行，用逗号隔开
关于推荐个数选取问题