ReplaceItem1.java将原先的matchsets中的产品替换为它的分词结果,分词结果以空格隔开,产品与产品间用逗号隔开,输出结果ToTerms1.txt。为了之后比较每个产品与预测产品的相似度,排除方案二中出现多可替代产品,而造成该搭配的相似度虚高的情况(比只有一种产品,但是它们分词重合的面比较广)
CommonCount1.java将预测产品的分词结果和每行都算相似度(分词重合的个数除以预测产品的分词个数)将一行产品的相似度最高值保存为该行的相似度值,然后根据相似度降序排序.
将大于相似度大于0.8的前100条搭配套餐的行号记录下来(输出文件:line_0.8)
将大于相似度大于0.6的前100条搭配套餐的行号记录下来。(输出文件:line_0.6)
将大于相似度大于0.6的前100条搭配套餐的行号记录下来。如果该行最高的相似度达不到0.6,那只取第一条(输出文件:line0.6_100)
将大于相似度大于0.6的前10条搭配套餐的行号记录下来。如果该行最高的相似度达不到0.6,那只取第一条(输出文件:line0.6_10)
将line0.6_10中补上line_0.8中出现不止10条的记录(输出文件:line0.6_10_0.8)
SelectTop200_1.java根据行号找到相应的搭配套餐,剔除同类产品,将其搭配产品输出到文件(final_example.txt),
ReplaceItem2.java将final_example中的每个产品的id替换为其分词结果(分词结果用空格隔开,产品用逗号隔开),(输出结果:ExampleToTerms.txt)
然后对每行的每个分词结果去到产品库中找出最相似的产品,(可以先排序,可以设定阈值>0.8),每行的都要去产品库匹配,然后所有匹配商品都要放在一行,用逗号隔开
关于推荐个数选取问题