
白话总结
我的灯还亮着
这个作者很懒,什么都没留下…
展开
-
白话总结《特征工程之连续变离散》
目前业务所用模型都需要把连续的特征转化为离散值,特做总结如下:1. Bucket 分桶: 把范围较广的连续值分桶分桶的个数一般由特征意义和经验人为设定,比如年龄可以根据小学,初中,高中,大学等分桶,此处以日期举例:优势:连续性特征拆分成一个四元素向量,那么模型现在可以学习四个单独的权重,与单个权重相比,离散的向量特征,由于只有一个元素置位 (1),其他三个元素清零 (0),...原创 2018-10-01 17:44:05 · 949 阅读 · 0 评论 -
白话总结《余弦相似度vs欧式距离&缺陷》
之前相似度计算很模糊,趁着休息总结一下,以便使用时更针对业务需要。余弦相似度公式中p和q是两个向量。余弦相似度需要对两个向量的长度做归一化,然后度量两个向量的方向,与向量的长度无关。也就是说,两个向量只要方向一致,无论长度、程度如何,都视作“相似”。即“余弦相似度对具体数值的绝对值大小不敏感”这会产生一个问题,如果A用户对两个商品打分是1,2,B是4,5。由于余弦相似度只关注方...原创 2018-10-02 12:00:53 · 15323 阅读 · 6 评论