
机器学习
砥砺前行∞
这个作者很懒,什么都没留下…
展开
-
相似度计算之(一)——欧式距离与曼哈顿距离
数据间相似度:每一条数据都可以理解为多维空间中的一个点,可根据点与点之间的距离来评估数据间的相似性二维、三维空间中,欧式距离公式:闵可夫斯基距离:曼哈顿距离可以看成两点之间的折线距离欧式距离可以看成两点之间的直线距离数据间的相似程度主要是依据数据间的距离,距离越大,越不相似...原创 2019-08-14 15:52:15 · 4085 阅读 · 0 评论 -
相似度计算之(二)——余弦距离
将数据看成空间中的点时,评价远近可以用欧式距离或余弦距离一般可用于文本间的相似度计算,但也不是绝对的余弦距离计算步骤:以余弦距离计算文本相似度为例,具体说明其计算过程:余弦相似度算法:一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。基本思路是:如果这两句话的用词越...原创 2019-08-14 16:01:07 · 38341 阅读 · 10 评论 -
相似度计算之(三)——TF-IDF
对于任意文章,采用分词器分词后,为了选取关键词,区分词的重要程度,可使用TF-IDF算法TF-IDF介绍:逆向文件频率(IDF)是一个词语普遍重要性的度量,IDF分母为dft+1,是为了预防分母为0的情况,即,没有文章中包含这个词的情况TF-IDF = 词条t在D中的频率 * lg 总的文章数/包含t的文章数其中,应删除词也在统计范围中,只是TF-IDF的值比较小词条频率:对词的归一化...原创 2019-08-14 16:10:50 · 710 阅读 · 0 评论 -
相似度计算之(四)——jaccard相似系数
主要应用场景:比较文本的相似度,用于文本的查重与去重计算对象间的距离,用于数据聚类jaccard相似系数公式:jaccard距离公式:Jaccard系数取值范围[0,1]当A==B时,Jaccard系数为1当A与B不想交时,Jaccard系数为0Jaccard距离是Jaccard系数相关的指标,Jaccard距离表示样本或集合的不相似程度,Jaccard距离越大,样本相似度越...原创 2019-08-14 16:16:07 · 9944 阅读 · 1 评论 -
机器学习之——Precision与Recall
机器学习中,预测样本与真实样本之间的关系图:TP: 实际样本为正例,预测结果为正例,FN:实际样本为正例,预测结果为负例FP: 实际样本为负例,预测结果为正例TN: 实际样本为负例,预测结果为负例Precision: 精准率 查准率 是否误报在预测为真的样例中,实际为真的概率Precision = TP /(TP + FP)Recall: 召回率 检测是否漏报在实际为真的样例中...原创 2019-08-14 16:26:29 · 2346 阅读 · 0 评论