
项目
文章平均质量分 57
茶冻茶茶
这个作者很懒,什么都没留下…
展开
-
【Kaggle】brazilian-ecommerce-public-archive--Sales Prediction
根据brazilian-ecommerce-public-archive上的数据做Sales Prediction导入库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom scipy.stats import kstestfrom sklearn.model_selection import cross_val_scorefr原创 2021-12-06 22:44:10 · 1667 阅读 · 0 评论 -
近似最近邻搜索算法
定义:采用分而治之思想,将原始数据通过映射方法划分到不同的向量空间,针对大规模的搜索任务,通过映射函数在向量相似的空间进行遍历查询。常用的几种算法:基于图的索引量化法:HNSW基于树:Annoy基于哈希:SLHHNSW(Hierarchical Navigable Small World)是通过贪心算法遍历图,找出当前数据集中的最近邻点(局部最小值),以此作为插入并构建生成层状网络图,通过在下一层中不断寻找最近邻点插入构建,从而完成对特征向量集的维度分层、数据压缩、索引生成。检索时,采用自上而原创 2021-04-22 15:31:16 · 2919 阅读 · 0 评论