
机器学习入门
机器学习入门课程笔记
戴**
这个作者很懒,什么都没留下…
展开
-
TF-IDF
tf-idf的主要思想是:如果某个词或者某个短语再一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。ti-idf 的作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度Tf term frequency 词的频率 出现的次数idf 逆文档频率。inverse document frequency。 log(总文档数量/该词出现的文档数量)tf*idf 重要性程度。值越大 越重要 越重要越能反应文章的主题.原创 2021-05-08 16:11:43 · 369 阅读 · 0 评论 -
解决macos下 matplotlib 中文显示为方块的问题
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']原创 2021-04-29 11:21:55 · 349 阅读 · 1 评论 -
K-近邻算法
K-近邻算法K-近邻算法(KNN)概念距离KNN算法流程总结API的初步使用kd树。提高knn搜索的效率什么是kd树K-近邻算法(KNN)概念如果一个样本在特征空间中的k哥最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。距离1. 欧氏距离 就是中学学的勾三股四的距离KNN算法流程总结计算已知类别数据集中的点与当前点之间的距离按照距离递增次序排序选取当前点距离最小的k个点统计前k个点所在的类别出现的屏频率返回前k个点出现频率最高的类别作为当前点的预原创 2021-04-29 10:51:11 · 151 阅读 · 0 评论