
机器学习与数据挖掘
文章平均质量分 51
Bob Liu
这个作者很懒,什么都没留下…
展开
-
如何选择机器学习的算法
本文非常简短,总结了机器学习实际应用中选择可用的算法需要考虑的因素,以及如何选择相应的算法.原创 2017-10-18 16:19:31 · 785 阅读 · 0 评论 -
scikit-learn: 使用conda安装scikit-learn
安装如果使用的Anaconda发布的Python版本,可以使用下列命令来安装scikit-learn机器学习库:conda install -c anaconda scikit-learn验证安装完成以后,可以使用下列的方法来进行版本的简单验证,从显示的版本信息上看,目前作者使用的版本号为0.19.1的scikit-learn:bj-m-211510a:tools jinguang...原创 2018-11-28 10:42:11 · 47227 阅读 · 3 评论 -
tensorflow:使用conda安装tensorflow
如果使用对是Ananconda发布的Python版本,可以使用下列命令安装tensorflow:conda install -c conda-forge tensorflow原创 2018-11-27 10:02:01 · 2917 阅读 · 2 评论 -
Faiss: 使用conda安装faiss-cpu库
Faiss是用于相似性搜索和密集聚类向量的库,安装了Anaconda版本的Python,可以使用conda命令来安装faiss-cpu版本库:conda install -c pytorch faiss-cpu 有些朋友留言问faiss-cpu支持的操作系统版本,从目前anaconda官网给出的信息,目前仅支持MAC和Linux的版本,并不支持Windows系统。相关信息可以参考官网的给...原创 2018-10-12 12:06:18 · 12630 阅读 · 8 评论 -
数据可视化matplotlib(03) 绘制决策树
决策树的主要优点是直观易于理解,如果不能将其直观的显示出来,就无法发挥其优势。本文将使用matplotlib来绘制树形图,并讲解具体的代码实现。原创 2017-11-17 09:33:44 · 3321 阅读 · 0 评论 -
KNN算法的Python实现
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。本文使用Numpy相关函数实现KNN核心算法。原创 2017-11-16 13:48:15 · 978 阅读 · 0 评论 -
数据可视化matplotlib(01) 图的选择
本文介绍了如何根据可视化目的及数据特点来选择合适类型的图进行可视化工作。原创 2017-11-15 12:06:12 · 858 阅读 · 0 评论 -
numpy中的ndarray与pandas的Series和DataFrame之间的相互转换
在数据分析中,经常涉及numpy中的ndarray对象与pandas的Series和DataFrame对象之间的转换,经常让大家产生困惑。本文将简单介绍这三种数据类型,并以股票信息为例,给出相关对象之间转换的具体示例。原创 2017-11-15 11:26:24 · 63403 阅读 · 1 评论 -
一只兔子帮你理解KNN
商业哲学家 Jim Rohn 说过一句话,“你,就是你最常接触的五个人的平均。”那么,在分析一个人时,我们不妨观察和他最亲密的几个人。同理的,在判定一个未知事物时,可以观察离它最近的几个样本,这就是 kNN(k最近邻)的方法。转载 2017-11-03 09:21:54 · 817 阅读 · 0 评论 -
数学课堂 | 线性代数系列 -- 线性空间
线性空间和向量是线性代数中最基础的概念,任何学习理工科的人都绕不开的概念。“线性”中的“线”可以理解为实数线的“线”,只要我们用到实数的时候就涉及到了线性的概念。不夸张地讲,现实中的绝大多数数理概念都是线性的,即便不是,它在局部上也会有近似线性的结构。一般来讲,线性空间的定义基于一种叫做域 (field) 的代数结构。但是在实际应用中我们并不需要对一般性的域进行讨论,而只需要使用我们最熟悉的域 --- 实数RR。为了不给读者带来混淆,数学课堂线性代数课程都只基于实数域,而对一般性域感兴趣的读者可以自行参阅转载 2017-11-07 10:44:04 · 2745 阅读 · 0 评论 -
Faiss源码解析 - Index抽象类介绍(一)
本系列文章基于Faiss 1.5.3版本的代码进行分析。相似性搜索介绍Faiss是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,是目前比较成熟的近似近邻搜索库。以图片搜索为例,所谓相似度搜索,就是在给定的图片中,寻找出指定的图片最像的K张图片,本质上为KNN(K近邻)问题。为了解决KNN问题,在工程上需要对现有图片库的特征向量进行存储。当用户指...原创 2019-07-11 21:35:33 · 4514 阅读 · 3 评论