
机器学习算法
文章平均质量分 80
梵天的读书笔记
技术宅
展开
-
k-近邻算法----机器学习读书笔记
优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。步骤:1. 获取原始数据集(数据向量和标签)2. 输入待分类数据向量,计算该向量与每个原始数据集向量的距离3. 对所有距离排序(从近到远),取前k个最近的原始数据集,查看其标签4. 前k个最近数据的标签中,出现次数最多的标签为待分类向量的预测标签。计算两个向量点xA和xB之间的距离 : P...原创 2018-02-11 10:43:07 · 142 阅读 · 0 评论 -
scikit-learn笔记----使用距离向量构建模型
1. KMeans 对数据聚类from sklearn.datasets import make_blobsblobs, classes = make_blobs(500, centers=3)from sklearn.cluster import KMeanskmeans = KMeans(n_clusters=3)kmeans.fit(blobs)import matplotli...原创 2018-03-21 10:59:06 · 733 阅读 · 0 评论 -
scikit-learn笔记----处理线性模型
1. 线性回归模型from sklearn import datasetsfrom sklearn.linear_model import LinearRegressionboston = datasets.load_boston()# LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)...原创 2018-03-20 22:16:36 · 634 阅读 · 0 评论 -
scikit-learn笔记----预处理Preprocessing
1. 从外部获取样本数据scikit-learn的内置数据库在 datasets 模块里。datasets 模块主要有两种数据类型。较小的测试数据集在 sklearn 包里面,可以通过 datasets.load_*获取,另外一些数据集需要通过 datasets.fetch_* 下载。from sklearn import datasetsboston = datasets.load_bosto...原创 2018-03-19 20:40:06 · 1061 阅读 · 0 评论 -
用睡觉这件事玩转贝叶斯推断
贝叶斯推断的基本思想是通过更多数据,从而"犯少一点错误"。推断过程很直接:我们首先有一个初始信念,被称为先验,当我们获得额外的信息后可以对这个信念进行修正更新。虽然我们并不知道这个过程就是贝叶斯推断,但是我们一直都在使用这个技巧。 举个例子,我们可能一开始认为我们有百分之五十的可能性会在本季度末升职。如果我们从经理那得到正面的反馈,那么我们就向上调整升职可能性,而相反地,如果我们把咖...转载 2018-03-05 10:51:05 · 513 阅读 · 0 评论 -
支持向量机SVM----机器学习读书笔记
优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据。流程:(1) 收集数据:可以使用任意方法。 (2) 准备数据:需要数值型数据。 (3) 分析数据:有助于可视化分隔超平面。 (4) 训练算法: SVM的大部分时间都源自训练,该过程主要实现两个参数的调优。 (5) 测试算法:十分简单的计算过程就...原创 2018-02-25 10:23:37 · 241 阅读 · 0 评论 -
部分基本数学概念记录
1. 统计学概念1.1. 数学期望数学期望就是平均值,描述的是样本集合的中间点1.2. 标准差描述的是样本集合的各个样本点到均值的距离之平均1.3. 方差方差就是标准差的平方1.4. 协方差标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,协方差来度量各个维度偏离其均值的程度(公式参照方差定义)协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协...原创 2018-03-03 20:04:31 · 236 阅读 · 0 评论 -
Logistic回归----机器学习读书笔记
优点:计算代价不高,易于理解和实现。缺点:容易欠拟合,分类精度可能不高。适用数据类型:数值型和标称型数据。线性回归,采用梯度上升优化,类似于单层BP神经网络(BP采用梯度下降法)实现代码如下:import numpy as npimport matplotlib.pyplot as plt#获取数据集def loadDataSet(): #假设回归线为y=0.5x+0.3,回归线上...原创 2018-02-12 20:29:58 · 256 阅读 · 0 评论 -
朴素贝叶斯----机器学习读书笔记
优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。使用朴素贝叶斯进行文档分类,步骤:获取原始数据集(语句)和相应标签(文档的分类)将原始数据集进行分词处理(英文以空格为分割),处理掉标点等其它符号,生成单词数组通过单词数组生成词汇表(统计所有单词,除去重复,并生成列表)将原始数据集通过词汇表转换为文档向量(向量长度为词汇表长度,语...原创 2018-02-11 17:47:48 · 231 阅读 · 0 评论 -
决策树----机器学习读书笔记
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型。步骤:收集原始数据集(数据向量及特征标签),数据向量最后一项为分类标签以分类标签为基准,计算该原始数据集的熵E0根据特征标签,分别计算按特征划分数据集后的子数据集的熵Ei,E0-Ei为该划分的信息增益,选择信息增益最大的划分(这表示该划分熵最小,最有序)...原创 2018-02-11 11:03:31 · 242 阅读 · 0 评论 -
scikit-learn笔记----对数据分类
1. 决策树实现基本的分类from sklearn import datasetsX, y = datasets.make_classification(n_samples=1000, n_features=3, n_redundant=0)from sklearn.tree import DecisionTreeClassifierdt = DecisionTreeClassifier()...原创 2018-03-21 16:57:36 · 921 阅读 · 0 评论