
机器学习
文章平均质量分 56
HeatDeath
Learn by doing!
展开
-
matplotlib基础——matplotlib.pyplot.scatter
matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, hold=None, data=None, **kwargs)Make a原创 2017-07-21 22:47:06 · 3652 阅读 · 0 评论 -
matplotlib基础——令画图时显示中文的方法
当前代码# -*- coding:utf-8 -*-import matplotlib.pyplot as pltdecisionNode = dict(boxstyle="sawtooth", fc="0.8")leafNode = dict(boxstyle="round4", fc="0.8")arrow_args = dict(arrowstyle="<-")def plotNode(n原创 2017-07-21 14:38:35 · 910 阅读 · 0 评论 -
matplotlib基础——add_subplot()
add_subplot(*args, **kwargs)Add a subplot. Examples:fig.add_subplot(111)# equivalent but more generalfig.add_subplot(1,1,1)# add subplot with red backgroundfig.add_subplot(212, facecolor='r')# add a原创 2017-07-20 13:39:27 · 6117 阅读 · 0 评论 -
matplotlib基础——pyplot.figure()
matplotlib.pyplot.figure(num=None, figsize=None, dpi=None, facecolor=None, edgecolor=None, frameon=True, FigureClass=<class 'matplotlib.figure.Figure'>, **kwargs)Creates a new figure.生成一个新的图像Parameters原创 2017-07-20 13:36:05 · 5806 阅读 · 0 评论 -
numpy基础——matrix.transpose() 和 matrix.getA()
numpy.matrix.getAmatrix.getA()[source]返回一个数组对象Return self as an ndarray object.Equivalent to np.asarray(self).Parameters: None Returns: ret : ndarray self as an ndarrayExam原创 2017-08-03 18:36:24 · 2180 阅读 · 0 评论 -
numpy基础——关于 ndarray 的一些尝试
In [1]: import numpy as npIn [3]: a_Mat = np.array([1,1],[1,1],[1,1])---------------------------------------------------------------------------ValueError Traceback (mo原创 2017-07-20 13:07:58 · 531 阅读 · 0 评论 -
numpy基础——numpy.sum
numpy.sumnumpy.sum(a, axis=None, dtype=None, out=None, keepdims=Parameters:a : array_like Elements to sum.axis : None or int or tuple of ints, optional Axis or axes along which a sum is performed. Th原创 2017-07-20 01:35:51 · 1616 阅读 · 0 评论 -
numpy基础——numpy.tile
numpy.tilenumpy.tile(A, reps)Construct an array by repeating A the number of times given by reps.构造一个数组,通过重复数组 A,重复的次数由 reps 给出。If reps has length d, the result will have dimension of max(d, A.ndim).If原创 2017-07-20 01:20:24 · 515 阅读 · 0 评论 -
numpy基础——numpy.argsort
numpy.argsortnumpy.argsort(a, axis=-1, kind=’quicksort’, order=None)Returns the indices that would sort an array. 返回排序数组的索引。Perform an indirect sort along the given axis using the algorithm specified原创 2017-07-20 01:13:59 · 589 阅读 · 0 评论 -
numpy基础——ndarray.shape
numpy.ndarray.shapendarray.shapeTuple of array dimensions.获得数组维度的 tupleNotesMay be used to “reshape” the array, as long as this would not require a change in the total number of elementsExamples>>> x =原创 2017-07-20 01:02:08 · 7818 阅读 · 0 评论 -
利用Python进行数据分析(1)—— Numpy Basic(1)
Jupyter Notebook ViewerThe NumPy ndarray: a multidimensional array objectimport numpy as np'''precision 浮点数输出精度位数(默认值8位)suppress 是否 禁止 使用 科学记数法(默认为False)打印小浮点值'''np.set_printoptions(precision=4, su原创 2017-08-08 01:32:55 · 762 阅读 · 0 评论 -
利用Python进行数据分析(2)—— Numpy Basic(2)
Boolean indexingnames = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])data = np.random.randn(7, 4)print(names)print(data)# 对 names 和 字符串 'Bob' 的比较运算符会产生一个布尔型数组print(names == 'Bob')#原创 2017-08-09 21:32:13 · 897 阅读 · 2 评论 -
《机器学习实战》学习笔记(4)—— Logistic 回归
1 Logistic 回归算法描述 工作原理: 为了实现 Logistic 回归分类器,可以在每个特征上都乘以一个回归系数,然后把所有结果的值相加,将这个总和带入 Sigmoid 函数中,进而得到一个范围在 0-1 之间的数值。任何大于0.5的数据被分入1类别,任何小于0.5的数据被分入0类别。Logistic 回归也可以被看成是一种概率估计。2 伪代码(1)梯度上升伪代码:每个回归原创 2017-09-26 19:56:59 · 668 阅读 · 0 评论 -
《机器学习实战》学习笔记(1)——k-近邻算法
1 k-近邻算法概述k-近邻算法,采用测量不同特征值之间的距离方法进行分类。 工作原理: 存在一个样本数据集,也成为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中的每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。2 k-近邻算法伪代码对未知类别属性的数据集中的原创 2017-09-26 13:50:48 · 895 阅读 · 0 评论 -
《机器学习实战》学习笔记(2)—— 使用ID3算法构造决策树
1 决策树算法概述 工作原理: 得到原始数据集,然后基于最好的属性值划分数据集,由于特征值可能多余两个,因此可能存在大于两个分支的数据集划分。第一次划分后,数据将被向下传递到树分支的下一个节点,在这个节点上,我们可以再次划分数据。 递归结束的条件: 程序遍历完所有划分数据集的属性,或者每个分支下的所有实例都具有相同的分类。如果所有实例具有相同的分类, 则得到一个叶子原创 2017-09-26 15:32:36 · 3142 阅读 · 0 评论 -
《机器学习实战》学习笔记(3)—— 朴素贝叶斯
1 朴素贝叶斯算法描述 工作原理: 对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。2 计算概率的伪代码计算每个类别中的文档数目:对每篇训练文档: 对每个类别: If 词条出现在文档中: 增加该词条的计数值 增加所有词条的计数值 对每个类别:原创 2017-09-26 19:07:30 · 2525 阅读 · 0 评论 -
windows 下 Graphviz 安装及入门教程
下载安装、配置环境变量intallwindows版本下载地址:http://www.graphviz.org/Download_windows.php双击msi文件,然后一直next(记住安装路径,后面配置环境变量会用到路径信息),安装完成之后,会在windows开始菜单创建快捷信息,默认快捷方式不放在桌面。 配置环境变量将graphviz安装目录下的bin文件夹添加到Path环境变量中:转载 2017-09-21 15:14:17 · 5998 阅读 · 0 评论 -
数据预处理(2)—— One-hot coding 独热编码#分别使用 pandans.dummies 和 sklearn.feature_extraction.DictVectorizer 进行处理
离散 feature 的 encoding 分为两种情况:1、离散 feature 的取值之间没有大小的意义,比如color:[red,blue],那么就使用 one-hot encoding2、离散 feature 的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}In [90]: import numpy as npimport pand原创 2017-09-21 13:57:38 · 2368 阅读 · 0 评论 -
数据预处理(1)——标准化(Standardization)与归一化(Normalization)
In [19]: import numpy as npimport pandas as pdfrom pandas import Series, DataFramenp.set_printoptions(precision=4)×…In [20]:xfrom sklearn import preprocessing×…In [21]: dataSet_df = pd.read_table('dati原创 2017-09-21 10:56:20 · 8231 阅读 · 0 评论 -
Scikit-Learn 学习 —— kNN使用
sklearn内置数据集数据是机器学习的关键,在机器学习工作中我们需要花费大量的时间来采集和整理数据,合理且科学的数据是得到良好机器学习效果的关键。一般而言,一个分类问题的机器学习过程需要用到四块数据内容,分别是:训练数据,一般用train来表示训练数据的分类属性,一般用target来表示测试数据,一般用test来表示测试数据的真实分类属性,用于评估分类器性能,一般用expected来表示转载 2017-09-20 16:13:39 · 1660 阅读 · 0 评论 -
利用Python进行数据分析(3)—— Numpy Basic(3)
Data processing using arraysimport numpy as npfrom matplotlib.pyplot import imshow, titleimport matplotlib.pyplot as pltnp.set_printoptions(precision=4, suppress=True)# 起始点,终止点,步长points = np.arange(原创 2017-09-13 18:16:24 · 893 阅读 · 0 评论 -
机器学习系统设计(1)——第一个机器学习应用
import scipy as spimport matplotlib.pyplot as plt'''precision 浮点数输出精度位数(默认值8位)suppress 是否 禁止 使用 科学记数法(默认为False)打印小浮点值'''sp.set_printoptions(precision=4, suppress=True)# 以 \t 为分隔符data = sp.genfrom原创 2017-09-02 18:03:50 · 5433 阅读 · 0 评论 -
集体智慧编程学习笔记(1)——机器学习定义
机器学习是人工智能领域中与算法相关的一个子领域,它允许计算机不断地进行学习。大多数情况下,这相当于将一组数据传递给算法,并由算法推断出与这些数据的属性相关的信息——借助这些信息,算法就能够预测出未来有可能会出现的其他数据。因为几乎所有的非随机数据中,都会包含这样或者那样的模式(patterns),这些模式的存在使机器得意据此进行归纳。为了实现归纳,机器会利用它所认定的出现于数据中的重要特征对数据进行原创 2017-07-15 22:38:18 · 470 阅读 · 0 评论