
Machine Learning
文章平均质量分 54
DrCrypto
这个作者很懒,什么都没留下…
展开
-
【CS229】监督学习 vs. 无监督学习
机器学习是什么?一个比较接地气的定义是,研究计算机如何模拟或者实现人类的学习行为,以获取新的知识或者技能,并重新组织已有的知识结构,不断改善自身的性能。监督学习监督学习是我们给学习算法一个数据集,这个数据集包含正确答案。如果我们尝试着去推导一个连续值,那这就是个回归问题;如果想要推导一个离散值,则为分类问题。无监督学习监督学习中的每条数据,都对应着正确答案。而无监督学习,数据集中不包含...原创 2018-11-26 09:38:39 · 292 阅读 · 0 评论 -
【Pandas】CSV文件读取时手动指定头部
UCI提供的鸢尾花数据集iris.data.csv内容如下:5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa4.6,3.1,1.5,0.2,Iris-setosa5.0,3.6,1.4,0.2,Iris-setosa5.4,3.9,1.7,0.4,Iris-setosa4...原创 2018-12-11 15:23:28 · 5978 阅读 · 0 评论 -
【机器学习】鸢尾花数据探索
# 导入必要的处理包from pandas import read_csvfrom pandas.plotting import scatter_matrixfrom matplotlib import pyplotfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection import...原创 2018-12-11 20:55:07 · 1104 阅读 · 0 评论 -
【机器学习】选择模型
在完成特征选择之后,我们就可以用选择的特征来训练算法了,且能够得出准确度比较高的模型。现在的问题是,训练得到的模型,如何评估是好是坏呢?这就牵涉到本篇涉及的话题:模型选择。建立完模型,要去评估模型,这是机器学习流程必不可少的一部分,本篇就来讲讲如何评估模型的性能。在这里有个关键词叫重采样,其实含义就是用新的数据集来评估算法,也即训练集之外的数据,这实在太熟悉,也讲了太多次,从各个角度讲过。...原创 2018-12-18 00:39:00 · 631 阅读 · 0 评论 -
【机器学习】一些模型的位置总结
模型包名说明LinearRegressionsklearn.linear_model线性回归模型Ridgesklearn.linear_model岭回归,对病态数据拟合强于最小二乘法Lassosklearn.linear_model套索回归ElasticNetsklearn.linear_mode弹性网络回归算法,是Ridge和Lasso的混...原创 2018-12-18 09:48:54 · 442 阅读 · 0 评论 -
【机器学习】流程模板
六个步骤:1.定义问题2.理解数据3.数据准备4.评估算法5.优化模型6.结果部署# 1.定义问题# a)导入类库# b)导入数据集# 2.理解数据# a) 描述性统计# b) 数据可视化# 3.数据准备# a) 数据清洗# b) 特征选择# c) 数据转换# 4.评估算法# a) 分离数据集 train_test_split# b) 定义模型评估标准...原创 2018-12-18 10:47:08 · 354 阅读 · 0 评论 -
【机器学习】Pima数据探索--七种武器
七种理解数据的方法简单查看数据审查数据的维度审查数据的类型和属性总结查看数据分类的分布情况统计分析数据理解数据属性的相关性审查数据的分布情况# 简单查看数据from pandas import read_csvfilename = 'data/pima_data.csv'names = ['preg', 'plas', 'pres', 'skin', 'test', 'm...原创 2018-12-12 12:53:35 · 918 阅读 · 0 评论 -
【机器学习】Pima数据集的可视化
对数据进行理解的最快最有效的方式是:数据的可视化。单一图表直方图密度图箱线图直方图通过直方图可以非常直观地看出每个属性的分布状况:高斯分布,指数分布还是偏态分布。from pandas import read_csvimport matplotlib.pyplot as pltfilename = 'data/pima_data.csv'# names = ['Numbe...原创 2018-12-12 13:13:52 · 2778 阅读 · 0 评论 -
【机器学习】集成算法使用样例
# -*- coding: utf-8 -*-"""集成算法.ipynbAutomatically generated by Colaboratory.Original file is located at https://colab.research.google.com/drive/1cr8C3JW8619DoKNb0nd9u7_RqfAlruTv**Bagged Dec...原创 2018-12-18 15:28:59 · 552 阅读 · 0 评论 -
【机器学习】算法调参
# -*- coding: utf-8 -*-"""算法调参.ipynbAutomatically generated by Colaboratory.Original file is located at https://colab.research.google.com/drive/1kILamn8ac8vii9GUkiWowl8TIFwl2MCv### 超参数优化这...原创 2018-12-18 16:12:34 · 1388 阅读 · 0 评论 -
【机器学习】hist参数解读
在对数据进行可视化时,用hist来查看单一特征是很重要的,结合着看多种图表,有助于获得对数据的进一步理解。本篇是对 https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.hist.html 的翻译 + 个人笔记。先从它的定义看起,这个API太常用,所以有必要深入了解一下它的具体构成。DataFrame....原创 2018-12-18 19:37:16 · 8374 阅读 · 0 评论 -
【机器学习】回归案例实践:数据处理建模调参
# -*- coding: utf-8 -*-"""回归问题案例.ipynbAutomatically generated by Colaboratory.Original file is located at https://colab.research.google.com/drive/1l8xlYKSd8nljVVEEriZyoc0oivqMDWR0"""# 导入必要..原创 2018-12-18 22:40:48 · 1324 阅读 · 0 评论 -
【深度学习】学习深度学习的最好方法
学习深度学习的最好方法亲自实现,从零开始编写能运行的程序,一遍看源代码一边思考。只有这样才能正确理解深度学习,才能对那些看起来很高级的技术有完整的理解。不依赖第三方库,从最基础的开始实现起,对于理解深度学习的意义重大。在看数学公式和理论无法理解时,可以尝试阅读源代码并运行,很多时候思路会变得清晰。以工程促进理论的学习,是AI非常重要的步骤。这一篇非常短,但是指明了方向,且作为一篇,时刻提...原创 2018-12-18 23:31:11 · 654 阅读 · 0 评论 -
【机器学习】Octave矩阵,向量的表示与基本操作
CS229中需要用到Octave来做,张量的存储是必备的知识点,记录一下备用:% The ; denotes we are going back to a new row.A = [1, 2, 3; 4, 5, 6; 7, 8, 9; 10, 11, 12]% Initialize a vector v = [1;2;3] % Get the dimension of the mat...原创 2018-12-30 20:59:14 · 1796 阅读 · 0 评论 -
正则化与奥卡姆剃刀原理
正则化是模型选择的经典方法。在想到正则化时,需要联系到这个词:结构风险最小化。结构风险 = 经验风险 + 正则化项/罚项且一般正则化项是模型复杂度的单调递增函数,即模型越复杂正则化项值就越大。奥卡姆剃刀原理“如无必要,勿增实体。”正则化很符合奥卡姆剃刀原理。为什么呢?正则化可以选出经验风险和模型复杂度同时较小的模型,正则化是直接作用在优化目标里面的。在所有可能选择的模型中,能很好...原创 2019-01-14 20:15:06 · 1209 阅读 · 0 评论 -
【机器学习】sklearn文档学习之特征选择
本文是对 https://scikit-learn.org/stable/modules/feature_selection.html 翻译加个人思考笔记。1.13.1 移除低方差的特征VarianceThreshold是特征选择包中的一个方法。引用的方式是from sklearn.feature_selection import VarianceThreshold。它可以过滤掉不满足一定方...原创 2018-12-17 15:16:21 · 1265 阅读 · 0 评论 -
【机器学习】端到端机器学习实践
主要步骤1.全局概览2.收集数据3.探索数据,可视化数据获取洞见4.为机器学习算法准备数据5.选择模型并训练模型6.调优模型7.展示解决方案8.上线,监控并维护系统用真实数据做机器学习学习机器学习时,用真实的数据集要比用模拟的数据要更加具有吸引力。幸运的是,有成千上万的开发数据集可供我们使用,下面列出几个选择:UCI机器学习仓库 http://archive.ics.uci...原创 2018-12-17 00:19:14 · 347 阅读 · 0 评论 -
【机器学习】机器学习的主要挑战与应对方式
在机器学习中,我们的主要任务是选择一个学习算法并将其在数据上训练,所以有可能效果不佳的两个地方在于:算法不好数据不好我们先从数据不好开始看起。训练数据的数量不够如果是教一个小孩子认什么是苹果,指给他看一下苹果,可能要重复几次,然后这个小孩子就能够识别苹果了。但是对于机器学习而言,实现相同的效果则要难得多。机器学习算法需要大量的数据来完成任务。即使是简单的任务,也需要大量的样本,对...原创 2018-12-16 21:36:37 · 1614 阅读 · 0 评论 -
【CS229】代价函数与梯度下降
一些写法约定:xxx: 输入变量,特征yyy: 输出变量,目标变量(x,y)(x,y)(x,y): 训练集中的实例(x(i),y(i))(x^{(i)},y^{(i)})(x(i),y(i)): 代表第iii个观察实例代价函数也称作平方误差函数。我们针对一个问题,会提出自己的假设,比如这里的单变量线性回归问题,我们提出的假设模型是:hθ(x)=θ0+θ1xh_{\theta}...原创 2018-11-26 10:33:11 · 312 阅读 · 0 评论 -
【CS229】多变量线性回归
这里的变量其实就是指代特征。单变量特征就是一维,多变量特征就是多维,一般描述为:(x1,x2,...,xn)(x_1, x_2,..., x_n)(x1,x2,...,xn)。用n表示特征的数量。现在x(i)x^{(i)}x(i)就不是一个标量,而是一个向量了。x(i)=[ab...]x^{(i)} =\left[\begin{array}{ccc}a \\b \\. \\...原创 2018-11-26 11:19:50 · 233 阅读 · 0 评论 -
概率论与贝叶斯先验
概率往往是反直觉的。统计数字的概率第一数字定律(本福特定律):给定正整数N,统计从1到N!的所有数中,首位数字出现1的概率,为2的概率等等,直到为9的概率。直观猜测可能是各约为KaTeX parse error: Expected '}', got 'EOF' at end of input: \frac{1]{9},通过计算得出,以1为首的数字出现的概率最高,约为13\frac{1}{3}...原创 2018-11-29 12:23:25 · 624 阅读 · 1 评论 -
【CS229】向量化
这部分很重要,现在状态不太好,写数学公式写不动,晚会来补写,先放个标题。— 未完待续—原创 2018-11-27 09:41:11 · 228 阅读 · 0 评论 -
【数据科学】kNN算法笔记
kNN的主要思想:根据某个对象的属性值找到相似的对象们,让对象们一起投票决定这个对象属于哪一类。这里银行的信息是,根据属性值找到的对象们,并不是来源于一个类,如果是一个类的话,直接将这个待分类对象归类为此类就完成了。既然是投票,就意味着可能是平票,如果平了的话,就随便选择一个类作为此类的分类即可。《数据科学实战》这本书里举的例子很贴近我们的生活,引用过来,作为参考:假设一个人会对自己看过...原创 2018-11-27 11:07:01 · 494 阅读 · 0 评论 -
机器学习的再认知
机器学习的含义根据已有的输入数据进行学习:将经验转化为知识的过程。知识的存在形式通过模型输出的知识,是能够被其他计算机程序所引用的形式。而仅仅了解到上面这些宏观的描述其实远远不够,我们将带着问题逐步展开:输入计算机的训练数据是什么?学习过程是如何进行的?如何评价学习过程的成败,优劣,好坏?什么是机器学习在这个步骤,我们可以通过两个关键词来理解:死记硬背举一反三无疑...原创 2018-12-02 19:51:09 · 664 阅读 · 0 评论 -
【ISL-1】统计学习概览
什么是统计学习统计学习涉及到很多用于理解数据的工具。这些工具分为:有监督的无监督的这两个概念的区分,已经无需赘言。在《An Introduction to Statistical Learning with Application in R》书里,工资数据将贯穿全篇案例。数据的特征有:age 年龄education 教育情况year 年份单独看工资和每个特征的关系,似乎...原创 2018-12-03 11:41:09 · 931 阅读 · 0 评论 -
【ISL-2】什么是统计学习
假设我们有p个特征,X1,X2,...,XpX_1, X_2,...,X_pX1,X2,...,Xp,观察变量YYY和这些特征是否存在某种关联。我们先假设它们之间存在着一些关联,令:X=(X1,X2,...,Xp)X = (X_1, X_2,...,X_p)X=(X1,X2,...,Xp),则:Y=f(X)+ϵY = f(X) + \epsilonY=f(X)+ϵ这里的f是不可知...原创 2018-12-03 14:54:03 · 535 阅读 · 0 评论 -
【深度学习】什么是深度学习-1
人工智能,机器学习与深度学习问自己一个问题:到底深度学习目前实现了什么成就?它到底有多重要?我们已经处在哪个阶段了?一图看懂三者的关系:人工智能是个大范畴,机器学习是人工智能的一个子集,而深度学习则是机器学习里的更小的子集。但是传统的机器学习其实是比深度学习更难的,要求的数学知识更多,所以不要因为深度学习这个概念更火,而忽视了学习传统机器学习,目前的经验看,坐好冷板凳,把统计机器学习学透...原创 2018-12-13 21:04:45 · 1176 阅读 · 0 评论 -
【深度学习】什么是深度学习-2
三张图理解深度学习工作原理回顾:机器学习就是学习到如何将输入数据映射到目标值,具体实现方式是让模型观察大量的案例(输入 + 目标)。而深度学习则是通过堆叠多个网络层,通过观察学习案例,最终学会对数据进行有意义的表征。现在是时候来具体了解一下深度学习的原理了。网络层的权重 vs. 参数权重和参数是相同的概念,但是到底权重是什么呢?从上面一路引申过来的概念看,权重就是网络层对输入数据学得的表征...原创 2018-12-13 21:48:11 · 477 阅读 · 0 评论 -
【Numpy基础】矩阵数组相乘与神经网络的实现
# 矩阵乘以数组A = np.array([[1,2],[3,4],[5,6]])A.shape # (3, 2)B = np.array([7,8])B.shape # (2,)A.dot(B) # array([23, 53, 83])END.原创 2018-12-20 14:36:53 · 4845 阅读 · 2 评论 -
【机器学习】Pandas读取存在Github上的数据集
这种:import pandas as pdoecd_bli = pd.read_csv("https://github.com/ageron/handson-ml/blob/master/datasets/lifesat/oecd_bli_2015.csv", thousands=',')是有问题的,数据集的在线连接应该用下面这个:https://raw.githubuserconte...原创 2018-12-15 18:17:33 · 3387 阅读 · 0 评论 -
【机器学习】Scikit-Learn数据预处理文档翻译+笔记记录 - 1
翻译本文档,系统学习以下数据的预处理方式。原文档地址:https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing4.3 预处理数据sklearn.preprocessing包提供了几种常用的工具函数以及转换类来将原始的特征向量数据转换为更加适合后续模型使用的表达。一般来说,学习算法能够从数据集的标准化中受...原创 2018-12-16 19:46:09 · 655 阅读 · 0 评论 -
【阅读笔记】频率视角下的机器学习
注:本文是对极客时间《机器学习40讲》之《频率视角下的机器学习》的阅读记录。大纲频率事件发生的频率的极限值统计学参数确定,数据随机参数估计统计机器学习损失函数经验风险频率学派对于概率的解读,有两种不同的解读方式,这两种不同的思维方式导致了对机器学习的两种截然不同的解读。机器学习的任务是基于现有的数据来构造模型,然后利用模型对未知数据进行预测分析。事件本...原创 2019-02-20 20:51:08 · 386 阅读 · 0 评论