
Python机器学习
Python机器学习
CodingALife
这个作者很懒,什么都没留下…
展开
-
Python之Matplotlib库常用函数
简单的小例子import matplotlib.pyplot as plt path = ""plt.plot([4,7,1,9,4]) #绘图接收一个list,如果只有一个list默认其为Y轴,X轴数据为其索引值,从0开始plt.ylabel("grade")plt.axis([-2,8,0,12]) #axis函数接收一个list,设定横纵坐标尺度,list各个参...原创 2018-07-16 21:10:36 · 32585 阅读 · 1 评论 -
中心极限定理通俗介绍
中心极限定理通俗介绍中心极限定理是统计学中比较重要的一个定理。 本文将通过实际模拟数据的形式,形象地展示中心极限定理是什么,是如何发挥作用的。什么是中心极限定理(Central Limit Theorem)中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。...转载 2018-07-21 10:12:00 · 22579 阅读 · 3 评论 -
numpy.split()函数
1、split(ary, indices_or_sections, axis=0) :把一个数组从左到右按顺序切分参数:ary:要切分的数组indices_or_sections:如果是一个整数,就用该数平均切分,如果是一个数组,为沿轴切分的位置(左开右闭)axis:沿着哪个维度进行切向,默认为0,横向切分。为1时,纵向切分>>> x = np.arange...原创 2018-07-26 21:22:48 · 64814 阅读 · 6 评论 -
机器学习之名词解释
train? valid? or test?机器学习最明显的一个特点是需要大量的数据。特别对监督学习来说,就是需要大量的带标签数据(labeled data)。很多入门的朋友很快就会遇见模型训练和测试这两个阶段,进而也就了解到带标签数据是要被划分成两个部分的:训练集 (training set) 与测试集 (test set)。这两个概念也很直观,大部分朋友非常快就能接受。可是到后面,...转载 2018-07-22 09:47:43 · 2627 阅读 · 0 评论 -
机器学习中正则化项L1和L2的直观理解
正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作L1正则化 和L2正则化,或者L1范数 和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则...转载 2018-07-22 16:33:10 · 1051 阅读 · 0 评论 -
机器学习之线性回归
一、回归问题的定义回归是监督学习的一个重要问题,回归用于预测输入变量和输出变量之间的关系。回归模型是表示输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:使用一条函数曲线使其很好的拟合已知函数且很好的预测未知数据。回归问题分为模型的学习和预测两个过程。基于给定的训练数据集构建一个模型,根据新的输入数据预测相应的输出。回归问题按照输入变量的个数可以分为一元回归和多元回归;按...转载 2018-07-22 20:30:27 · 2477 阅读 · 2 评论 -
python3 TypeError: 'map' object is not subscriptable
1、下面语句报错python3 TypeError: 'map' object is not subscriptablemap(apply_filters_to_token, sentences)2、修改,add “list” to mapreturn list(map(apply_filters_to_token, sentences))3、实例分析 # # 手写读取数据...原创 2018-07-27 15:56:50 · 39645 阅读 · 1 评论 -
python中如何表示多维数组(即矩阵形式)
python中如何表示多维数组在java或者c以及其他语言中,表示个“整型3行4列”的矩阵,可以这样声明:int a[3][4]; 但是在python中一不能声明变量int,二不能列出维数。我们只能利用列表中夹带列表形式表示。 以实际例子为例,想将文件中如下格式的数据读取出来,,文件中的每行数据是一个样本,列数是每个样本的属性个数。我们希望将其读取出来组合成N*2的矩阵形式,以便于对这些数...转载 2018-07-27 16:32:25 · 8337 阅读 · 0 评论 -
pycharm中显示python画的图
问题描述在电脑中重新安装Anaconda3&PyCharm后,运行原来的程序画图时出现了下图界面。 不能弹出如下图所示的“figure”窗口。 解决方法:这是因为PyCharm在Sciview中开放它。具体操作步骤如下所示: 1、“File—>Settings”,打开Settings窗口。 2、找到“Python Scientific”,去除右边候选框中的勾号。 重新运行...转载 2018-08-10 16:49:04 · 56462 阅读 · 21 评论 -
ML之线性回归
线性回归的公式线性回归的数学推导主要涉及到以下几个知识点。1. 利用矩阵的知识对线性公式进行整合2. 误差项的分析3. 似然函数的理解4. 矩阵求偏导5. 线性回归的最终求解我们先来看下这个图姓名 工资(元) 房屋面积(平方米) 可贷款金额(元) 张三 6000 58 30000 李四 9000 77 ...转载 2018-08-12 20:24:01 · 795 阅读 · 0 评论 -
ML之逻辑回归
问:逻辑回归是解决回归的问题吗?答:不是,逻辑回归解决的是分类问题。一、逻辑回归概念面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)是什么手段让逻辑回归只能输出两种值呢?答:Sigmoid函数...转载 2018-08-12 20:31:52 · 353 阅读 · 0 评论 -
机器学习之PCA
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2018/8/16 16:34# @Author : limingyu# @Site : # @File : Test_PCA.py# @Software: PyCharmimport pandas as pdfrom matplotlib import...原创 2018-08-16 19:35:40 · 611 阅读 · 0 评论 -
机器学习之KNN
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2018/8/16 15:21# @Author : limingyu# @Site : # @File : Test_KNN.py# @Software: PyCharmimport numpy as npimport operatordef cr...原创 2018-08-16 19:38:36 · 311 阅读 · 0 评论 -
机器学习之泰坦尼克号数据分析
泰坦尼克号数据分析(转自:https://blog.youkuaiyun.com/JonyHwang/article/details/78932466)一、前言 主要目的是整理自己的思路。本文主要是关于泰坦尼克号生存率python分析,因为很多博客做这个项目都比较深入,感觉都比较高大上,我们初学者并不一定都能懂,甚至没兴趣看下去。这文章,也是从视频上学了之后,发现很不错,通俗易懂,非常推荐...转载 2018-08-17 17:21:23 · 18325 阅读 · 4 评论 -
机器学习之Adaboost
原创 2018-08-20 15:08:05 · 155 阅读 · 0 评论 -
机器学习之邹博笔记1
1、机器学习分为两部分:建模和预测建模:根据已有数据(文本,图像,声音等)并可能有标记值,提取出数据中的特征向量,使用某一个机器学习算法(最小二乘法),对模型进行训练得出模型。预测:现有新数据(文本,图像,声音等)并可能有标记值,提取出数据中的特征向量,根据模型对新的数据进行预测。2、整体看机器学习就是模仿人识别事物的过程即:学习、提取特征、识别、分类由于机器不能跟人类思维一样根据...原创 2018-07-12 19:33:25 · 4132 阅读 · 0 评论 -
机器学习之经典入门
机器学习方法是计算机利用已有的数据(经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。从机器学习谈起 在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不...转载 2018-07-12 16:12:57 · 990 阅读 · 0 评论 -
python之matplotlib详解3
参考matplotlib-绘制精美的图表matplotlib.pyplot.plt参数介绍12345678import matplotlib.pyplot as pltlabels='frogs','hogs','dogs','logs'sizes=15,20,45,10colors='yellowgreen','gold','lightskyblue','lightcoral'explode=0...转载 2018-07-15 16:34:50 · 1361 阅读 · 0 评论 -
python之matplotlib详解2
1、matplotlib-绘制精美的图表¶matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。它的文档相当完备,并且 Gallery页面 中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个页面中浏览/复制/粘贴一下,基本上都能搞定。本章节作...转载 2018-07-15 16:31:10 · 2141 阅读 · 0 评论 -
数值计算之二分类
(1)、对于某二分类问题,现有一分类器,其分类器分类正确的概率为60%,错误的概率为40%。若构造了10个正确率都是0.6的分类器,采用少数服从多数的原则进行最终分类,求最终分类的正确类?若构造100个分类器?解析:分类正确含义:原始类别为正,预测为正;原始类别为负,预测为负;举例:若有五个分类器,其分类正确的可能性为,其中有3个或4个或5个分类正确纪委最终分类正确。最终概率为:...原创 2018-07-17 09:05:43 · 865 阅读 · 0 评论 -
机器学习之SVD
(1)、奇异值分解(SVD:singular value decomposition)与特征值分解(EVD:eigenvalue decomposition)在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。特征值分解是一个提取矩阵特征很不错的方法,但是它只是对方阵而言的,在现实的世界中,我们看到的大部分矩阵都不是...原创 2018-07-17 10:57:55 · 590 阅读 · 0 评论 -
python之pandas中ix,iloc,loc的区别
loc——通过行标签索引行数据 iloc——通过行号索引行数据 ix——通过行标签或者行号索引行数据(基于loc和iloc 的混合) 同理,索引列数据也是如此!举例说明: 1、分别使用loc、iloc、ix 索引第一行的数据: (1)locimport pandas as pddata=[[1,2,3],[4,5,6]]index=['a','b']#行号columns=...转载 2018-07-17 16:58:37 · 1223 阅读 · 0 评论 -
机器学习之sklearn
简介 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn,支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。 sklearn是Scipy的扩展,建立在NumPy和matplotlib库的基础上。利用这几大模块的优势,可以大大提高机器学习的效率。 sklearn拥有...转载 2018-07-17 17:26:30 · 450 阅读 · 0 评论 -
python之SVD函数介绍
详情:https://www.cnblogs.com/denny402/p/5096491.html1、python的mat函数 我们看到一开始随机生成的数组与使用mat函数之后的类型是发生了变化的,尽管他们显示的东西没有什么区别,但是实质上,他们的类型是不同的。调用mat()函数可以将数组转换为矩阵,然后可以对矩阵进行一些线性代数的操作。2、在python中使用SVDnump...转载 2018-07-18 09:59:29 · 36962 阅读 · 0 评论 -
numpy.random.randn()用法
numpy中的ravel()、flatten()、squeeze()都有将多维数组转换为一维数组的功能,区别: ravel():如果没有必要,不会产生源数据的副本 flatten():返回源数据的副本 squeeze():只能对维数为1的维度降维另外,reshape(-1)也可以“拉平”多维数组numpy.random.randn()内容详情如下:https://blog.csd...转载 2018-07-24 08:35:09 · 3197 阅读 · 0 评论 -
AUC计算方法总结
1、AUC是什么混淆矩阵(Confusion matrix)混淆矩阵是理解大多数评价指标的基础,毫无疑问也是理解AUC的基础。这里用一个经典图来解释混淆矩阵是什么。显然,混淆矩阵包含四部分的信息:True negative(TN),称为真阴率,表明实际是负样本预测成负样本的样本数 False positive(FP),称为假阳率,表明实际是负样本预测成正样本的样本数 Fals...转载 2018-07-24 15:05:56 · 14619 阅读 · 0 评论 -
处理不平衡数据的技巧总结!
概念类别数据不均衡是分类任务中一个典型的存在的问题。简而言之,即数据集中,每个类别下的样本数目相差很大。例如,在一个二分类问题中,共有100个样本(100行数据,每一行数据为一个样本的表征),其中80个样本属于class 1,其余的20个样本属于class 2,class 1:class2=80:20=4:1,这便属于类别不均衡。当然,类别不均衡问同样会发生在多分类任务中。它们的解决方法是一样...原创 2018-07-24 16:56:42 · 12495 阅读 · 1 评论 -
Python中reshape函数参数-1的意思?
1、要记住,python默认是按行取元素-1是模糊控制的意思 比如人reshape(-1,2)固定2列 多少行不知道结果:2、出错情况>>> a = np.array([[1,2,3], [4,5,6]])>>> np.reshape(a, (3,-1)) # the unspecified value is inferred to be 2array([[...原创 2018-07-14 09:52:41 · 29673 阅读 · 6 评论 -
python之类和继承案例
原创 2018-07-14 10:57:25 · 584 阅读 · 0 评论 -
numpy中shape的理解
一维情况:>>> import numpy as np>>> a = np.array([2,3,33])>>> aarray([ 2 3 33 ])>>> print a[ 2 3 33 ]>>> a.shape(3, )一维情况中array创建的可以看做list(或一维数组),创建时用()和[ ]原创 2018-07-14 21:04:17 · 3275 阅读 · 1 评论 -
PyCharm创建文件时自动添加头文件
找到该路径并添加以下信息File->settings->Editor->File and Code Templates->Python Script #!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : ${DATE} ${TIME}# @Author : Ryu# @Site : ${SI...转载 2018-07-20 14:50:39 · 1241 阅读 · 0 评论 -
机器学习三剑客之Numpy
NumpyNumPy是Python语言的一个扩充程序库。支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。Numpy内部解除了Python的PIL(全局解释器锁),运算效率极好,是大量机器学习框架的基础库!Numpy简单创建数组import numpy as np# 创建简单的列表a = [1, 2, 3, 4]# 将列表转换为数组b = np.array(b)N...转载 2018-07-14 21:08:17 · 495 阅读 · 0 评论 -
python之环境搭建详情
第一、pycharm的两种虚拟环境管理工具——Virtualenvwrapper和anaconda(1)、Pycharm概述PyCharm是一款很好用很流行的python编辑器。Anaconda是专注于数据分析的Python发行版本,包含了conda、Python等190多个科学包及其依赖项。Anaconda通过管理工具包、开发环境、Python版本,大大简化了你的工作流程。不仅可以方便地安装、更...原创 2018-07-15 10:07:50 · 487 阅读 · 0 评论 -
信息熵到底是什么
1、信息是我们一直在谈论的东西,但信息这个概念本身依然比较抽象。在百度百科中的定义:信息,泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。但信息可不可以被量化,怎样量化?答案当然是有的,那就是“信息熵”。早在1948年,香农(Shannon)在他著名的《通信的数学原理》论文中指出:“信息是用来消除随机不确定性的东西”,并提出了“信息熵”的概念(借用了热力学中熵的概念...转载 2018-07-26 09:42:55 · 620 阅读 · 0 评论 -
python之matplotlib详解
matplotlib是基于Python语言的开源项目,旨在为Python提供一个数据绘图包。我将在这篇文章中介绍matplotlib API的核心对象,并介绍如何使用这些对象来实现绘图。实际上,matplotlib的对象体系严谨而有趣,为使用者提供了巨大的发挥空间。用户在熟悉了核心对象之后,可以轻易的定制图像。matplotlib的对象体系也是计算机图形学的一个优秀范例。即使你不是Pyth...转载 2018-07-15 16:18:18 · 20534 阅读 · 1 评论 -
anaconda安装tensorflow(windows10环境)
我在之前的博文介绍anaconda的安装过程:https://blog.youkuaiyun.com/mingyuli/article/details/79749104在安装完成anaconda后安装TensorFlow1、打开anaconda prompt(1)检测anaconda环境是否安装成功:conda --version(2)检测目前安装了哪些环境变量:conda info --...原创 2019-05-09 21:10:23 · 393 阅读 · 0 评论