python
文章平均质量分 81
偏执灬
原创博客虽有所摘录,但都是从零开始的自学笔记,有事请联系邮箱,824229769@qq.com
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sklearn的train_test_split函数用法
sklearn的train_test_split train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。格式:X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, ran...转载 2018-05-09 09:07:04 · 6501 阅读 · 0 评论 -
Python 十分钟学会pandas基本数据操作
importIn[1]: import numpy as npIn[2]: import pandas as pdIn[3]: import matplotlib.pyplot as plt创建对象通过list创建Series,pandas创建默认的整数索引In[4]: s = pd.Series([1,3,5,np.nan,6,8]In[5]: sOut[5]:0 1....转载 2018-05-27 17:26:56 · 10669 阅读 · 0 评论 -
Python-sklearn常用算法分类以及调用列表
说明文章列出了Sklearn模块中常用的算法及调用方法,部分生僻的未列出(对我来说算生僻的),如果有写的不对的地方请指出。 参考资料来自sklearn官方网站:http://scikit-learn.org/stable/总的来说,Sklearn可实现的函数或功能可分为以下几个方面:分类算法回归算法聚类算法降维算法文本挖掘算法模型优化数据预处理最后再说明一下可能不支持的算法(也可能是我没找到,但有...转载 2018-06-11 14:55:42 · 7029 阅读 · 0 评论 -
Python- sklearn之最小二乘法
1.背景: 1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥伯斯根据高斯计算出来的轨道重新发现了谷神星。 高斯使用的...转载 2018-06-07 14:30:27 · 32495 阅读 · 1 评论 -
Python 基于sklearn (1)- 数据预处理-构建好的训练数据集
本文数据预处理主要步骤:(1)删除和估算缺失值 (removing and imputing missing values)(2)获取分类数据 (Getting categorical data into shape for machine learning)(3)为模型构建选择相关特征 (Selecting relevant features for the module constructi...转载 2018-06-01 10:37:25 · 5925 阅读 · 0 评论 -
Python- sklearn之梯度下降算法原理
梯度下降算法学习笔记介于算法中用到了许多线性代数的知识。先对线性代数的基础知识做一个回顾和梳理。1基础概念和记号线性代数对于线性方程组可以提供一种简便的表达和操作方式,例如对于如下的方程组:4x1-5x2=13-2x1+3x2=-9可以简单的表示成下面的方式:X也是一个矩阵,为(x1,x2)T,当然你可以看成一个列向量。1.1基本记号用A ∈表示一个矩阵A,有m行,n列,并且每一个矩阵元素都是实数...转载 2018-06-09 10:44:11 · 3465 阅读 · 0 评论 -
Python - 梯度下降法实现线性回归
1. 背景文章的背景取自An Introduction to Gradient Descent and Linear Regression,本文想在该文章的基础上,完整地描述线性回归算法。部分数据和图片取自该文章。没有太多时间抠细节,所以难免有什么缺漏错误之处,望指正。线性回归的目标很简单,就是用一条线,来拟合这些点,并且使得点集与拟合函数间的误差最小。如果这个函数曲线是一条直线,那就被称为线性回...转载 2018-06-09 17:54:29 · 9031 阅读 · 0 评论 -
机器学习十大算法
机器学习十大算法http://www.52cs.org/?p=1835 作者 James Le ,译者 尚剑 , 本文转载自infoQ毫无疑问,机器学习/人工智能的子领域在过去几年越来越受欢迎。目前大数据在科技行业已经炙手可热,而基于大量数据来进行预测或者得出建议的机器学习无疑是非常强大的。一些最常见的机器学习例子,比如Netflix的算法可以根据你以前看过的电影来进行电影推荐...转载 2018-08-18 09:26:05 · 171161 阅读 · 6 评论 -
最小二乘法和岭回归区别
一 线性回归(最小二乘法)假设我们有n个样本数据,每个数据有p个特征值,然后p个特征值是线性关系。即对应的线性模型写成矩阵的形式即是Y=XA由于样本与模型不一定百分百符合,存在一些噪声,即误差,用B表示,B也是一个向量即B=Y-XAY为样本值,XA为模型的计算值,即期望值误差的平方的计算公式Xi为行向量,A为列向量。最小二乘法的目标就是取得最小的e对应的A,...转载 2018-08-18 11:45:55 · 3937 阅读 · 0 评论 -
python数据分析之拉格朗日插值
开展数据分析工作时,数据清理是一个重要的环节,处理缺失值是常见问题。处理方法可分为三类,删除记录、插值和不处理。这里介绍用拉格朗日插值方法以及在python数据分析中的实现。拉格朗日插值法是根据已知的点求取函数对未知点进行插值,具体细节这里不做具体介绍,想了解的朋友可以去数数值分析的内容。这里以应用为主,介绍scimpy中的lagrange()函数的使用方法。lagrange...转载 2018-08-18 15:47:52 · 3243 阅读 · 1 评论 -
python数据分析之主要成分分析(PCA)
在python的sklearn的库里面集成很多机器学习算法的库,其中也包括主成分分析的方法。1.PCA算法的原理:PCA主要是用来数据降维,将高纬度的特征映射到低维度的特征,加快机器学习的速度。比如在三维空间里面有一个薄饼状的三维物体,由于薄饼的厚度相对于薄饼的直径要小很多很多,故我们在平时的时候就说这个薄饼是圆的,而不说它的是圆柱的,这就是无意识中把描述薄饼的特征从三维降到二维了。(由于...转载 2018-08-18 16:47:17 · 21481 阅读 · 3 评论 -
Python 线性回归分析以及评价指标
"""# 利用 diabetes数据集来学习线性回归 # diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况。 # 数据集中的特征值总共10项, 如下: # 年龄 # 性别 #体质指数 #血压 #s1,s2,s3,s4,s4,s6 (六种血清的化验数据) #...翻译 2018-08-20 10:20:46 · 15700 阅读 · 1 评论 -
Python 数据处理pandas 库API简要说明
pandas作为python在数据科学领域关键包之一,熟练其API是必备的我们使用如下缩写:df:任意的Pandas DataFrame对象s:任意的Pandas Series对象同时我们需要做如下的引入:import pandas as pdimport numpy as nppd.read_csv(filename):从CSV文件导入数据pd.read_table(filename):从限定分...转载 2018-05-27 16:00:45 · 1703 阅读 · 0 评论 -
Python对象存储:pickle模块的使用讲解
在机器学习中,我们常常需要把训练好的模型存储起来,这样在进行决策时直接将模型读出,而不需要重新训练模型,这样就大大节约了时间。Python提供的pickle模块就很好地解决了这个问题,它可以序列化对象并保存到磁盘中,并在需要的时候读取出来,任何对象都可以执行序列化操作。Pickle模块中最常用的函数为:(1)pickle.dump(obj, file, [,protocol]) ...转载 2018-05-22 18:26:35 · 4123 阅读 · 1 评论 -
sklearn 数据预处理: StandardScaler
StandardScaler作用:去均值和方差归一化。且是针对每一个特征维度来做的,而不是针对样本。 【注:】 并不是所有的标准化都能给estimator带来好处。 “Standardization of a dataset is a common requirement for many machine learning estimators: they might behave badly i...转载 2018-05-09 19:34:29 · 5643 阅读 · 0 评论 -
sklearn介绍
sklearn介绍scikit-learn是数据挖掘与分析的简单而有效的工具。 依赖于NumPy, SciPy和matplotlib。它主要包含以下几部分内容:从功能来分: classificationRegressionClusteringDimensionality reductionModel selectionPreprocessing从API模块来分: sklearn.base: Bas...转载 2018-05-12 10:58:04 · 1070 阅读 · 0 评论 -
Sklearn ---SVC 参数与实例
SVC继承了父类BaseSVCSVC类主要方法:★__init__() 主要参数:C: float参数 默认值为1.0错误项的惩罚系数。C越大,即对分错样本的惩罚程度越大,因此在训练样本中准确率越高,但是泛化能力降低,也就是对测试数据的分类准确率降低。相反,减小C的话,容许训练样本中有一些误分类错误样本,泛化能力强。对于训练样本带有噪声的情况,一般采用后者,把训练样本集中错误分类的样本作为噪声。k...转载 2018-05-12 11:53:10 · 12462 阅读 · 3 评论 -
Sklearn中的knn算法基本讲解
sklearn内置数据集数据是机器学习的关键,在机器学习工作中我们需要花费大量的时间来采集和整理数据,合理且科学的数据是得到良好机器学习效果的关键。一般而言,一个分类问题的机器学习过程需要用到四块数据内容,分别是:训练数据,一般用train来表示训练数据的分类属性,一般用target来表示测试数据,一般用test来表示测试数据的真实分类属性,用于评估分类器性能,一般用expected来表示为了方便...转载 2018-05-12 14:18:15 · 23457 阅读 · 3 评论 -
Sklearn 根据现有身高和体重训练模型,再对测试集做出判断
根据现有身高和体重训练模型,再对测试集做出判断一.根据现有数据创建标签[python] view plain copy #对数据集进行预处理 import random def calc_bmi(h, w): bmi = w / (h/100) ** 2 if bmi < 18.5: return "thin" if bmi < 25.0: ret...转载 2018-05-12 14:38:38 · 2385 阅读 · 0 评论 -
Python数据可视化—seaborn简介和实例
Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图。这里实例采用的数据集都是seaborn提供的几个经典数据集,dataset文件可见于Github。本博客只总结了一些,方便博主自己查询,详细介绍可以看seaborn官方API和example gallery,官方文档还是写的很好的。1 set...转载 2018-05-09 19:32:28 · 1163 阅读 · 0 评论 -
Precision/Recall的基本概念
【Precision/Recall的基本概念】查准率和查全率是信息检索效率评价的两个定量指标,不仅可以用来评价每次检索的准确性和全面性,也是在信息检索系统评价中衡量系统检索性能的重要方面。(1)查准率(Precision ratio,简称为P),是指检出的相关文献数占检出文献总数的百分比。查准率反映检索准确性,其补数就是误检率。查准率=(检索出的相关信息量/检索出的信息总量)*100%(2)查全率...转载 2018-05-09 19:32:39 · 5630 阅读 · 0 评论 -
This script performs the basic process for applying a machine learning
'''This script performs the basic process for applying a machine learningalgorithm to a dataset using Python libraries.The four steps are: 1. Download a dataset (using pandas) 2. Process the...原创 2018-05-08 19:52:52 · 231 阅读 · 0 评论 -
scikit-learn的线性回归模型 利用pandas处理数据
内容概要如何使用pandas读入数据如何使用seaborn进行数据的可视化scikit-learn的线性回归模型和使用方法线性回归模型的评估测度特征选择的方法作为有监督学习,分类问题是预测类别结果,而回归问题是预测一个连续的结果。1. 使用pandas来读取数据Pandas是一个用于数据探索、数据处理、数据分析的Python库In [1]:import pandas as pdIn [2]:# ...转载 2018-05-22 14:25:49 · 3745 阅读 · 0 评论 -
Python数据可视化-seaborn使用
详细介绍可以看seaborn官方API和example galler。1 set_style( ) set( )set_style( )是用来设置主题的,Seaborn有五个预设好的主题: darkgrid , whitegrid , dark , white ,和 ticks 默认: darkgrid import matplotlib.pyplot as plt import sea...转载 2018-05-22 14:46:19 · 8097 阅读 · 0 评论 -
Python中SKlearn中kmeans聚类
1.随机生成二维聚类数据[python] view plain copyimport numpy as np x1 = np.array([1, 2, 3, 1, 5, 6, 5, 5, 6, 7, 8, 9, 9]) x2 = np.array([1, 3, 2, 2, 8, 6, 7, 6, 7, 1, 2, 1, 3]) x = np.array(list(zip(x1, x2)))....转载 2018-05-22 15:14:04 · 15755 阅读 · 0 评论 -
Python 线性回归分析之岭回归
当使用最小二乘法计算线性回归模型参数的时候,如果数据集合矩阵存在多重共线性(数学上称为病态矩阵),那么最小二乘法对输入变量中的噪声非常的敏感,如果输入变量x有一个微小的变动,其反应在输出结果上也会变得非常大,其解会极为不稳定。为了解决这个问题,就有了优化算法 岭回归(Ridge Regression )。 多重共线性在介绍岭回归之前时,先了解一下多重共线性。...转载 2018-08-20 16:45:20 · 9912 阅读 · 0 评论
分享