
机器学习
加油!
上课不要摸鱼江
这个作者很懒,什么都没留下…
展开
-
[机器学习] 什么时候对数据标准化处理?哪些算法需要/不需要标准化?
什么时候对数据中心化?在聚类过程中,标准化显得尤为重要。这是因为聚类操作依赖于对类间距离和类内聚类之间的衡量。如果一个变量的衡量标准高于其他变量,那么我们使用的任何衡量标准都将受到该变量的过度影响。在PCA降维操作之前。在主成分PCA分析之前,对变量进行标准化至关重要。 这是因为PCA给那些方差较高的变量比那些方差非常小的变量赋予更多的权重。而 标准化原始数据会产生相同的方差,因此高权重不会分配给具有较高方差的变量KNN操作,原因类似于kmeans聚类。由于KNN需要用欧式距离去度量。标准原创 2021-11-19 17:45:21 · 6477 阅读 · 0 评论 -
快速重温ML、DL
重温机器学习主要知识并为深度学习做准备,是项目前预热。第一天需要用到的库from sklearn.feature_extraction import DictVectorizerfrom sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom sklearn.preprocessing import MinMaxScaler, StandardScalerfrom sklearn.impute imp原创 2021-03-11 23:41:25 · 171 阅读 · 1 评论 -
交叉验证中cv=? 与 cv=KFold(n_splits=?)的区别
这几天复习交叉验证的时候发现一个问题,学习资料中有些地方用的函数中cv=?,有些地方则用的cv=KFold(n_splits=?) 这个函数,就比如我用KNN模型做十折交叉验证:model = sk_neighbors.KNeighborsClassifier(n_neighbors=5,n_jobs=1) #KNN分类import sklearn.model_selection as sk_model_selectionaccs=sk_model_selection.cross_val_score(原创 2020-08-19 18:31:39 · 4935 阅读 · 0 评论 -
PCA和LDA调库降维过程
之前的PCA小白实战是利用numpy实现PCA过程,这里实现PCA和LDA实际调库应用在数据集的过程。PCA(主成分分析)最大方差理论:信号具有较大的方差,噪声具有较小的方差 PCA的目标:新坐标系上数据的方差越大越好 PCA是无监督的学习方法,直接食用skleran.decomposition即可from sklearn.decomposition import PCApca = PCA(n_components='mle',whiten=False,svd_solver='auto')pca.原创 2020-08-19 17:57:58 · 339 阅读 · 1 评论 -
变量关系可视化展示
做数据分析前的可视化展示非常重要,因为即使能直接调用库,但一些画图参数还是要调,就比较麻烦,这里总结一下最近用到的模板,以后可以直接画图调用。其实官网matplotlib和seaborn的可视化教程做的非常好,有时间一定要亲手打出来过一遍,链接如下:CATEGORICAL X CATEGORICALHeat map of contingency tableMultiple bar plotsCATEGORICAL X CONTINUOUSBox plots of continuous for原创 2020-08-12 12:05:05 · 764 阅读 · 0 评论 -
探索性数据分析初探
这里记录一下利用搜集到的数据:足球运动员数据集,进行具体任务前的探索性数据分析,自己觉得是干货,再做其他分析的时候一些函数可以当做模板,代码是挑出来比较典型的,不是流程式的。目标:探索性数据分析(EDA). 挑战目标: 这些裁判在给红牌的时候咋想的呢,会不会被跟球员的肤色有关?数据简介:数据包含球员和裁判的信息,2012-2013年的比赛数据,总共设计球员2053名,裁判3147名,特征列表如下:– https://docs.google.com/document/d/1uCF5wmbcL9原创 2020-08-10 22:23:21 · 304 阅读 · 0 评论 -
简单的用户流失预警实战
现实情况下有很多游戏公司给回归用户发礼包、打电话,这里做一个类似的用户流失预警,有助于公司或厂商做出反应。记录一下学习过程,方便以后复习和查找资料。开始先导入库,数据from __future__ import divisionimport pandas as pdimport numpy as npchurn_df = pd.read_csv('churn.csv')col_names = churn_df.columns.tolist() #取所有特征print("Column na原创 2020-08-08 10:52:56 · 524 阅读 · 0 评论 -
贷款利润最大化实战
拿到一批贷款数据,现在对其进行分类建立模型,看之后的人人来了,我能不能贷给他钱。记录实战的流程,方便以后复习、查找。特征删除数据量极大,大概有几十个特征四万多条数据,这时很明显要进行初步的特征删除。import pandas as pdloans_2007 = pd.read_csv('LoanStats3a.csv', skiprows=1)#先对数据做一下变换,删除几列没用的half_count = len(loans_2007) / 2loans_2007 = loans_2007.dr原创 2020-08-06 00:05:11 · 396 阅读 · 0 评论 -
逻辑回归 小白实战初探
记录最近学的二分类模型logistics regression,实战内容是利用LR对学生入学成绩进行分析,预测后来的同学能不能进这个学校,概率是多少。数学推导等自己熟练了补上,先挖个坑,怕不回来看了,用的jupyter。第一步肯定是导三个可爱的库了。import numpy as npimport pandas as pdimport matplotlib.pyplot as pl%matplotlib inline之后导自己的数据。import os #os是解决路径的库path =原创 2020-06-29 12:06:26 · 364 阅读 · 0 评论 -
支持向量机SVM 原理实现
记录一下学习的支持向量机实战过程,方便以后复习和查看。支持向量机(SVM)先导库%matplotlib inlineimport numpy as npimport matplotlib.pyplot as pltfrom scipy import stats# use seaborn plotting defaultsimport seaborn as sns; sns.set()支持向量基本原理解决线性不可分问题,低维不可分问题转化为高维可分问题例子#用samples_gen原创 2020-07-19 22:58:47 · 428 阅读 · 0 评论 -
Xgboost 小白实战初探
记录学到的Xgboost实战过程,因为anaconda自带的库没有Xgboost,所以要先下载下来,方法是打开anaconda prompt终端,输入pip install xgboostXgboost是Boosting算法的其中一种,Boosting算法的思想是将许多弱分类器集成在一起,形成一个强分类器。因为Xgboost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。而所用到的树模型则是CART回归树模型。下面进行数据集实战,其实都是老套路了:导库读数据集分离特征原创 2020-07-24 20:56:18 · 249 阅读 · 0 评论 -
PCA降维 小白实战初探
记录利用PCA主成分分析法对python自带的鸢尾花数据集进行降维的过程,方便以后复习~导库导数据#PCA降维鸢尾花实战import numpy as npimport pandas as pddf = pd.read_csv('iris.data')df.columns=['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid', 'class'] #赋标签# split data table into data X and class lab原创 2020-07-21 20:24:41 · 386 阅读 · 1 评论 -
聚类方法K-Means、DBSCAN 小白实战初探
记录一下利用两种聚类方法K-Means和DBSCAN对搜集到的啤酒集进行聚类。导库读数据# beer dataset 啤酒集import pandas as pdbeer = pd.read_csv('data.txt', sep=' ')beerX = beer[["calories","sodium","alcohol","cost"]] #取出标签K-means clusteringfrom sklearn.cluster import KMeans #导入库km = KMe原创 2020-07-20 19:41:00 · 1188 阅读 · 0 评论 -
ARIMA 小白实战初探
记录利用时间序列模型 ARIMA(p,d,q)进行顾客满意度的预测。ARIMA模型建立流程:平稳序列(差分法确定d)p和q阶数的确定(ACF和PACF)ARIMA(p,d,q)导入库并设置一些画图参数from __future__ import absolute_import, division, print_function%load_ext autoreload%autoreload 2%matplotlib inline%config InlineBackend.figur原创 2020-08-05 18:22:34 · 373 阅读 · 1 评论 -
k折交叉验证KFold()函数
KFold(n_split, shuffle, random_state) 参数:n_splits:要划分的折数 shuffle: 每次都进行shuffle,测试集中折数的总和就是训练集的个数 random_state:随机状态from sklearn.model_selection import KFold kf = KFold(n_splits=3,random_state=1) for train, test in kf.split(titanic):titanic为X,即要原创 2020-07-17 12:07:38 · 3482 阅读 · 0 评论 -
kobe生涯数据 数据预处理
记录一下对kobe职业生涯数据的数据预处理过程,对kobe表示沉痛哀悼,永远的神…import numpy as np import pandas as pd import matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import KFold# import datafilename= "da原创 2020-07-31 12:34:12 · 618 阅读 · 0 评论 -
线性回归实战 分析汽车油耗效率
记录一下利用线性回归的机器学习实战,主题是对汽车油耗效率的分析,比较简单。是在anaconda的jupyter中做的,目的在于加深对过程的理解。import pandas as pdimport matplotlib.pyplot as plt#因为原数据集中没有指标,我需要先指定指标columns = ["mpg", "cylinders", "displacement", "horsepower", "weight", "acceleration", "model year", "origin"原创 2020-07-28 11:33:20 · 1284 阅读 · 0 评论 -
逻辑回归实战 入学接收问题
记录利用逻辑回归进行学生入学是否接收的问题import pandas as pdimport matplotlib.pyplot as pltadmissions = pd.read_csv("admissions.csv")print(admissions.head())plt.scatter(admissions['gpa'], admissions['admit'])plt.show()原数据有两个指标:gpa、gre,一个lable:admit。#from sklearn.lin原创 2020-07-29 13:06:27 · 1078 阅读 · 8 评论 -
贝叶斯单词拼写检查器
记录一下简单的单词拼写检查器,达到能对错误单词进行简单的修正的目的。求解:argmaxc P(c|w) -> argmaxc P(w|c) P( c ) / P(w)P( c ), 文章中出现一个正确拼写词 c 的概率, 也就是说, 在英语文章中, c 出现的概率有多大P(w|c), 在用户想键入 c 的情况下敲成 w 的概率. 因为这个是代表用户会以多大的概率把 c 敲错成 wargmaxc, 用来枚举所有可能的 c 并且选取概率最大的要是遇到我们从来没有过见过的新词怎么办. 假如说一原创 2020-07-18 16:41:10 · 248 阅读 · 0 评论 -
机器学习之泰坦尼克号实战
记录一下利用线性回归、逻辑回归、随机森林算法处理泰坦尼克号数据的过程,对比准确率。数据预处理过程原创 2020-07-17 22:18:09 · 1997 阅读 · 13 评论 -
利用K-Means对图片进行压缩
之前在几次建模比赛中也用到了K-Means,但当时都是用SPSS做的,一顿操作就完了,没有了解到原理和代码方面的东西。在此记录一下用K-Means聚类法对图片进行压缩实战,方便以后复习。# -*- coding: utf-8 -*-#K-Means聚类用在图像压缩#导入KMeans库from skimage import iofrom sklearn.cluster import KMeansimport numpy as npimage = io.imread('tiger.png')原创 2020-07-20 13:44:57 · 621 阅读 · 0 评论 -
简单的人脸分类实战(利用SVM)
因为对人脸识别比较感兴趣,故利用python自带的fetch_lfw_people库,尝试做一下人脸分类,记录一下学习过程。Example: Face Recognition 人脸分类As an example of support vector machines in action, let’s take a look at the facial recognition problem.We will use the Labeled Faces in the Wild dataset, which原创 2020-07-19 23:49:26 · 1019 阅读 · 0 评论 -
简单的股票预测实战(利用ARIMA))
利用ARIMA模型对股票的收盘价进行预测先导入库并设置画图参数%matplotlib inlineimport pandas as pd#import pandas_datareader 获取各种数据集库import datetimeimport matplotlib.pylab as pltimport seaborn as snsfrom matplotlib.pylab import stylefrom statsmodels.tsa.arima_model import ARIMA原创 2020-08-05 19:19:32 · 2971 阅读 · 5 评论