
python机器学习项目案例
文章平均质量分 64
主要是是机器学习的一些实战案列
不懂六月飞雪
这个作者很懒,什么都没留下…
展开
-
PCA降维可视化举例
文章目录前言1、生成一群二维点并画在坐标轴上2、PCA降维3、平移回去PCA和原来点共同显示总结前言横看成岭侧成峰,远近高低各不同。PCA降维的作用是降低数据的维度,同时让最小的维度得到最大原数据的信息,也就是降维后的点方差最大。本文通过一群点从二维降到一维可视化PCA的效果1、生成一群二维点并画在坐标轴上import matplotlib.pyplot as pltimport numpy as npimport pandas as pd#先生成一群点 然后画出来datax=np.ra原创 2021-06-12 00:26:42 · 3452 阅读 · 4 评论 -
资金流入流出预测(下):时序规则rule_based介绍以及比赛应用
文章目录前言比赛介绍时序规则rule_based介绍ARIMA局限性rule_based介绍资金流入流出预测应用1读取数据2数据预处理2.1给数据添加时间维度2.2选取平稳数列3RuleBased模型3.1计算周期因子3.2统计频次3.3按照rule_based方式计算预测结果4输出结果与提交总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human in原创 2021-03-29 02:49:11 · 1176 阅读 · 0 评论 -
资金流入流出预测(上)(阿里云天池大赛)
文章目录前言比赛介绍采用不同的模型预测以及结果分数prophet模型1数据加载2数据探索与预处理2.1数据特征探索2.2按照时间聚合目标值total_purchase_amt和total_redeem_amt2.3目标值可视化2.4准备目标值3模型训练与预测3.1模型导入与拟合3.2模型预测3.3预测结果可视化3.4预测结果提交还有其他的不同的模型 (待续)总结前言什么是AI?The theory and development of computer systems able to perform原创 2021-03-27 14:01:36 · 1481 阅读 · 0 评论 -
风控评分卡模型介绍与案列实战
文章目录前言风控评分卡模型介绍步骤简介其他评估指标KSPSI案列实战1读取数据2数据探索与预处理2.1标签的分布情况探索与可视化2.2缺失值的补全2.3数据分箱3计算WOE与IV值4根据计算结果再探索一下数据5WOE编码6开始用逻辑回归来进行建模6.1筛选特征6.2数据集切分6.3模型训练与评估7做评分卡模型8评分卡效果测试预览总结前言什么是AI?The theory and development of computer systems able to perform tasks normally原创 2021-03-26 12:42:44 · 922 阅读 · 0 评论 -
WOE编码与IV值介绍与应用(以数据集GiveMeSomeCredit风控模型开发为例)
文章目录前言WOE编码与IV值介绍简介计算举例数据集GiveMeSomeCredit风控模型开发(特征处理与逻辑回归建模部分)1读取数据2数据探索与预处理2.1标签的分布情况探索与可视化2.2缺失值的补全2.3数据分箱3计算WOE与IV值4根据计算结果再探索一下数据5WOE编码6开始用逻辑回归来进行建模6.1筛选特征6.2数据集切分6.3模型训练与评估总结前言什么是AI?The theory and development of computer systems able to perform tas原创 2021-03-26 01:58:40 · 785 阅读 · 0 评论 -
Project:智能供应链
文章目录前言项目介绍智能供应链(一)1读取数据2数据探索3数据预处理与可视化分析3.1合并字段与处理缺失值3.2字段之间相关性可视化3.3按照不同的Market,Order R,Category Name对销售额度进行分析Sales per customer并且可视化3.4按照不同的时间维度对销售额进行分析3.5用户RFM分层管理3.6不同地区的支付情况分析与可视化3.7对负收益的订单进行数据分析3.8欺诈订单分析(支付方式、地区、哪些人欺诈订单较多)4文件转存为pkl格式智能供应链(二)1导入数据2数据探原创 2021-03-23 16:40:39 · 1419 阅读 · 2 评论 -
以鸢尾花分类三个模型(LR、SVC、RF)融合硬投票与软投票
文章目录前言1软投票与硬投票区别2鸢尾花分类举例2.1硬投票2.1软投票总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)1软投票与硬投票区别2鸢尾花分类举例2.1硬投票from sklearn.dat原创 2021-03-21 14:00:39 · 1706 阅读 · 0 评论 -
xgboost与lightgbm模型融合做天池比赛二手车价格预测
文章目录前言什么是模型融合?xgboost与lightgbm模型融合做天池比赛二手车价格预测总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)什么是模型融合?xgboost与lightgbm模型融合做天池比原创 2021-03-21 12:24:09 · 1872 阅读 · 0 评论 -
Networkx工作职位和影响力分析机器可视化以及能力描述的薪资预
文章目录前言思路步骤代码步骤总结前言如果给定了职位和能力的描述,能不能通过之前已有的数据大致估算薪资视频呢?思路步骤基于能力描述的薪资预测:• 数据集:抓取了4512个职位的能力描述,薪资Step1,数据加载Step2,可视化,使用NetworkxStep3, 提取文本特征 TFIDFStep4,回归分析,使用KNN回归,朴素贝叶斯回归,训练能力和薪资匹配模型Step5,基于指定的能力关键词,预测薪资test = ‘测试 北京 3年 专科’test2 = ‘测试 北京 4年 专科’原创 2021-03-20 12:27:35 · 165 阅读 · 0 评论 -
prophet页面访问流量预测、高铁乘客数量预测、沪市指数预测
文章目录前言ARIMA模型不足prophet模型原理与工具页面访问流量预测案例JetRail高铁的乘客数量预测沪市指数预测总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)ARIMA模型不足prophet原创 2021-03-10 01:22:05 · 939 阅读 · 2 评论 -
MinHash、MinHashLSH、MinHashLSHForest、MinHashLSHEnsemble、Simhash举例
文章目录前言原理简介与举例MinHashMinHashLSHMinHashLSHForestMinHashLSHEnsembleSimhash总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)原理简介与举例M原创 2021-03-07 22:32:59 · 550 阅读 · 0 评论 -
GBDT、LR、RF及其组合分类效果对比
文章目录前言代码过程总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)代码过程(最近时间精力有限,请见谅,后期有时间会补充完整原理和过程,具体代码过程见gitee):GBDT、LR、RF及其组合分类效果对比原创 2021-03-06 16:32:30 · 787 阅读 · 0 评论 -
Wide&Deep模型对movielens进行评分预测
文章目录前言代码过程总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)代码过程(最近时间精力有限,代码过程见gitee):Wide&Deep模型对movielens进行评分预测总结(如果您发现我写原创 2021-03-06 16:28:31 · 672 阅读 · 1 评论 -
KNNBasic、KNNWithMeans、KNNWithZScore、KNNBaseline分别对MovieLens数据集进行协同过滤
文章目录前言KNNBasicKNNWithMeansKNNWithZScoreKNNBaseline总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)KNNBasic(具体代码过程见gitee):KNNBa原创 2021-03-06 01:16:55 · 1726 阅读 · 0 评论 -
DeepFM对movielenth数据集进行评分预测
文章目录前言概念理解1.在实际工作中,FM和MF哪个应用的更多,为什么2.FFM与FM有哪些区别?3.DeepFM相比于FM解决了哪些问题,原理是怎样的4.Surprise工具中的baseline算法原理是怎样的?BaselineOnly和KNNBaseline有什么区别?5.基于邻域的协同过滤都有哪些算法,请简述原理案例步骤总结前言什么是AI?The theory and development of computer systems able to perform tasks normally r原创 2021-03-06 00:02:03 · 1337 阅读 · 1 评论 -
以西雅图酒店数据集为例建立内容推荐系统
文章目录前言代码过程总结前言已给西雅图酒店数据集,酒店数据集中包括对酒店信息,包括酒店名称 地址 描述。然后根据用户搜索某个酒店,推荐最相似的10个酒店。代码过程基于酒店内容的推荐:• Step1, 对酒店描述( Desc) 迕行特征提取• N-Gram, 提取N个还续字的集合, 作为特征• TF-IDF, 按照(min_df, max_df)提取关键词, 并生成TFIDF矩阵• Step2, 计算酒店乊间的相似度矩阵• 余弦相似度• Step3, 对于指定的酒店, 选择相似度最大的To原创 2021-03-05 16:39:25 · 742 阅读 · 2 评论 -
FunkSVD、biasSVD、SVD++对MovieLens数据集进行评分预测
文章目录前言FunkSVD原理与应用举例biasSVD原理与应用举例SVD++原理与应用举例总结前言传统SVD在使用上的局限:SVD分解要求矩阵是稠密的 => 矩阵中的元素不能有缺失;所以,类似于数据清洗,我们需要先对矩阵中的缺失元素进行补全;先有鸡,还是先有蛋。实际上传统SVD更适合做降维。存在的问题:矩阵往往是稀疏的,大量缺失值 => 计算量大;填充方式简单粗暴 => 噪音大。在SVD的基础上,提出了改进的算法FunkSVD、biasSVD、SVD++,原理和举例见下文。原创 2021-03-05 11:10:10 · 2453 阅读 · 5 评论 -
SVD进行图片灰度化之后的图像重构
文章目录前言代码过程总结前言一个矩阵(不要求是方阵)经过特征值SVD分解之后可以拿到特征值矩阵,如果只保留部分的特征值的矩阵,能不能依然得到部分的原来的信息呢?本文以读取一张图片为例,然后进行特征值的分解,然后重构部分特征值回去得到的矩阵,看看这个矩阵能够体现图片的信息。答案是肯定的。具体代码如下。代码过程最近时间精力有限,不能完全的把步骤清晰的展示在优快云上面,请见谅,不过在gitee上有代码的过程和注释:SVD进行图片灰度化之后的图像重构。总结(如果您发现我写的有错误,欢迎在评论区批评指正原创 2021-03-04 22:41:13 · 662 阅读 · 4 评论 -
BaselineOnly(ALS、SGD优化)与SlopeOne对MovieLens数据集进行评分预测
文章目录前言案例代码总结前言MovieLens数据集记录了用户对电影的评分,如何通过这个数据集来给用户推荐他是否喜欢的电影。这个时候可以通过BaselineOnly或者SlopeOne算法来预测一个用户对电影的喜欢的分数,然后根据分数来决定是否推荐。案例代码(最近时间精力有限,具体代码注释过程见gitee):BaselineOnly(ALS、SGD优化)对MovieLens数据集进行评分预测SlopeOne对MovieLens数据集进行评分预测总结(如果您发现我写的有错误,欢迎在评论区批评原创 2021-03-04 13:57:41 · 626 阅读 · 1 评论 -
数据清洗(以泰坦尼克号数据集为例)
文章目录前言过程总结前言数据的质量决定了模型的好坏,本文以泰坦尼克号数据集为例,做一下数据集的清洗(主要是缺失值的填充)过程(最近的时间精力有限,代码见gitee):泰坦尼克号数据清洗总结<如果您发现我写的有错误,欢迎在评论区批评指正>...原创 2021-03-03 16:17:15 · 2003 阅读 · 1 评论 -
K-means与GMM分别对球队数据进行聚类
文章目录前言代码过程总结前言聚类方法有很多,其中K-means是通过计算距离的远近来聚类,而GMM则是通过高斯混合分布和EM算法来迭代。本文以18支球队的三年比赛得奖情况为例来进行聚类,可以对比一下两种聚类方法的优劣。代码过程(最近时间精力有限,具体代码过程见gitee):K-means与GMM分别对球队数据进行聚类。总结(如果您发现我哪里写的不对,欢迎在评论区批评指正)。...原创 2021-03-03 13:01:34 · 465 阅读 · 0 评论 -
K-means给商场顾客数据进行聚类
文章目录前言代码过程总结前言K-means是一个很经典的聚类算法,对于没有标签的数据,可以通过这种方式先给数据打标签(分类)。本文以商场顾客数据为例,用K-means完成对数据的聚类。代码过程(最近时间精力有限,代码步骤见github,注释比较详细):K-means给商场顾客数据进行聚类总结(如果您发现我写的有错误,欢迎在评论区批评指正)。...原创 2021-03-02 18:14:35 · 2396 阅读 · 0 评论 -
Kmeans手肘法例子(以商场顾客数据集为例)
文章目录代码总结K-means中的K值有时候不知道怎么选,可以试试用手肘法。代码(最近时间精力有限,具体代码见github):Kmeans手肘法例子(以商场顾客数据集为例)。总结(如果您发现我哪里写的不对 欢迎在评论区批评指正)...原创 2021-03-02 18:13:14 · 1787 阅读 · 2 评论 -
WordCloud做Market_Basket_Optimisation数据集词云可视化
文章目录前言步骤流程总结前言WordCloud在nlp和推荐系统中有很多的应用,可以很直观的将文本库中的语料可视化出来。本文以Market_Basket_Optimisation数据集为例做一下词云可视化。步骤流程(最近时间精力有限)具体流程代码见github:WordCloud做Market_Basket_Optimisation数据集词云可视化,并输出Top10。总结(如果您发现我写的不对,欢迎在评论区批评指正)。...原创 2021-03-02 01:01:12 · 549 阅读 · 0 评论 -
Python常用可视化方法
文章目录前言可视化操作总结前言EDA(Exploratory Data Analysis)探索性的数据分析,是机器学习、深度学习等方面的重要的一部,对数据进行分析,为训练模型做好准备。可视化可以很直观的显示数据的特征,清晰明了,即有利于自己的分析改进,也利于让别人(老板)很直观的看到结果。本文介绍常用的一些Python可视化操作。可视化操作python可视化操作经常用是matplotlib和seaborns这两个库,另外pd本身也有一些可视化操作。常用的视图包括散点图、折线图、饼图、热力图、柱状图原创 2021-03-01 18:23:35 · 251 阅读 · 0 评论 -
以泰坦尼克号数据集为例做python可视化EDA
文章目录前言具体步骤总结前言本文以泰坦尼克号数据集为例,做了一下在机器学习算法中一些常用的可视化操作。首先读取数据,然后配合可视化的数据分析。在分析数据之后对数据清洗,包括填充缺失值、机器学习特征选择以及特征相关性分析及其可视化。做了CART模型训练,并将特征的重要性排序、可视化展示。具体步骤(最近时间精力有限,具体代码过程见github,程序和注解比较详细):以泰坦尼克号数据集为例做python可视化EDA总结(如果您发现我写的有错误,欢迎在评论区批评指正)...原创 2021-03-01 18:21:44 · 827 阅读 · 2 评论 -
apriori算法对MarketBasket购物篮分析
文章目录前言介绍代码步骤总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)介绍拿到了一家超市的商品销售的数据,数据中有购买的订单序号以及每个序号中买了哪些商品的名称。通过这个数据,可以用apriori算法对购原创 2021-02-25 23:03:45 · 815 阅读 · 0 评论 -
apriori算法breadBasket频繁项集和规则挖掘
文章目录前言过程总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)过程数据集一家超市的购物信息,包括了购物时间,购物篮和购物篮中的商品名称,用apriori算法做一下数据的频繁项集和规则挖掘。#先导包fr原创 2021-02-25 20:16:50 · 852 阅读 · 1 评论 -
关联规则Apriori算法例子
文章目录前言支持度、置信度、提升度举例总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)支持度、置信度、提升度1.支持度:是个百分比,指的是某个商品组合出现的次数与总次数之间的比例,支持度越高,代表这个组合出原创 2021-02-25 17:48:27 · 4045 阅读 · 0 评论 -
CART实现minist数字识别
文章目录前言步骤数据加载探索数据划分数据模型创建与训练模型评估总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)步骤from sklearn.model_selection import train_test原创 2021-02-23 19:57:10 · 322 阅读 · 0 评论 -
使用逻辑回归对minist手写数字进行识别
文章目录前言概述流程加载数据探索数据随机找其中的几副图像 然后显示出来看看划分数据集特征工程:标准化数据模型创建与训练模型评估总结前言什么是AI?The theory and development of computer systems able to perform tasks normally requiring human intelligence.(–Oxford Dictionary)Using data to solve problems.(–cy)概述本文使用逻辑回归对mnist原创 2021-02-23 13:03:58 · 1489 阅读 · 6 评论 -
Pytorch实现线性回归(手动)
文章目录前言过程如下:总结前言pytorch实现线性回归过程如下:假设我们的基础模型就是 y=wx+b 其中w和b均为参数,我们使用y=3*x+0.8来构造数据x,y 所以最后通过模型应该能够得到w和b应该在3与0.8附近。思路如下:1准备数据 2计算预测值 3计算损失,把参数的梯度设置为0,进行反向传播 4更新参数 5效果可视化## 1准备数据#1.准备数据y=3x+0.8,准备参数import torchx=torch.rand([50])#x是随机的50个数据 x在0-1之间y原创 2021-02-22 22:02:38 · 391 阅读 · 1 评论 -
面试题打卡-机器学习
文章目录哪些机器学习算法需要做特征归一化,哪些不需要?为什么?One-hot的作用是什么?为什么不直接使用数字作为表示?树形结构为什么不需要做归一化?更新中......哪些机器学习算法需要做特征归一化,哪些不需要?为什么?One-hot的作用是什么?为什么不直接使用数字作为表示?树形结构为什么不需要做归一化?更新中…...原创 2021-02-22 20:16:41 · 397 阅读 · 0 评论 -
以红酒数据集分类为例做决策树的可视化
文章目录前言决策树原理可视化决策树举例ginientropy总结前言本文是决策树可视化例子决策树原理决策树的分类原理有ID3(信息增益最大准则)、C4.5(信息增益比准则)、CART(基尼系数最小准则)。(具体的数学原理和公式后期补充,本文是做一下决策树可视化)。可视化决策树举例思路步骤:1导入数据;2划分数据集;3导入树模型;#4训练与模型评估#5可视化决策树gini#1导入数据from sklearn.datasets import load_winewine=load_wine()原创 2021-02-21 11:24:06 · 4161 阅读 · 4 评论 -
KNN算法预测Facebook用户签到位置
文章目录前言流程1获取数据2数据处理3特征工程4KNN模型5模型选择与调优6模型评估总结前言facebook给定了一个数据集,然后预测用户可能签到的位置。流程思路流程如下:#1获取数据 #2数据处理 #3特征工程,标准化 #4KNN算法预估流程 #5模型选择与调优 #6模型评估1获取数据import pandas as pdimport timedata=pd.read_csv("facebook-v-predicting-check-ins/train.csv")print("先看一下原创 2021-02-20 13:17:18 · 822 阅读 · 1 评论 -
交叉验证与网格搜索(以KNN分类鸢尾花为例)
文章目录1、获取数据2、划分数据集3、特征工程:标准化数据4、交叉验证与网格搜索5、模型评估总结1、获取数据import pandas as pdpd.set_option('display.max_rows', 6)#1获取数据from sklearn.datasets import load_irisiris=load_iris()#新建一个dataframe,把iris中data方进来,并且dataframe的列的名字是iris的特征名字iris_df=pd.DataFrame(dat原创 2021-02-19 00:17:10 · 870 阅读 · 4 评论 -
Knn算法实现鸢尾花分类
文章目录前言引例KNN算法实现鸢尾花分类1获取数据2划分数据集3特征工程:标准化数据4模型训练5模型评估总结前言近朱者赤近墨者黑,物以类聚人以群分。KNN算法就是计算和别人和自己的举例,然后离自己最近的这些人(大部分)是什么样的人,那么自己就是什么样的人引例import pandas as pdimport numpy as np#首先有6部电影 统计了打斗镜头和约会镜头 然后分好类了 0和1两类data=np.array([ [98,2],[3,104],[1,81],[99,5],[10原创 2021-02-18 22:09:40 · 2902 阅读 · 0 评论 -
VarianceThreshold、pearsonr、PCA、LDA(特征工程之特征降维)
文章目录前言一、过滤低方差特征(VarianceThreshold())二、相关系数总结前言特征降维是指在某些限定条件下,降低随机变量(特征)的个数,得到一组“不相关”的主要变量的过程。比如一辆车的购买时间和行驶路程就有很强的相关性。因为在进行机器学习算法模型进行训练的时候,都是通过特征进行学习,如果特征本身存在问题或者特征之间相关性较强,对算法模型训练有很大的影响。所以要进行特征的选择(或者说降维)、主成分分析PCA等,目的是从数据集中的特征中找出主要特征。本文是特征降维,包括删除低方差数据以及变量原创 2021-02-16 23:02:09 · 2941 阅读 · 0 评论 -
归一化MinMaxScaler()、标准化StandardScaler()(特征工程之特征预处理)
文章目录前言一、什么是特征预处理?二、特征预处理常用方法:归一化、标准化1.归一化2.标准化总结前言提示:这里可以添加本文要记录的大概内容一、什么是特征预处理?sklearn官网的解释:The sklearn.preprocessing package provides several common utility functions and transformer classes to change raw feature vectors into a representation that i原创 2021-02-16 12:26:51 · 9378 阅读 · 0 评论 -
文本特征抽取TfidfVectorizer(特征工程之特征提取)
文章目录前言一、jieba分词中文后再用CountVectorizer提取特征有何不妥?二、TfidfVectorizer1.TFIDF原理2.TfidfVectorizer()使用使用举例总结前言本文以jieba给中文分词之后再用CountVectorizer提取特征不足之处为引例,用了一种更加合理的文本抽取方法tf-idf(TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency))一、jieba分词中文后再用CountVector原创 2021-02-16 01:00:01 · 13570 阅读 · 8 评论