
数据分析与挖掘
数据分析与挖掘案例
Duke_LH
这个作者很懒,什么都没留下…
展开
-
数据挖掘:银行客户认购产品预测
数据挖掘:银行客户认购产品预测。原创 2022-10-24 16:37:39 · 4238 阅读 · 2 评论 -
数据挖掘:贷款违约预测
数据数据来源阿里天池学习赛:零基础入门金融风控-贷款违约预测代码import pandas as pdimport numpy as npfrom sklearn.preprocessing import LabelEncoderfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import roc_auc_score,accuracy_scoreimport joblibfrom catboo原创 2021-05-19 17:57:24 · 1266 阅读 · 0 评论 -
cat_features must be integer or string, real number values and NaN values should be converted to str
第一次用catboost训练模型时,出现报错,具体如下:CatBoostError: Invalid type for cat_feature[non-default value idx=0,feature_idx=4]=3.0 : cat_features must be integer or string, real number values and NaN values should be converted to string.报错信息很好理解,训练器要求我们指定的类别变量的值必须为整型或原创 2021-05-14 17:40:44 · 3310 阅读 · 2 评论 -
分类预测:会员回购预测
项目说明数据集来自阿里天池:会员回购预测目的是为了判断顾客是否会响应活动从而回购,也就是一个是否响应活动的二分类模型数据说明train&testtarget:“0”代表不回购,“1”代表回购transactions代码import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import trai原创 2021-01-12 18:18:14 · 909 阅读 · 1 评论 -
购买行为预测婴儿年龄:Apriori 和 KNN 的简单实现
Apriori 代码import pandas as pd#自定义连接函数,用于实现L_{k-1}到C_k的连接def connect_string(x, ms): """ x:频繁项集列表 ms: 连接符,这里用 ‘---’ return: 返回长度+1的频繁项集,即L_{k-1}到C_k的连接 """ x = list(map(lambda i:sorted(i....原创 2019-09-13 21:54:20 · 1120 阅读 · 0 评论 -
数据分析:母婴商品数据可视化
数据来源:Baby Goods Info Data读取数据import numpy as npimport pandas as pdfrom pyecharts.charts import Pie,Bar,Pagefrom pyecharts import options as optsfilename = r'train.csv' #联结年龄和性别后的表filename1 = r'trade_history.csv'data = pd.read_csv(filename)data1 =原创 2020-08-25 11:32:06 · 1660 阅读 · 2 评论 -
回归分析:二手车价格预测
项目说明:数据来源阿里天池的一个挖掘比赛:预测二手车交易价格import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_absolute_err...原创 2020-04-14 16:25:18 · 1304 阅读 · 0 评论 -
python:疫情数据可视化
数据来源:BlankerL数据截止2020-04-10下午4点json数据转 csvimport jsonimport timeimport csvfile = open('DXYArea-TimeSeries.json','r',encoding='utf-8')infos = json.load(file)with open('data.csv','a',newline='...原创 2020-04-13 18:11:42 · 5955 阅读 · 4 评论 -
《商务与经济统计》Python实现笔记(五)
时间序列分析移动平均import pandas as pdimport numpy as npdata = pd.DataFrame([17,21,19,23,18,16,20,18,22,20,15,22],columns=['sale'])data["rolling_mean"] = data.rolling(3).mean().shift(1)#选前3个时间单位的平均值,预测值...原创 2020-03-25 18:05:57 · 671 阅读 · 0 评论 -
《商务与经济统计》Python实现笔记(四)
一元线性回归import pandas as pdimport numpy as npimport statsmodels.api as sm# import statsmodels.formula.api as smf方法二x = np.array([2,6,8,8,12,16,20,20,22,26])y = np.array([58,105,88,118,117,137,15...原创 2020-03-25 18:04:00 · 574 阅读 · 0 评论 -
《商务与经济统计》Python实现笔记(三)
方差分析单因素方差分析(多个总体均值相等的假设检验)import scipy.stats as statsa = [58,64,55,66,67]b = [58,69,71,64,68]c = [48,57,59,47,49]stats.f_oneway(a,b,c)F_onewayResult(statistic=9.176470588235295, pvalue=0.003...原创 2020-03-25 18:00:28 · 532 阅读 · 0 评论 -
《商务与经济统计》Python实现笔记(二)
总体方差的置信区间from scipy.stats import chi2def CI(n,sigma2,alpha): """ n:样本量 sigma2:样本方差 alpha:置信水平 """ a = (1-alpha)/2 b = (n-1)*sigma2 lower = b/chi2.ppf(a,df=n-1) ...原创 2020-03-25 17:51:13 · 526 阅读 · 0 评论 -
《商务与经济统计》Python实现笔记(一)
独立样本T检验(两样本均值估计两总体均值大小关系)import pandas as pdimport numpy as npfrom scipy import stats# 传数据data = pd.read_excel(r"C:\Users\liuhao\Desktop\python_work\Python数据分析与挖掘实战\chapter8\test\data\data.xls")...原创 2020-03-25 17:40:16 · 649 阅读 · 0 评论