
数据分析
qq_41895704
这个作者很懒,什么都没留下…
展开
-
imputer.fit填充时报错:not supported between instances of ‘str‘ and ‘float‘
但是,如果我单独imputer.fit()bool类型这一列,就不会报错。包含了bool类型运行正常,不会报错,但是我如果fit所有列就会失败。将其修正为int类型之后,就可以正常运行。存在一列bool类型。原创 2024-04-17 09:36:44 · 291 阅读 · 0 评论 -
mysql 日期、时间函数汇总
1、获得当前时间 now(),CURRENT_DATE(),CURRENT_TIME(),CURRENT_TIMESTAMP()select now(), CURRENT_DATE(),CURRENT_TIME(),CURRENT_TIMESTAMP()2021-06-16 14:23:43 2021-06-16 14:23:43 2021-06-16 14:23:432、日期转字符串格式,字符串转日期格式date_format(now(),'%Y%m%d %H%i%s')#日期转字符串2原创 2021-06-16 14:53:27 · 251 阅读 · 0 评论 -
方差、标准差、均方误差、均方根误差
1、方差,与均值之差的平方和与数量比,衡量数据的离散程度;2、标准差,与均值之差的平方和与数量比的平方根,衡量数据的离散程度,方差的平方导致量纲与源数据不同;3、均方误差,预测值与真实值的平方和与数量比,衡量预测的偏差程度。4、均方根误差,预测值与真实值的平方和与数量比的平方根,衡量预测的偏差程度...原创 2021-06-08 18:02:45 · 1344 阅读 · 0 评论 -
过拟合小结
1、过拟合的定义过拟合即过度学习,在当前数据集适应力较强,但是在新的数据集中表现性差,即泛化能力弱,鲁棒性差;过拟合无法避免,只能缓解;2、过拟合的原因模型复杂度与数据量的相对比例;当模型越复杂,对特征过度利用,数据量越少越容易过拟合。例子:决策树没有剪枝的话很容易过拟合,对每一个特征都尽可能的利用,可能很多叶子节点最后只有个别样本,这就是过拟合;3、过拟合的解决方法1、降低模型复杂度(避免对特征过度利用)1)、简化模型2)、正则化通过正则化,在损失函数中,增加W变大的惩罚;3)、模原创 2021-06-02 16:23:42 · 457 阅读 · 0 评论 -
数据不平衡的一点总结
#以二分类为例1、什么是数据不平衡 数据不平衡往往指的是数据集中分类不平衡,A类与B类占比相差较大。这时候的模型训练出来往往会偏向比例多的一类2、数据处理方法1)、增加低比例样本; 1、对低比例进行过采样 2、对低比例类,选取k点,以其均值或众数进行数据生成 3、smote算法2)、减少高比例样本 1、欠采样3)、算法 1、修改算法的阈值,比如将比例多的类别阈值划分到0.7;3、不平衡数据评价标准 不能使用准确率,因为即使模型全部预测占比多的类别,准确率也会比较高; 建原创 2021-06-01 18:01:14 · 334 阅读 · 0 评论 -
sklearn fit()、 transform、 fit_transform()函数区别
1、在数据预处理阶段,利用sklearn StandardScaler类,fit()函数是对数据样本的基本属性进行计算,例如:均值、方差等等当初始化一个StandardScaler类之后ss = StandardScaler()dir(ss)Out[11]: ['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute原创 2021-05-13 16:07:38 · 569 阅读 · 0 评论 -
数据预处理环节
数据挖掘中,海量的原始数据存在着大量不完整(缺失值)、不一致、有一场的数据,这会严重影响建模的效率和准确客观性,所以进行数据预处理尤其重要。数据预处理包括:数据清洗、集成、转换、规约操作。1.数据清洗数据清洗主要是删除原始数据集中的无关数据。重复数据。平滑噪声数据,筛选掉与挖掘主题无关的数据,处理确实值。异常值等。1.1 缺失值处理方法分为三类:删除、插补、不处理1.2 异常值处理、异...原创 2019-10-05 13:37:08 · 1318 阅读 · 0 评论 -
西瓜书第二章课后习题
2.1 数据集包含 1000 个样本,其中 500 个正例、 500 个反例,将其划分为包含 70% 样本的训练集和 30% 样本的测试集用于留出法评估,估算有多少种划分方式。答:(C350、500)**22.2 数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。10折交叉验证按照比例取样例,则10折交叉验证互斥,每次挑选的9个训练集都是正返利各一半,原创 2021-03-19 17:27:10 · 1464 阅读 · 0 评论 -
python 发送支持多人包含html页面、添加附件的邮件
```pythonfrom email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartfrom email.mime.base import MIMEBasefrom email import encodersimport email as emlimport smtplib as smpdef _format_addr(s): name, addr = eml.utils.parsea.原创 2021-02-19 13:49:13 · 217 阅读 · 0 评论 -
风控催收的几个概念 ,入催率、出催率
*入催率($):当月应还但未还账户剩余本金/当月应还账户剩余本金*出催率($):当月出催账户剩余本金/当月总在催账户剩余本金1、入催率,分子:当月应还但未还账户剩余本金分母:当月应还账户剩余本金例如计算2020年10月份的入催率计算方法,先把还款记录回溯到2020年10月份末,即还款日期小于11月的所有历史还款拼接还款计划表。首先筛选分母,1)、找出第一期还款日期小于11月的订单,2)、找出这部分订单,并且还款日期大于10月的所有期数,既是当月应还账户剩余本金。筛选分子1)、首先筛选分原创 2020-12-23 10:19:39 · 11602 阅读 · 4 评论 -
数据分箱概念与python实现
数据分箱指的是将连续数据离散化。离散化对异常值具有鲁棒性,运算更快方便存储,而且特征可变性更强方便迭代,特征离散后的模型更加稳定。在这里主要介绍卡方分箱:1.先确定最终分几个箱,也就是最后分几个离散值。2.如果变量样本大于100,那么先等距的划分为100箱。3.计算每一对相邻箱间的卡方值4.将卡方值最小的两个区间合并,一直重复3-4直到满足最终分箱个数。...原创 2019-11-05 10:32:00 · 1118 阅读 · 0 评论 -
统计学变量的相关性检验
相关性反应的是变量之间的变换趋势和程度。范围在-1,+1之间,正值为正相关,负值为负相关,在样本数量充足的情况下,0即意味着两个变量是完全独立的。1.皮尔森系数(peaarson)皮尔森系数是利用协方差与变量标准差乘积之比。所以两个变量的标准差不能为0,即每个变量对于所有样本的值不能相同,即变量X不能是[1,1,1,1,1]这种类型.当皮尔逊相关系数通常用r或ρ表示,度量两...原创 2019-11-05 08:15:04 · 3805 阅读 · 0 评论 -
数据聚类离散化
通过聚类##import pandas as pdfrom sklearn.cluster import KMeans#倒入k均值算法data=pd.read_excel('../data/data.xls')k=4#聚类算法分类数print(data.columns)m='A'result=pd.DataFrame()for i in data.columns[:6]: ...原创 2019-10-08 13:12:25 · 2116 阅读 · 0 评论