- 博客(12)
- 收藏
- 关注

原创 Pycaret使用教程
文档链接:https://pycaret.org/setup/模块介绍:1.数据导入#Importing data using pandasimport pandas as pd data = pd.read_csv('c:/path_to_data/file.csv’) #Loading data from pycaretfrom pycaret.datasets import get_datadata = get_data('juice’) 2.导入模型模块#
2020-06-21 22:24:13
9348
6
原创 copy和deepcopy区别
深拷贝和浅拷贝都是对象的拷贝,本质区别是拷贝出来的对象地址是否和原对象一样,也就是地址的复制还是值的复制的区别1.可变对象和非可变对象可变对象:一个对象在不改变其所指向的地址的前提下,可以修改其所指向的地址中的值。不可变对象是指,一个对象所指向的地址上值是不能修改的,如果你修改了这个对象的值,那么它指向的地址就改变了,相当于你把这个对象指向的值复制出来一份,然后做了修改后存到另一个地址上了,...
2020-04-03 18:11:17
407
原创 python小技巧
1. list(列表)数据列拆分成多行的方法现在有这样的一个dataframedf = pd.DataFrame({"A": [1,2,3,4], "B": [[1,2,3], ["a", "b"], [2,4,6], ["aaa", 00]]})print(df)Out[8]: A B0 1 [1, 2, 3]1 2 [a, b]2 3 ...
2020-03-26 21:42:11
221
原创 过拟合和欠拟合处理方法
过拟合和欠拟合处理方法1.过拟合和欠拟合过拟合是指模型对于数据拟合过当的情况,模型在训练集上的表现很好,但在测试集和新数据集上表现较差。而欠拟合指的是在训练和预测时表现都不好的情况。2.解决过拟合的方法(1)从数据入手,增加更多的训练数据,这是解决过拟合问题最有效的手段,一方面是直接增加数据,二是通过一定的规则来扩充训练数据,例如,在图像分类的问题中,可以通过图像的平移、旋转、缩放等方式来...
2020-03-26 19:07:26
860
原创 浅谈标签传播算法:LPA
标签传播算法:LPA1.半监督学习让学习器不依赖外界交互,自动的利用未标记样本来提升学习性能,这种就是半监督学习,主要用来处理现实中有标记数据少、未标记数据多的问题,要利用未标记的数据,必须要做一些将未标记样本所揭示的数据分布信息与类别标签相联系的假设。它基于三大假设:a)Smoothness平滑假设:相似的数据具有相同的label。b)Cluster聚类假设:处于同一个聚类下的数据具有相...
2020-03-26 15:54:21
1049
原创 Apriori算法:关联分析算法
Apriori算法Agrawal与Srikant于1994年提出,为布尔关联规则挖掘频繁项集的原创性算法,使用一种称为逐层搜索的迭代方法,其中k项集用于探索k+1项集。主要思想是找出存在于事务数据集中的最大的频繁项集,再利用得到的最大频繁项集和预先设定的最小置信度阈值生成强关联规则1. 重要概念(1)关联规则支持度和置信度项集A、B同时发生的概率称为关联规则的支持度Support(A−...
2020-03-25 01:52:46
1654
原创 类别不平衡问题处理方法
类别不平衡问题处理方法1.基础概念类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值,因为这样的学习算法不能预测出正样本。这里我们可以知道不均衡问题会导致样...
2020-03-24 18:09:23
2707
原创 WOE和IV理论及python实现
WOE和IV理论1.WOEWOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式,计算公式如下:其中,pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例,#yi是这个组中响应客户的数量,#ni是这个...
2020-03-23 16:24:11
1192
原创 卡方分箱--有监督分箱
1.分箱分箱操作就是将连续变量离散化2.分箱的优点1.离散化后的特征对异常数据不敏感2.离散化可以进行特征交叉,提升特征表达能力3.特征离散化后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险4.离散特征的增加和减少都很容易,易于模型的快速迭代3.分箱的常见方法1.无监督分箱:等频分箱,等距分箱和聚类分箱2.有监督分箱:best-ks分箱和卡方分箱4.卡方分箱基本思想...
2020-03-23 15:41:07
1072
原创 用python实现等额本息
Python实现等额本息1.等额本息等额本息下,每个月还款的本金+利息的总额是相等的,或者说,用户还款时只知道每个月还款额相等,并不关心还了多少本金和利息。这种还款方式同样适用于收入稳定的人群。假设每期本金设为P1,P2,P3…Pn;每个分期的天数为D1,D2,D3…Dn;每期本息总额为A,本金总额为Psum,日利率为R。根据等额本息的规则,可以得到如下公式:每一期次的本金和利息:A =...
2020-03-23 11:04:24
3345
原创 python实现GPS经纬度转换
经纬度地址相互转换使用百度接口进行经纬度转换(需申请百度API,获取AK,SK)1)地址转经纬度# -*- coding: utf-8 -*-from urllib.parse import quote, quote_plusfrom urllib.request import urlopenimport jsonimport hashlibdef getlnglat(ad...
2020-03-23 10:45:24
1707
原创 Python实现自动发送邮件
Python实现自动发送邮件由于工作中每天需要定时跑模型,结果文档需每天邮件发送给业务同学,所以学习了如何使用python进行自动发送邮件,并设置成定时任务。1.主要用到的包:smtplib,email,apscheduler2.SMTP简介:SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制...
2020-03-23 10:30:22
360
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人