- 博客(100)
- 收藏
- 关注
原创 金融风控项目-业务基础
通过对业务数据分析了解信贷业务状况数据集说明从开源数据改造而来,基本反映真实业务数据销售,客服可以忽略账单周期,放款日期账单金额-实收金额 = 未收金额应付日期为还款时间账期分成两种 60天和90天实际到账日为空白 说明没还钱通过对贷后业务数据的分析要分析出如下内容每个季度账单金额和坏账率(逾期90天以上)所有未收金额/所有账单金额未收金额 = 账单金额-实收金额每个季度60天账期 入催率,90天账单 入催率不同逾期天数的回款情况。
2025-02-12 23:19:13
886
原创 机器学习-线性回归
线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归。线性回归模型的目标:通过学习得到线性方程的这两个权值,如在y=kx+b中,得到k和b两个权值,并用这个方程解释变量和目标变量之间的关系。梯度下降的基本过程就和下山的场景很类似。首先,我们有一个可微分的函数。这个函数就代表着一座山。
2025-02-09 20:24:49
637
原创 机器学习-手写数字识别
数据文件手写数字识别.csv包含从 0 到 9 的手绘数字的灰度图像。● 每个图像高 28 像素,宽28 像素,共784个像素。● 每个像素取值范围[0,255],取值越大意味着该像素颜色越深● 数据集共785列。第一列为 “标签”,为该图片对应的手写数字。其余784列为该图像的像素值● 训练集中的特征名称均有pixel前缀,后面的数字([0,783])代表了像素的序号。data = pd.read_csv('data/手写数字识别.csv')
2025-01-23 10:46:21
361
原创 机器学习-数据集划分
每一折的数据都是从整个数据集中均匀划分的。随机交叉验证: Counter({0: 10, 1: 10, 2: 10})随机交叉验证: Counter({0: 10, 1: 10, 2: 10})随机交叉验证: Counter({0: 10, 1: 10, 2: 10})随机交叉验证: Counter({0: 10, 1: 10, 2: 10})随机交叉验证: Counter({0: 10, 1: 10, 2: 10})随机交叉验证: Counter({0: 10, 1: 10, 2: 10})
2025-01-22 22:00:39
1348
原创 机器学习-K近邻算法
鸢尾花数据集鸢尾花Iris Dataset数据集是机器学习领域经典数据集,鸢尾花数据集包含了150条鸢尾花信息,每50条取自三个鸢尾花中之一:Versicolour、Setosa和Virginica# 1. 准备数据集iris.data。
2025-01-22 17:55:48
433
原创 期望,标准差性质
这个还比较好理解,常数意味着确定(随机变量意味着不确定、随机)。而期望的意义之一就是把不确定转为确定,所以确定的期望就是自身。学过线性代数的就比较清楚,如果满足齐次性和可加性,那么数学期望。就是线性函数,线性代数中所有的结论都可以拿来使用。可加性,对于随机变量的函数。看作仅取一个值的随机变量。齐次性,对于任意常数。
2025-01-20 10:59:01
664
原创 似然函数取对数,为什么不会改变极值点
假设我们有一组观测数据 ( D = {x_1, x_2, \dots, x_n} ) 和参数 ( \theta ),似然函数 ( L(\theta) ) 描述的是给定参数 ( \theta ) 时,数据 ( D ) 出现的概率。极值点是指似然函数或对数似然函数的导数为零的点,也就是导数(梯度)为零的点。对数似然函数 ( \ell(\theta) ) 比原始的似然函数 ( L(\theta) ) 更易于计算,因为乘法变为了加法,且对数变换将概率密度函数的乘积转化为各个数据点的对数概率的求和。
2025-01-16 21:32:38
618
原创 独立同分布时,联合概率密度函数等于边缘概率密度函数乘积
独立同分布的性质保证了随机变量之间的独立性,进而使得它们的联合概率密度函数可以分解为每个变量的边缘概率密度的乘积。
2025-01-16 21:07:00
361
原创 机器学习-基本术语
数据集:由多个样本组成,包含了西瓜的各种信息。样本:数据集中的一条记录,表示一个具体的西瓜。属性:描述样本的不同特征(如色泽、根蒂、弹性)。特征:与属性同义,表示样本的描述维度。属性值:样本在特定属性上的实际取值(如青绿、蜷缩、较硬)。属性空间:属性的所有可能取值的集合(如色泽属性空间为{青绿, 乌黑})。样本空间:数据集中的所有可能样本的集合。输入空间:模型训练时的输入数据的所有可能值,通常是特征的组合。特征向量:将样本的特征转换为向量的形式,用于机器学习模型的输入。
2025-01-16 18:00:16
757
原创 机器学习-归一化
(Standardization)是将数据按比例缩放,使其具有特定的统计特征,通常是将数据的均值调整为0,标准差调整为1。标准化是一种常见的数据预处理技术,特别是在进行机器学习时,通常会使用标准化来确保各个特征(变量)的尺度一致,以避免某些特征对模型产生过大或过小的影响。
2025-01-15 21:17:23
1206
原创 机器学习-距离的度量方法
闵式距离的定义为:其中,( x = (x_1, x_2, \dots, x_n) ) 和 ( y = (y_1, y_2, \dots, y_n) ) 是 ( n ) 维空间中的两个点,( p ) 是一个正实数。当 ( p \to \infty ) 时,闵式距离变为切比雪夫距离的原因是:在极大的 ( p ) 下,较大的坐标差主导了距离的计算,而较小的坐标差对总和的贡献变得微不足道,从而使得闵式距离的计算结果转化为最大坐标差,即切比雪夫距离。
2025-01-15 21:05:48
671
原创 Pandas-RFM会员价值度模型
会员价值度用来评估用户的价值情况,是区分会员价值的重要模型和参考依据,也是衡量不同营销效果的关键指标之一。价值度模型一般基于交易行为产生,衡量的是有实体转化价值的行为。常用的价值度模型是RFMRFM模型是根据会员最近一次购买时间R(Recency)购买频率F(Frequency)购买金额M(Monetary)计算得出RFM得分通过这3个维度来评估客户的订单活跃价值,常用来做客户分群或价值区分RFM模型基于一个固定时间点来做模型分析,不同时间计算的的RFM结果可能不一样RFM。
2025-01-09 22:39:55
863
原创 Python数据可视化-Seaborn
Seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。Seaborn和Pandas的API配合的很好,使用DataFrame/Series的数据就可以绘图seaborn 通用的几个参数seaborn 调整图的大小。
2025-01-08 22:41:12
846
原创 Python数据可视化-Pandas
pandas库是Python数据分析的核心库它不仅可以加载和转换数据,还可以做更多的事情:它还可以可视化pandas绘图API简单易用,是pandas流行的重要原因之一。
2025-01-06 22:01:01
645
3
原创 随机变量的分布
文章目录一. 离散分布1. 伯努利分布2. 二项分布(n重伯努利)3. 泊松分布(二项分布的极限(n->∞))一. 离散分布1. 伯努利分布2. 二项分布(n重伯努利)3. 泊松分布(二项分布的极限(n->∞))
2025-01-06 15:46:52
163
原创 Python数据可视化-Matplotlib
还可以通过圆点的大小来区分变量的不同,但如果变量的大小区别不大,可能通过圆点大小来区分效果不是很好。二维平面可以用来展示两个变量的数据,如果是多变量,比如添加一个性别变量,可以通过不同的颜色来表示。每组数据的平均值、方差、相关性基本相同,但是当它们可视化后,就会发现每组数据的模式明显不同。使用seaborn 库的tips数据集,其中包含了某餐厅服务员收集的顾客付小费的相关数据。从数据的统计量看,变量X,Y,4个子数据集的平均值和标准差基本相同。补充:向画布添加子图-面向对象方式。
2025-01-05 18:21:23
820
原创 Python数据可视化-简介
数据可视化是指直观展现数据,它是数据处理过程的一部分。把数值绘制出来更方便比较。借助数据可视化,能更直观地理解数据,这是直接查看数据表做不到的数据可视化有助于揭示数据中隐藏的模式,数据分析时可以利用这些模式选择模型Matplotlib(功能强大,代码相对复杂)Matplotlib是Python编程语言的开源绘图库。它是Python可视化软件包中最突出的,使用最广泛的绘图工具。Matplotlib在执行各种任务方面非常高效。
2025-01-05 16:26:43
354
原创 Pandas-日期数据类型
使用date_range函数创建日期序列时,可以传入一个参数freq,默认情况下freq取值为D,表示日期范围内的值是逐日递增的。从上面的数据中可以看到,缺少2015年1月1日,2014年3月23日,如果想让日期连续,可以创建一个日期范围来为数据集重建索引。可以看到得到的数据是Timestamp类型,通过Timestamp可以获取年,月,日等部分。tesla股票数据中第一列为日期,在加载数据的时候,可以直接解析日期数据。可以看到有两列数据是日期时间类型,可以在导入数据的时候直接解析日期。
2025-01-05 00:35:29
931
原创 Pandas-数据透视表
数据透视表(Pivot Table)是一种交互式的表,可以进行某些计算,如求和与计数等。所进行的计算与数据跟数据透视表中的排列有关。之所以称为数据透视表,是因为可以动态地改变它们的版面布置,以便按照不同方式分析数据,也可以重新安排行号、列标和页字段。每一次改变版面布置时,数据透视表会立即按照新的布置重新计算数据。另外,如果原始数据发生更改,则可以更新数据透视表。在使用Excel做数据分析时,透视表是很常用的功能,Pandas也提供了透视表功能,对应的API为pivot_table。
2025-01-01 21:53:34
1254
1
原创 Pandas-数据分组
如果想在聚合的时候,使用非Pandas或其他库提供的计算,可以自定义函数然后在aggregate中调用它#计算平均值#获取数据条目数sum = 0调用自定义函数 df.groupby(‘year’).lifeExp.agg(my_mean)自定义函数中只有一个参数values,但传入该函数中的数据是一组值,需要对values进行迭代才能取出每一个值。
2025-01-01 19:49:09
708
原创 Pandas-apply自定义函数
Pandas提供了很多数据处理的API,但当提供的API不能满足需求的时候,需要自己编写数据处理函数, 这个时候可以使用apply函数apply函数可以接收一个自定义函数, 可以将DataFrame的行/列数据传递给自定义函数处理apply函数类似于编写一个for循环, 遍历行/列的每一个元素,但比使用for循环效率高很多。
2024-12-31 22:01:01
793
原创 Pandas-缺失数据处理
好多数据集都含缺失数据。缺失数据有多重表现形式数据库中,缺失数据表示为NULL在某些编程语言中用NA表示缺失值也可能是空字符串(’’)或数值在Pandas中使用NaN表示缺失值Pandas中的NaN值来自NumPy库,NumPy中缺失值有几种表示形式:NaN,NAN,nan,他们都一样缺失值和其它类型的数据不同,它毫无意义,NaN不等于0,也不等于空串,
2024-12-29 23:56:14
1112
原创 Pandas-数据组合
数据清理在动手进行数据分析工作之前,需要进行数据清理工作 每个观测值成一行 每个变量成一列 每种观测单元构成一张表格数据整理好之后,可能需要多张表格组合到一起才能进行某些问题的分析 一张表保存公司名称,另一张表保存股票价格 单个数据集也可能会分割成多个,比如时间序列数据,每个日期可能在一个单独的文件中连接介绍组合数据的一种方法是使用“连接”(concatenation)连接是指把某行或某列追加到数据中数据被分成了多份可以使用连接把数据拼接起来。
2024-12-29 23:07:19
902
原创 Pandas-DataFrame入门
Pandas是用于数据分析的开源Python库,可以实现数据加载,清洗,转换,统计处理,可视化等功能DataFrame和Series是Pandas最基本的两种数据结构DataFrame用来处理结构化数据(SQL数据表,Excel表格)Series用来处理单列数据,也可以把DataFrame看作由Series对象组成的字典或集合在我们使用Excel或者SQL进行数据处理时,Excel和SQL都提供了基本的统计计算功能当我们再次查看gapminder数据的时候,可以根据数据提出几个问题。
2024-12-29 19:56:40
962
原创 MySQL-数据库,数据表备份
备份MySQL数据库时,mysqldump是最常用的工具,但针对大规模数据、增量备份等需求,可以考虑其他工具如 mysqlhotcopy、mysqlpump 或第三方备份工具如Percona XtraBackup。
2024-12-27 11:12:38
1242
原创 Pandas-数据结构
掌握Series的常用属性及方法掌握DataFrame的常用属性及方法掌握更改Series和DataFrame的方法掌握如何导入导出数据。
2024-12-18 21:39:59
270
原创 Numpy
NumPy(Numerical Python)是Python数据分析必不可少的第三方库NumPy的出现一定程度上解决了Python运算性能不佳的问题,同时提供了更加精确的数据类型,使其具备了构造复杂数据类型的能力。本身是由C语言开发,是个很基础的扩展,NumPy被Python其它科学计算包作为基础包,因此理解np的数据类型对python数据分析十分重要。NumPy重在数值计算,主要用于多维数组(矩阵)处理的库。用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。
2024-12-15 18:01:18
544
原创 VSCode,Anaconda,JupyterNotebook
参考:https://zhuanlan.zhihu.com/p/630045725。ctrl+enter执行,按照提示,安装python环境。安装jupyter插件,写python代码。
2024-12-13 15:51:28
543
原创 MySQL-练习-数据汇总-窗口函数
MYSQL 8.0 之后,加入了窗口函数功能,简化了数据分析工作中查询语句的书写在没有窗口函数之前,我们需要通过定义临时变量和大量的子查询才能完成的工作,使用窗口函数实现起来更加简洁高效窗口函数是数据分析工作中必须掌握的工具,在SQL笔试中也是高频考点什么是窗口函数?为什么说窗口函数可以使复杂的查询变得更加简单方便?窗口函数是类似于可以返回聚合值的函数,例如SUM(),COUNT(),MAX()。但是窗口函数又与普通的聚合函数不同,它不会对结果进行分组,使得输出中的行数与输入中的行数相同。
2024-12-12 15:42:05
895
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人