- 博客(24)
- 收藏
- 关注
原创 统计学---2.描述性统计-参数估计
区间估计指定的区间,我们称为置信区间,而区间估计指定的概率,我们称为置信度。我们为什么要进⾏推断呢?也就是说,总体的参数往往是未知的,我们为了获取总体的参数,就需要通过样本统计量来估计总体参数。通常,我们以2倍标准差作为判定依据,则以样本均值为中心,正负2倍标准差构成的区间,就是置信区间。总体,是包含我们要研究的所有数据,总体中的某个数据,就是个体。但是,点估计也并⾮完全⼀⽆是处,因为样本来⾃于总体,样本还是能够体现出总体的⼀些特征的。之前,我们提到过正态分布,我们知道,在正态分布中,均值,中位数与众数。
2025-11-01 19:25:33
801
原创 统计学---1.描述性统计分析
峰度:描述数据分布陡缓程度的统计量,可以将峰度理解为数据分布的高矮程度,其计算公式为四阶中心距与标准差四次方的比值。偏度:统计数据分布斜率方向和程度的度量,是统计数据分布非对称程度的数字特征,其计算公式为三阶中心距与标准差三次方的比值。分位数:分位数,通过n-1个分位将数据划分为n个区间,使得每个区间的数值个数相等(或近似相等)。中位数:将一组数据升序排列,位于该组数据最中间位置的值,就是中位数。极差:指一组数据中,最大值与最小值之差。
2025-10-30 16:49:18
682
原创 Python机器学习---7.实战案例:幸福指数分析
标准化处理:如果通过身⾼体重去分析⼀个正常身材的⼈的胖瘦,假设身⾼的衡量标准为“⽶”,⽽体重的衡量标准为“⽄”,由于⼆者的数量级的差异,会导致判断胖瘦的标准发⽣改变,导致体重⼀项具有了更⼤的影响⼒ ,但是根据经验可以知道,⼀个正常身材⼈的胖瘦是由身⾼和体重共同决定的,对于这样的数据⽽⾔,给计算机使⽤的数据就要进⾏数据标准化。例:现在有性别:{男,⼥,其他}。通常获取数据通常都是不完整的,缺失值、零值、异常值等情况的出现导致数据的质量⼤打折扣,⽽数据预处理技术就是为了让数据具有更⾼的可⽤性⽽产⽣的。
2025-10-27 11:29:34
663
原创 Python机器学习---6.集成学习与随机森林
生成元特征:用训练好的基础模型对 Train2 和测试集进行预测,得到 “元特征矩阵”——Train2 对应的元特征作为 “元模型的训练特征”,测试集对应的元特征作为 “元模型的测试特征”。学习法(又称 Stacking,堆叠法)是高精度需求场景的进阶结合策略,核心逻辑是 “将基础模型的输出作为‘新特征(元特征)’,训练一个‘元模型(Meta-Model)’来学习如何组合这些元特征,最终输出预测结果”,本质是 “用模型学习‘结合规则’”。:对所有基础模型的预测结果取算术平均值,即 “平等对待每个模型”。
2025-10-25 16:03:48
1445
原创 Python机器学习---5.决策树
在决策树的构建过程中,信息熵被⽤来作为划分属性的依据,通过计算不同属性划分后的信息熵来选择最优划分属性,以使得整个决策树的熵值最⼩,从⽽使得整个决策系统的确定性最⾼。回归任务的标签( 值)是连续的,故之前以分类为基础的不纯度度量标准(信息熵,基尼系数与错误率)都不适⽤于回归树,因此,在回归树中,⾃然也就没有信息增益,信息增益率或基尼增益等概念了。决策树学习采⽤的是⾃顶向下的递归⽅法,其基本思想是以信息熵为度量构造⼀棵熵值,下降最快的树,到叶⼦节点处的熵值为零,此时每个叶节点中的实例都属于同⼀类。
2025-10-23 19:03:05
821
原创 Python机器学习---4.特征工程
这种变换通常⽤于线性回归、逻辑回归、⽀持向量机(SVM)等模型,特别是当原始特征与⽬标之间存在复杂的⾮线性关系时,多项式特征变换可以提⾼模型的性能。统计填充:对于缺失值的属性,尤其是数值类型的属性,根据所有样本关于这维属性的统计值对其进⾏填充,如使⽤平均数、中位数、众数、最⼤值、最⼩值等,具体选择哪种统计值需要具体问题具体分析。如果你认为某些特征具有⾼次项的影响,例如 x^2, x^3, 等等,你可以使⽤多项式特征变换来引⼊这些⾼次项,以更好地描述数据的复杂性。常⻅的缩放⽅法包括标准化和归⼀化。
2025-10-21 13:26:59
1142
原创 Python机器学习---3.分类模型评估
它展示了模型在不同类别上的分类结果,包括真正例(True Positive,TP)、假正例(False Positive,FP)、真负例(True Negative,TN)和假负例(FalseNegative,FN)。选择哪些指标取决于具体问题的要求和关注点。当不同类别的样本数量不平衡时,例如正类别样本远远少于负类别样本,通过调整类别权重或使⽤合适的评估指标(如召回率)可以更好地适应不平衡数据。分类模型的评估结果可以帮助解释模型的预测,了解模型在不同情况下的表现,以及哪些特征对于模型的决策起到关键作⽤。
2025-10-19 21:32:53
1122
原创 Python机器学习---2.算法:逻辑回归
在最简单的情况下,有两种结果,称为二项分类,例如预测肿瘤是恶性的还是良性的。对于逻辑回归,模型的前⾯与线性回归类似,不过, z的值是⼀个连续的值,取值范围为 (-∞,∞),我们可以将阈值设置为中间的位置,也就是 0,当 z>0时,模型将样本判定为⼀个类别(正例),当 z<=0时,模型将样本判定为另外⼀个类别(负例)。尽管它的名称中包含"回归"⼀词,但它实际上是⼀种分类算法,⽤于将输⼊数据分为两个或多个类别。其中:sigmoid(z) 是 Sigmoid 函数的输出,它表示在输⼊z的情况下,输出为1的概率。
2025-10-18 19:07:16
651
原创 Python机器学习---1.数据类型和算法:线性回归
R^2分数:R^2为决定系数,⽤来表示模型拟合性的分值,值越⾼表示模型拟合性越好,在训练集中,R^2的取值范围为[0,1]。R^2的计算公式为1减去RSS与TSS的商。从空间的⻆度来看,就是要让函数的直线(⾯),尽可能靠近空间中所有的数据点(点到直线的平⾏于y轴的距离之和最短)。MSE可以评价数据的变化程度,MSE的值越⼩,说明预测模型描述实验数据具有更好的精确度。RMSE均⽅根误差:RMSE (Root Mean Squared Error),平均平⽅误差的平⽅根,即在MSE的基础上,取平⽅根。
2025-10-18 10:24:50
1163
原创 Python---15.NumPy
而在Python生态系 统中,NumPy库扮演着重要的角色,它提供了丰富的功能和高效的数据结构,使得机器学习任务更加便捷和高效。数组在数据科学中非常常用,因为速度和资源非常重要。NumPy 是一个 Python 库,部分用 Python 编写,但需要快速计算的大部分部分是用 C 或 C++ 编写的。特点:在 Python 中,我们有列表可以充当数组,但处理速度很慢。NumPy 旨在提供一个比传统 Python 列表快 50 倍的数组对象。NumPy 中的数组对象称为。数组的运算:常用的运算,在。
2025-09-26 11:09:58
418
原创 Python---14.Python数据存储EXCEl和MySQL
python存储数据可以存入到表格中,有很多的方式可以操作excel,例如。等,下面我展示pandas的操作。
2025-09-26 10:16:53
410
原创 Python---13.web自动化工具selenium
⻚⾯弹窗:有的时候还会遇到弹窗的问题, 主要有两种⼀种是浏览器弹窗(alert/prompt),⼀种是⾃定义弹窗 ⾃定义弹窗,就是⼀个⾃定义的div层,是隐藏⻚⾯中的,当触发了这个弹窗后,他就显⽰出来,这种⽅式我们通过正 常的定位⽅式是可以定位到的。窗⼝切换:⽤selenium操作浏览器如果需要在打开新的⻚⾯,这个时候会有问题,因为我们⽤selenium操作的是第⼀个打开的窗⼝,所以新打开的⻚⾯我们是⽆法去操作的,所以我们要⽤到切换窗⼝:即handle切换的⽅法。我们可以选择最合适的⽅法去查找元素。
2025-09-21 15:08:57
1130
原创 Python---12.数据解析之XPath
是一种用于在XML或HTML文档中定位元素的语言。XPath使用路径表达式来选取节点或节点集。在python中,可以使用lxml库来解析。XPath解析,只适用于数据在网页源码(document请求)中;如果数据是json格式,或网页源码中没有数据,则无法使用XPath。/ : 从根节点开始选择。//:选择匹配选择的任何位置的节点。.. : 当前节点的父节点。. : 选择当前节点。
2025-09-17 18:30:07
480
原创 Python---11.JSONPath库
在 Python 中,JSONPath 库主要用于解析和查询 JSON 数据,提供了类似 XPath 在 XML 中的功能。最常用且维护活跃的库是。方法:在 JSON 数据中执行查询,返回值是匹配结果列表。,它支持完整的 JSONPath 语法,并提供了灵活的 API。安装方式:pip install jsonpath-ng -i。支持完整的 JSONPath 语法。:匹配值在原始 JSON 中的路径,获取第 1 和第 3 个元素。提供清晰的 API 接口。=~ /正则表达式/
2025-09-15 16:02:57
692
原创 Python---10.认识爬虫与操作
HTTPS:(全称:Hyper Text Transfer Protocol over Secure Socket Layer 或 Hypertext Transfer Protocol Secure,超文本传输安全协议),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。HTTPS协议是基于TCP/IP协议的,而HTTPS是在HTTP协议的基础之上,再加了一层SSL/TLS协议,数据在传输过程中是加密的。更加专业和全面对的定义是:网络爬虫是伪装成客户端与服务端进行数据交互的程序。
2025-09-11 12:00:38
1768
原创 Python---9.异常处理、包管理器和正则表达式
正则表达式,或简称为正则,是用来描述字符模式的字符序列。移除包:pip uninstall camelcase,卸载名为“camelcase”的包。命令列出系统上安装的所有包。也可以输入pip freeze > requirements.txt,以TXT文件导出自己的安装的包名。贪婪和非贪婪:正则默认都是用贪婪模式去匹配数据的,就是尽可能多的匹配符合要求的数据,在非贪婪模式下,始终找最短匹配。当发生错误时,或者我们称之为异常,Python 通常会停止并生成错误消息。PIP 是 Python 包的包管理器,
2025-09-09 20:25:52
1150
原创 Python---8.函数的进阶&文件的处理
(Context Manager)则是一种优雅管理资源(如文件、网络连接等)的机制,尤其在文件处理中应用广泛。语句与文件操作的结合是最典型的应用,它会自动处理文件的关闭,即使中间发生错误也能保证资源释放。一个程序的所有的变量并不是在哪个位置都可以访问的。变量的作用域决定了在哪一部分程序你可以访问哪个特定的变量名。在 Python 中,文件操作是常见的 I/O 任务,而。修改全局变量:全局变量不能直接在函数内部修改。修改局部变量:如果要修改局部变量,要使用关键字。)是指在程序中,变量、函数和对象的可访问范。
2025-09-07 11:40:51
1148
原创 Python---7.函数
python自定义函数中有两种不定长参数,第一种是*XXX,通常写成*args,在传入额外的参数时可以不用指明参数名,直接传入参数值即可。是已经写好的一些函数,他们美观且强大,我们可以打印dir(__builtins__),查看有哪些内置函数,比如我们常用的。可以是任意类型,一个函数只有一个return,函数遇到return之后就结束了,后面还有其他的代码也不会去执行。函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段。一个函数只给了函数一个名称,指定了函数里包含的参数和代码块结构。
2025-09-04 21:25:21
462
原创 Python---6.循环
对象,while循环的循环条件是自定义的,for循环无法定义循环条件,for循环是一种。continue:在语句块执⾏过程中终⽌当前循环,跳出该次循环,执⾏下⼀次循环。⼀般编程语⾔都有循环语句,计算机和⼈类不同,计算机可以⼀直重复做一个事情。所以这时候需要⽤到循环语句,循环语句允许我们执⾏⼀个语句或语句组多次。这⾥⼜有⼀个问题了,如果我想让他运⾏了⼀百次之后停⽌,那该怎么做呢?break:在语句块执⾏过程中终⽌循环,并且跳出整个循环。是空语句,是为了保持程序结构的完整性。起始值,结束值,步长都必须是整数。
2025-09-03 11:29:16
499
原创 Python---5.控制流程
多分支流程,在多分支语句中,条件按顺序依次检查,一旦有条件为真,则执行对应的代码块,然后退出整个分支。如果所有条件都为假,则执行else 语句块中的代码。单分支语句只有一种条件,如果条件为真,则执行相应的代码块;双分支语句有两种条件,分别是条件为真和条件为假时执行的不同代码块。嵌套判断,嵌套判断就是条件里面嵌套条件;作用,控制流程能够实现⾮常复杂的代码逻辑,它可以实现更加智能的功能。代码的执行顺序,从上往下执行,这就是顺序结构,没有其他的逻辑干扰。多重判断,如果有多个条件并列,则可以使用逻辑运算符连接。
2025-08-30 21:43:06
454
原创 Python---4.散列类型与操作方法
使用“{key:value}”定义字典,大括号内输入键值对{key:value}的形式的值,也可以用dict()的方法定义字典。使用“{value}”定义集合,大括号内要写入内容,或者使用set()的方法来定义集合。字典是散列类型中最常用的类型,字典的结构是以键值对的形式,key:value。删除一个元素,查询再删,集合内无法传值进行删除元素。:删除集合中的指定数据,如果数据不存在则报错。删除并返回指定key的value值。查找全部的键和值,返回元组类型。特点唯一性,无序性,确定性。
2025-08-29 16:25:47
745
原创 Python---3.格式化输出&运算符
%d等,%f:填充小数类型的数据,可以写%.2f,代表保留两位小数(四舍五入)。当我们使用了占位符后,占位符的数量于传递的值的数量要一致,不然会报错。or只有当左右两个条件都不成立的时候会返回False,如果有一个条件成立就会返回True。中,某些符号有特殊的含义,这样的符号称之为转义字符。format()方法:以{}为占位符,也可以写{:.2f},保留两位小数(四舍五入)。and的左右两个条件都满足时就返回True,否则返回False。,否则条件果为假(False)。,否则条件结果为(False)。
2025-08-27 11:45:17
812
原创 Python---2.类型的转换&序列类型的操作方法
extend(): 在列表结尾追加数据,只能添加一个元素,如果数据是⼀个序列,则将这个序列的数据逐⼀添加到列表,如果是字符串,会将字符串逐一拆分添加到列表。根据元组的特性是无法被修改的,你希望你的数据不被修改,则可以定义元组保存你的数据,如果需要修改、增加、删除的话,要将元组转换类型。字符串实际也是不可变类型,在我们每次对字符串进行操作时,是新建的一个字符串,并不是在原数据上修改。上面的索引取值取是取序列中的单个元素,如果想要获取序列的某一段元素,则需要使用切片。),起始索引可以取到,结束索引取不到(
2025-08-25 14:26:40
913
2
原创 Python---1.认识数据类型和变量
在内存当中,为了更快速的查找或使⽤这个数据,通常在定义完成之后,定义⼀个名称,这个名称就是变量名。元组(tuple):描述符号:小括号(),一般用来存储有序的数据,一旦创建就无法被修改。在Python内我们为了应用不同的场景,将数据类型分为了整数类型和序列类型。在使用变量前,我们要先定义变量才能去使用变量。在python中,我们给变量进行赋值是通过等于号“=”进行赋值操作。一般我们在编写代码的时候,会给代码加上对应的注解,需要注意的是,程序在运行的时候并不会执行当中的。来告诉别人,我们写的。
2025-08-19 20:53:34
461
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅