- 博客(283)
- 收藏
- 关注
原创 机器学习-特征降维
用于训练的数据集特征对模型的性能有着极其重要的作用。如果训练数据中包含一些不重要的特征,可能导致模型的泛化性能不佳。某些特征的取值较为接近,其包含的信息较少我们希望特征独立存在,对预测产生影响,具有相关性的特征可能并不会给模型带来更多的信息,但是并不是说相关性完全无用。降维是指在某些限定条件下,降低特征个数, 我们接下来介绍集中特征降维的方法:低方差过滤法,相关系数法,PCA(主成分分析)降维法。
2026-01-10 15:43:35
316
原创 03-Matplotlib
是专门用于开发2D图表(包括3D图表)以渐进、交互式方式实现数据可视化x:要显示的刻度值y:要显示的刻度值# 增加以下两行代码# 构造x轴刻度标签x_ticks_label = ["11点{}分".format(i) for i in x]# 构造y轴刻度# 修改x,y轴坐标的刻度显示。
2026-01-07 22:19:24
643
原创 02-Numpy
Numpy(Numerical Python)是一个开源的Python科学计算库,用于快速处理任意维度的数组。Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务,使用Numpy比直接使用Python要简洁的多。Numpy使用ndarray对象来处理多维数组,该对象是一个快速而灵活的大数据容器。NumPy提供了一个N维数组类型ndarray,它描述了相同类型的“items”的集合。
2026-01-07 22:15:21
634
原创 01-Pandas
Python在数据处理上独步天下:代码灵活、开发快速;Pandas是Python的一个第三方包,也是商业和工程领域最流行的结构化数据工具集,用于数据清洗、处理以及分析Pandas在数据处理上具有独特的优势:底层是基于Numpy构建的,所以运行速度特别的快有专门的处理缺失数据的API强大而灵活的分组、聚合、转换功能数据量大到Excel严重卡顿,且又都是单机数据的时候,我们使用PandasPandas用于处理单机数据(小数据集(相对于大数据来说))
2026-01-06 21:14:23
522
原创 机器学习-集成学习
1.知道集成学习是什么?2.了解集成学习的分类3.理解bagging集成的思想4.理解boosting集成的思想Adaptive Boosting(自适应提升)基于 Boosting思想实现的一种集成学习算法核心思想是通过逐步提高那些被前一步分类错误的样本的权重来训练一个强分类器。弱分类器的性能比随机猜测强就行,即可构造出一个非常准确的强分类器。训练时,样本具有权重,并且在训练过程中动态调整。被分错的样本的样本会加大权重,算法更加关注难分的样本。(观察下图)(1)不同的训练集—>调整样本权重。
2026-01-06 20:54:48
971
原创 机器学习-决策树
学习目标1.理解决策树算法的基本思想2.知道构建决策树的步骤决策树是什么?决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果决策树的建立过程1.特征选择:选取有较强分类能力的特征。2.决策树生成:根据选择的特征生成决策树。3.决策树也易过拟合,采用剪枝的方法缓解过拟合。Cart模型是一种决策树模型,它即可以用于分类,也可以用于回归。分类和回归树模型采用不同的最优化策略。
2026-01-04 12:57:40
1072
原创 机器学习-KNN算法
1.理解K近邻算法的思想2.知道K值选择对结果影响3.知道K近邻算法分类流程4.知道K近邻算法回归流程1.掌握KNN算法分类API2.掌握KNN算法回归API数据文件 train.csv 和 test.csv 包含从 0 到 9 的手绘数字的灰度图像。每个图像高 28 像素,宽28 像素,共784个像素。每个像素取值范围[0,255],取值越大意味着该像素颜色越深训练数据集(train.csv)共785列。第一列为 “标签”,为该图片对应的手写数字。其余784列为该图像的像素值。
2026-01-04 09:00:00
874
原创 机器学习-线性回归
1.理解线性回归是什么?2.知道一元线性回归和多元线性回归的区别3.知道线性回归的应用场景数据介绍给定的这些特征,是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用,只需要使用这些特征。到后面量化很多特征需要我们自己去寻找。
2026-01-03 09:35:17
999
原创 机器学习-逻辑回归
1.知道逻辑回归的应用场景2.复习逻辑回归应用到的数学知识solver损失函数优化方法训练速度:liblinear 对小数据集场景训练速度更快,sag 和 saga 对大数据集更快一些。newton-cg、lbfgs、sag、saga 支持 L2 正则化或者没有正则化2liblinear 和 saga 支持 L1 正则化penalty:正则化的种类,l1 或者 l2C:正则化力度默认将类别数量少的当做正例流失用户指的使用过产品因为某些原因不再使用该产品。
2026-01-03 09:29:29
819
原创 05_数据组合
在动手进行数据分析工作之前,需要进行数据清理工作,数据清理的主要目标是每个观测值成一行每个变量成一列每种观测单元构成一张表格数据整理好之后,可能需要多张表格组合到一起才能进行某些问题的分析一张表保存公司名称,另一张表保存股票价格单个数据集也可能会分割成多个,比如时间序列数据,每个日期可能在一个单独的文件中。
2026-01-02 09:24:38
758
原创 04_Pandas数据分析入门
加载数据之后,可以通过计算最大值,最小值,平均值,分位数,方差等方式对数据的分布情况做基本了解。sort_values按照值排序 参数by 传入列名 参数 ascending(升序)通过info 方法了解不同字段的条目数量,数据类型,是否缺失及内存占用情况。房子的平均租房价格 (元/平米)找到租金最低,和租金最高的房子。找到最近新上的10套房源。
2026-01-01 21:56:11
1027
原创 03_Pandas_DataFrame入门
本节课程介绍了如何使用Pandas的DataFrame加载数据,并介绍了如何对数据进行简单的分组聚合。与SQL中的数据表类似,DataFrame中的每一列的数据类型必须相同,不同列的数据类型可以不同。② 如果我们按照大洲来计算,每年每个大洲的平均预期寿命,平均人口,平均GDP情况又如何?可视化在数据分析的每个步骤中都非常重要,在理解或清理数据时,可视化有助于识别数据中的趋势。可以通过DataFrame的columns属性获取DataFrame中的列名。每一年的平均人口和平均GDP是多少?
2025-12-31 09:24:01
684
原创 02_Pandas_数据结构
在Pandas中,Series是一维容器,Series表示DataFrame的每一列可以把DataFrame看作由Series对象组成的字典,其中key是列名,值是SeriesSeries和Python中的列表非常相似,但是它的每个元素的数据类型必须相同创建 Series 的最简单方法是传入一个Python列表,如果传入的数据类型不统一,最终的dtype通常是object上面的结果中,左边显示的0,1是Series的索引创建Series时,可以通过index参数 来指定行索引1.2 创
2025-12-31 09:20:09
544
原创 01_Python数据处理简介
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库是一个运行速度非常快的数学库,主要用于数组计算,包含:一个强大的N维数组对象 ndarray广播功能函数整合 C/C++/Fortran 代码的工具线性代数、傅里叶变换、随机数生成等功能。
2025-12-30 17:22:26
682
原创 01_NumPy讲义
NumPy(Numerical Python)是Python数据分析必不可少的第三方库,NumPy的出现一定程度上解决了Python运算性能不佳的问题,同时提供了更加精确的数据类型,使其具备了构造复杂数据类型的能力。本身是由C语言开发,是个很基础的扩展,NumPy被Python其它科学计算包作为基础包,因此理解np的数据类型对python数据分析十分重要。NumPy重在数值计算,主要用于多维数组(矩阵)处理的库。用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。
2025-12-30 16:52:19
759
原创 01_环境搭建
Anaconda 是最流行的数据分析平台,全球两千多万人在使用Anaconda 附带了一大批常用数据科学包condaPython150 多个科学包及其依赖项Anaconda 是在 conda(一个包管理器和环境管理器)上发展出来的Conda可以帮助你在计算机上安装和管理数据分析相关包Anaconda的仓库中包含了7000多个数据科学相关的开源库Anaconda 包含了虚拟环境管理工具通过虚拟环境可以使不同的Python或者开元库的版本同时存在。
2025-12-30 11:50:05
1060
原创 2_Linux系统高级
Linux操作系统是多任务多用户操作系统,每当我们使用用户名登录操作系统时,Linux都会对该用户进行认证、授权审计等操作。操作系统为了识别每个用户,会给每个用户定义一个ID,就是UID。为了方便用户管理,Linux允许把多个用户放入一个用户组;在Linux系统中,用户组也有一个ID,GID。在Linux操作系统中,root的权限是最高的,相当于windows的administrator,拥有最高权限,能执行任何命令和操作,而其他用户都是普通用户。
2025-12-29 09:30:07
1284
原创 01_Linux操作系统
计算机一般分为个人计算机(笔记、台式机)与 企业级服务器(1U、2U、机柜、塔式、刀片)两种形式。操作系统(Operating System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,是直接运行在“裸机”上的最基本的系统软件,任何其他软件都必须在操作系统的支持下才能运行。Linux创始人——林纳斯 · 托瓦兹Linux 诞生于1991年,作者上大学期间实现的Linux的特点:开源、免费、拥有最为庞大的源码贡献者Linux的吉祥物是企鹅(因为林纳斯小时候被企鹅咬过,印象深刻)目录作用。
2025-12-28 23:50:36
847
原创 Python简单爬虫实践案例
又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来. 就像一只虫子在一幢楼里不知疲倦地爬来爬去.你可以简单地想象每个爬虫都是你的「分身」。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样****其实就是利用了这种爬虫技术, 每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。
2025-12-28 09:43:11
1051
原创 Python高级语法与正则表达式
在实际开发过程中经常会有查找符合某些复杂规则的字符串的需要比如:邮箱、图片地址、手机号码等这时候想匹配或者查找符合某些规则的字符串就可以使用正则表达式了正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。模式:一种特定的字符串模式,这个模式是通过一些特殊的符号组成的。某种:也可以理解为是一种模糊匹配。
2025-12-26 09:11:25
941
原创 Python进程和线程
多任务是指在同一时间内执行多个任务。例如: 现在电脑安装的操作系统都是多任务操作系统,可以同时运行着多个软件。① 线程是依附在进程里面的,没有进程就没有线程。② 一个进程默认提供一条线程,进程可以创建多个线程。
2025-12-26 09:09:53
659
原创 计算机网络及TCP网络应用程序开发
网络就是将具有独立功能的多台计算机通过通信线路和通信设备连接起来,在网络管理软件及网络通信协议下,实现资源共享和信息传递的虚拟平台。思考一个问题,当我们在计算机中使用微信和你心中那个“她”聊天时,信息是如何精准的传递到她的计算机中的呢?答:是通过计算机的IP地址来实现的,IP地址是分配给网络设备上网使用的数字标签,它能够标识网络中唯一的一台设备,好比现实中每个人都有一个手机号。
2025-12-25 13:56:46
680
原创 HTML+CSS基础(了解)
HTML 的全称为:HyperText Mark-up Language, 指的是超文本标记语言。标记:就是标签,<标签名称> </标签名称>, 比如:等,标签大多数都是成对出现的。因为网页中还可以图片、视频、音频等内容(超越文本限制)它还可以在网页中跳转到另一个网页,与世界各地主机的网页链接(超链接文本)全拼是 Visual Studio Code (简称 VS Code) 是由微软研发的一款免费、开源的跨平台代码编辑器,目前是前端(网页)开发使用最多的一款软件开发工具。
2025-12-25 13:53:03
1090
原创 Python面向对象高级与学生管理系统案例
我们接下来来聊聊Python代码中的“继承”:类是用来描述现实世界中同一组事务的共有特性的抽象模型,但是类也有上下级和范围之分,比如:生物 => 动物 => 哺乳动物 => 灵长型动物 => 人类 => 黄种人从哲学上说,就是共性与个性之间的关系,比如:白马和马!所以,我们在OOP代码中,也一样要体现出类与类之间的共性与个性关系,这里就需要通过类的继承来体现。简单来说,如果一个类A使用了另一个类B的成员(属性和方法),我们就可以说A类继承了B类,同时这也体现了OOP中代码重用的特性!
2025-12-24 11:00:00
707
原创 Python闭包装饰器
在不改变现有函数源代码以及函数调用方式的前提下,实现给函数增加额外的功能。装饰器的本质就是一个闭包函数(三步:① 有嵌套 ② 有引用 ③ 有返回)有返回代表外部函数返回内部函数的内存地址(内部函数的名称),不带'''装饰器:本质就是一个闭包 ① 有嵌套 ② 有引用 ③ 有返回'''# 开发登录验证功能print('验证登录')# 执行原有函数fn()@checkprint('发表评论')comment()
2025-12-24 08:57:34
1797
1
原创 Python飞机大战
经典飞机大战》是腾讯交流软件微信5.0版本在2013年8月推出的软件内置经典小游戏, 一经推出就在当时火爆整个朋友圈, 成为一个现象级的国民小游戏. 那么今天我们就一起使用pygame这个模块来实现一下这个小游戏。pygame 是一组用来开发游戏软件的 Python 程序模块,基于 SDL 库的基础上开发。允许你在 Python 程序中创建功能丰富的游戏和多媒体程序,pygame 是一个高可移植性的模块可以支持多个操作系统。
2025-12-23 10:00:00
1801
原创 Python面向对象基础
思考:上面的整个报名过程,都有哪些动词?提出、提供、缴纳、获得、分配、增加有动词就一定有实现这个动作的实体!所谓的模拟现实世界,就是使计算机的编程语言在解决相关业务逻辑的时候,与真实的业务逻辑的发生保持一致,需要使任何一个动作的发生都存在一个支配给该动作的一个实体(主体),因为在现实世界中,任何一个功能的实现都可以看做是一个一个的实体在发挥其各自的“功能”(能力)并在内部进行协调有序的调用过程!属性就是实体固有的某些特征特性信息,在面向对象的术语中,属性就是以前的变量。比如。
2025-12-23 10:00:00
1075
原创 Python文件操作与面向对象
当检测到一个错误时,解释器就无法继续执行了,反而出现了一些错误的提示,这就是所谓的"异常"。在Python中,抛出自定义异常的语法为raise 异常类对象。需求:密码长度不足,则报异常(用户输入密码,如果输入的长度不足6位,则报错,即抛出自定义异常,并捕获该异常)。
2025-12-22 11:00:00
1625
原创 Python模块与包
在有些情况下,如导入的模块名称过长,建议使用as关键字对其重命名操作,以后在调用这个模块时,我们就可以使用别名进行操作。# 调用方式在Python中,如果给模块定义别名,命名规则建议使用大驼峰。from 模块 import 功能名 as 功能名别名# 调用方式sl(10)在Python中,模块一共可以分为两大类:内置系统模块 和 自定义模块模块的本质:在Python中,模块的本质就是一个Python的独立文件(后缀名.py),里面可以包含全局变量、函数以及类。
2025-12-22 10:00:00
1598
原创 Python中的函数
所谓的函数就是一个被命名的独立的、完成特定功能的代码段(一段连续的代码),并可能给调用它的程序一个返回值。被命名的:在Python中,函数大多数是有名函数(普通函数)。当然Python中也存在没有名字的函数叫做匿名函数。独立的、完成特定功能的代码段:在实际项目开发中,定义函数前一定要先思考一下,这个函数是为了完成某个操作或某个功能而定义的。(函数的功能一定要专一)返回值:很多函数在执行完毕后,会通过return关键字返回一个结果给调用它的位置。
2025-12-21 10:00:00
690
原创 Python函数进阶
本文总结了Python编程中的常见问题和核心概念。主要内容包括:1)字符串格式化输出与百分号处理;2)字符串切片操作;3)字典定义及键值处理;4)可变参数函数定义。重点讲解了变量引用机制、可变与不可变数据类型的区别及其在函数中的应用,并通过斐波那契数列案例介绍了递推算法与递归算法的实现原理和使用方法。文章涵盖了Python基础语法、内存管理以及算法思想等关键知识点。
2025-12-21 10:00:00
1127
原创 Python数据序列(容器)
字符串是 Python 中最常用的数据类型。我们一般使用引号来创建字符串。创建字符串很简单,只要为变量分配一个值即可。案例1:使用单引号或双引号定义字符串变量案例2:使用3个引号定义字符串变量'''"""注意:三引号形式的字符串支持换行操作案例3:思考如何使用字符串定义"I’m Tom"使用单引号情况运行结果:出现以上问题的主要原因在于,以上字符串的定义代码出现了(syntax)语法错误。
2025-12-20 10:00:00
1038
原创 Python中的数据序列
集合(set)是一个无序的不重复元素序列。① 天生去重② 无序在Python中,我们可以使用一对花括号{}或者set()方法来定义集合,但是如果你定义的集合是一个空集合,则只能使用set()方法。# 定义一个集合print(s1)# 定义一个集合:集合中存在相同的数据s2 = {'刘备', '曹操', '孙权', '曹操'}print(s2)# 定义空集合s3 = {}s4 = set()所谓的公共方法就是支持大部分数据序列。
2025-12-20 10:00:00
843
原创 Python中的循环结构
现实生活中,也有很多循环的应用场景:(1)食堂阿姨打菜:接过顾客的餐盘→询问菜品→打菜→递回餐盘,重复以上过程,直到所有顾客的菜都打完了(2)快递员送快递:查看送件地址→赶往目的地→电话告知收件人→收件人签收→交快递件,重复以上过程,直到所有需要送的快递都处理完了。(3)公交司机……(4)作业流程…………有条件地重复地做一件事,每一次做的事情不同但类似。程序是为了解决实际问题的,实际问题中存在着重复动作,那么程序中也应该有相应的描述,这就是循环。
2025-12-19 15:31:02
697
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅