- 博客(17)
- 收藏
- 关注
原创 TF-IDF算法
TF-IDF的计算是将词频(TF)和逆文档频率(IDF)相结合,以确定词语在文档中的整体重要性。TF-IDF(词频-逆文档频率)是一种用于衡量文本中词语重要性的方法,特别适用于信息检索和文本挖掘任务。词频是指某个词语在文档中出现的频率。计算出的TF值表示了词语在单个文档中的相对重要性,值越大表示词语在文档中越重要。逆文档频率度量了一个词语在整个文档集合中的重要性。计算出的IDF值反映了。
2025-07-12 21:26:51
219
原创 集成学习基础应用实践
1.知道集成学习是什么?2.了解集成学习的分类3.理解bagging集成的思想4.理解boosting集成的思想Adaptive Boosting(自适应提升)基于 Boosting思想实现的一种集成学习算法核心思想是通过逐步提高那些被前一步分类错误的样本的权重来训练一个强分类器。弱分类器的性能比随机猜测强就行,即可构造出一个非常准确的强分类器。训练时,样本具有权重,并且在训练过程中动态调整。被分错的样本的样本会加大权重,算法更加关注难分的样本。(观察下图)(1)不同的训练集--->调整样本权重。
2025-04-17 13:19:23
875
原创 决策树简介
决策树是什么?决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果决策树的建立过程1.特征选择:选取有较强分类能力的特征。2.决策树生成:根据选择的特征生成决策树。3.决策树也易过拟合,采用剪枝的方法缓解过拟合。1.理解信息熵的意义2.理解信息增益的作用3.知道ID3树的构建流程Cart模型是一种决策树模型,它即可以用于分类,也可以用于回归。分类和回归树模型采用不同的最优化策略。
2025-04-15 20:27:31
2591
原创 机器学习数据特征处理,鸢尾花案例,数字识别案例
数据文件 train.csv 和 test.csv 包含从 0 到 9 的手绘数字的灰度图像。每个图像高 28 像素,宽28 像素,共784个像素。每个像素取值范围[0,255],取值越大意味着该像素颜色越深训练数据集(train.csv)共785列。第一列为 "标签",为该图片对应的手写数字。其余784列为该图像的像素值训练集中的特征名称均有pixel前缀,后面的数字([0,783])代表了像素的序号。# 1. 显示图片.# 1.1 加载数据.
2025-04-12 17:27:43
1195
2
原创 机器学习的建模流程scikit-learn安装
奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取。【理解】数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。原始数据会发生变化,不需要了解数据本身是什么含义,它保留了最主要的信息。特征对模型产生影响;泛化:模型在新数据集(非训练数据)上的表现好坏的能力。欠拟合:模型在训练集上表现很差、在测试集表现也很差。过拟合:模型在训练集上表现很好、在测试集表现很差。原因:模型太过于复杂、数据不纯、训练数据太少。从数据集角度来看: 一列一列的数据为特征。
2025-04-10 15:42:20
854
原创 机器学习概述
学习目标:1.知道AL,ML,DL是什么?2.了解AL、ML、DL之间的关系3.知道自动学习和规则编程的区别Artificial Intelligence 人工智能AI is the field that studies the synthesis and analysis of computational agents that act intelligentlyAI is to use computers to analog and instead of human brain释义 - 仿智; 像人一样
2025-04-08 23:08:43
1167
原创 Pandas安装与基础应用
Python在数据处理上独步天下:代码灵活、开发快速;尤其是Python的Pandas包,无论是在数据分析领域、还是大数据开发场景中都具有显著的优势:Pandas是Python的一个第三方包,也是商业和工程领域最流行的结构化数据工具集,用于数据清洗、处理以及分析Pandas在数据处理上具有独特的优势:底层是基于Numpy构建的,所以运行速度特别的快有专门的处理缺失数据的API强大而灵活的分组、聚合、转换功能适用场景:数据量大到Excel严重卡顿,且又都是单机数据的时候,我们使用Pandas。
2025-04-07 15:23:55
1251
原创 pandas框架概述和安装
Python在数据处理上独步天下:代码灵活、开发快速;尤其是Python的Pandas包,无论是在数据分析领域、还是大数据开发场景中都具有显著的优势:Pandas是Python的一个第三方包,也是商业和工程领域最流行的结构化数据工具集,用于数据清洗、处理以及分析Pandas在数据处理上具有独特的优势:底层是基于Numpy构建的,所以运行速度特别的快有专门的处理缺失数据的API强大而灵活的分组、聚合、转换功能适用场景:数据量大到Excel严重卡顿,且又都是单机数据的时候,我们使用Pandas。
2025-03-31 08:37:54
588
原创 安装Vmware,并连接shell配置ollama和anaconda、mysql
设置用户密码永不过期.Ollama在Linux上也提供了简便的安装命令,但是过程中需要下载400M左右的数据,比较慢,因此课堂上采用第一种方式安装,但在工作中一般采用下面命令进行安装, 命令如下。export PATH=/root/anaconda3/bin:$PATH # 必须是安装Anaconda3的路径, 添加后保存退出.
2025-03-30 20:36:43
1165
原创 MySQL环境搭建并使用DataGrip连接MySQL
图解特点SQL语句可以写成一行, 也可以写成多行.如果SQL语句写了多行, 为了阅读方便, 可以增加缩进, 空格等, 方便查看格式.SQL不区分大小写, 建议关键字大写, 其它小写.SQL语句中注释的写法./*多行注释*/#单行注释-- 单行注释 # --后边必须跟空格./*多行注释*/# 单行注释, 为了阅读方便, 可以多加1个空格(也可以不加)-- 单行注释, --后边必须加空格.常用的数据类型。
2025-03-27 21:08:50
2692
原创 私有化大模型部署本_基于ollama+ChatBox实现chatBot
Ollama:是一款旨在简化大型语言模型本地部署和运行过程的开源软件。中文名:羊驼OllamaOllama提供了一个轻量级、易于扩展的框架,让开发者能够在本地机器上轻松构建和管理LLMs(大型语言模型)。通过Ollama,开发者可以访问和运行一系列预构建的模型,或者导入和定制自己的模型,无需关注复杂的底层实现细节。Ollama的主要功能包括快速部署和运行各种大语言模型,如Llama 2、Code Llama等。
2025-03-26 09:55:46
2581
原创 排序算法和二叉树思路及代码
图解代码框架"""案例: 自定义代码, 模拟二叉树.树结构解释:概述:它属于数据结构的一种, 属于 非线性结构(N个前驱, N个后继)特点:1. 有且只能有1个根节点.2. 每个节点都可以有1个父节点 及 任意个子节点, 根节点除外(没有父节点).3. 没有子节点的节点, 称之为: 叶子节点.常用分类:无序树:有序树:二叉树:完全二叉树: 最后一层不满, 其它都是满的.满二叉树: 都是满的.非完全二叉树: 中间有断的.平衡二叉树: 任意节点的两个子树的高度差不超过1。
2025-03-25 09:02:19
443
原创 数据结构和算法简介
数据结构算法特性如何衡量算法的优劣最优和最坏时间复杂度常见的时间复杂度如下常见的空间复杂度如下分类线性结构非线性结构图解顺序表存储方式详解一体式存储解释顺序表有 数据区 和 信息区两部分组成.特点数据区 和 信息区在一起的 -> 一体式存储(扩容时只能整体搬迁)数据取货 和 信息区分开存储的 -> 分离式存储(可以直接让信息区指向新的 数据区即可, 不用整体搬迁).顺序表扩容策略概述组成图解
2025-03-24 09:34:51
954
原创 面向对象基础
三大特征封装继承多态封装简介概述就是隐藏对象的属性和实现细节, 仅对外提供公共的访问方式.举例电脑, 手机, 函数, 类 = 属性 + 行为好处提高代码的安全性. (私有化)提高代码的复用性. (函数)继承概述子类继承父类的成员, 例如: 属性, 行为等. 大白话: 子承父业.好处提高代码的复用性.多态概述大白话: 同一个事物在不同时刻表现出来的不同状态, 形态.专业版: 同1个函数, 接收不同的对象, 有不同的效果。案例一"""案例: self关键字介绍.
2025-03-21 20:25:55
577
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅