- 博客(212)
- 收藏
- 关注
原创 机器学习——集成学习框架(GBDT、XGBoost、LightGBM、CatBoost)、调参方法
使得模型效果更好,那么我怎么更好的去寻找到满足前提条件中最好的值(即这个前提条件是最优的),此时寻找的方法就可以使用高斯过程,找到这个最好的前提条件值,此时就只需要对另外一个参数2做考虑即可,迭代参数2的范围,找到模型性能最好的那组对应的超参数组合。幸运的是,目前这个好理解但实现复杂的方法已经被封装在。其高斯过程的核心是对已有的数据点预测区域进行函数建模,求其不确定性和概率分布,对其中概率较大的区间的进行迭代,使得模型的损失达到最低时对应的超参数组合选择,但是这种方式比较消耗计算资源。
2025-03-27 20:52:58
1406
原创 机器学习——Bagging、随机森林
其将训练得到的大量决策树进行组合得到随机森林,由于决策树分为分类决策树和回归决策树。相比于Boosting的集成学习框架,时,其大量分类决策树可以采用结果。得到综合后的分类结果;时,其大量回归决策树可以采用。的方式得到综合后的回归结果。其Bagging由于其。在机器学习领域大受应用。
2025-03-27 00:15:22
226
原创 机器学习——CatBoost、目标变量统计、排序提升算法
类别特征在结构化数据集中非常常见,如性别(男、女)、学历(本科、硕士、博士)等,对于这类数据,。除了这种编码方式外,。除了编码和one-hot编码外,另外一种方式则是。具体例子如用户ID这一类别特征,可以使用历史点击率(目标变量)的均值代替原始ID值,这种方法的适用场景为存在明显类别分布差异的数据,是的其通过目标变量的计算均值能尽可能的将其类别特征区分开来。
2025-03-26 23:32:06
414
原创 机器学习——LightGBM
(如原特征A的bin范围是0-10,特征B的bin范围为11-20);)是对XGBoost进行改进的模型版本,其。由于XGBoost的复杂度是由于。对XGBoost优化主要就从。由于XGBoost通过对。这个单边梯度抽样是分为对。中,许多特征是互斥的(如。其涉及的优化方面涉及。
2025-03-25 20:52:27
879
原创 机器学习——XGBoost
树结点-》CART决策树(分类树/回归树)-》GBDT(基本超参数-》拟合方法-》预测方法)-》损失函数(交叉熵损失-》均方损失-》一阶导数)-》辅助函数(数据标准化-》数据划分方法-》数据打乱方法)-》拟合方法-》预测方法)-》损失函数(交叉熵损失-》均方损失-》一阶导数-》:树结点-》决策树(分类树/回归树)-》XGBoost(基本超参数-》)-》辅助函数(数据标准化-》数据划分方法-》数据打乱方法)遍历所有的树,针对每一棵树做预测,然后对预测结果进行。,其最大特性在于对GBDT的。
2025-03-25 10:29:58
235
原创 机器学习——GBDT、GBRT
:树结点-》CART(分类树/回归树)-》GBDT(基本超参数-》拟合方法-》预测方法)-》损失函数(交叉熵损失-》均方损失-》一阶导数)-》辅助函数(数据标准化-》数据划分方法-》数据打乱方法))提升树前向分布迭代过程的方法是梯度提升树(gradient boosting tree)相较于AdaBoost的经典算法模型而言,目前主流的是GBDT系列模型,与。其适用场景在对于一个数据集需要对其进行分类(,其对应的梯度提升决策树称为GBDT;)或者回归预测(GBRT)的任务。利用损失函数的负梯度求解(
2025-03-25 03:00:00
328
原创 机器学习——神经网络、感知机
旨在建立 一个线性分隔超平面对线性可分的数据集进行分类。神经网络最经典的案例就是手写数字识别项目。神经网络最典型的应用场景就是。,其具体的应用场景包括。
2025-03-24 10:54:28
422
原创 机器学习——决策树构建、预剪枝、后剪枝、ID3、C4.5、CART、信息熵、信息增益、信息增益比、基尼指数
但是在一定程度上存在欠拟合的风险,导致决策树生长不够完全。故在实际应用中常使用后剪枝的方法,通过计算子树的损失函数来实现剪枝并得到一个子树序列,然后通过交。,故一般都是采用递归地方式进行选择最优特征,并根据该特征分割训练集,达到构建决策树的目的。故需要使用正则化项对其进行修正,正则化项对应的实际操作为对构建好的决策树进行剪枝。从根结点开始选择一个最优特征进行对数据集的划分为不同的子集,依次同理处理结点即可,直至。信息增益比的定义是将其信息增益与数据集本身关于某一特征取值的熵的比值(,对于结点的类型分为。
2025-03-24 09:12:52
1568
原创 机器学习——KNN(K近邻)
推荐系统中的实现方式:一个是基于商品(item-based向你推荐一些有购买偏好的商品或类似商品),另外一个是基于用户(user-based找到与你喜好相似的用户,然后根据这个用户来向你做推荐)(一次一个根据测试结果选择,直到选择一个最好的k值,其为一种经典的分类方法。在了解KNN原理之前,先了解。一般采用多数表决的方式进行。在上一篇就已经讲解了。
2025-03-22 14:49:45
312
原创 机器学习——欧式距离、闵氏距离、马氏距离、曼哈顿距离、切比雪夫距离(自用)
这个公式相当厉害,将其他范数都囊括进来了,比如通过一个p参数就实现将曼哈顿距离、欧式距离、切比雪夫距离包含在内。可以看出当Σ 为协方差矩阵为单位矩阵(样本各特征之间相互独立且方差为1)时,其就变成了欧式距离公式。协方差是衡量两个变量之间的线性关系的统计量,正值表示正相关,负值表示负相关,零表示无线性相关。③马氏距离(Mahalanobis Distance,又称马哈拉诺比斯距离)②闵氏距离(Minkowski Distance,又称闵可夫斯基距离)①欧几里得距离公式(Euclidean Distance)
2025-03-22 14:27:42
698
原创 机器学习——分类、回归、聚类、LASSO回归、Ridge回归(自用)
与LASSO回归类似的方法是Ridge回归,该回归是的损失函数公式是连续且可导的,所以其求解参数的过程比LASSO回归容易(其可以使用梯度下降方法),但与LASSO回归不同的是Ridge回归参数只是接近0但不等于0,而LASSO回归则直接为0。假设一个函数为L(x,y),先固定x0,求使得L(y)最小的y1;机器学习是一个大范围,并不是一个小的方向,比如:线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。对数分类代码的编写思路:其是感知机模型、神经网络和支持向量机等模型的基础。
2025-03-21 23:29:23
1199
原创 R语言软件配置(自用)
安装完成后,最重要的一步是将安装的包调用到R中进行使用,使用的指令为library(包名)或者require(包名),一次只能加载一个,不能批量进行加载。②由于RStudio要求R的版本为3.6.0+,而我刚刚下载的R版本为4.4.3,能够满足RStudio的版本需要,直接点击Install RStudio即可,然后直接双击后一直下一步就可以了(一切都默认即可)以上只是R语言中自带的简单UI界面,为了适应更多的辅助功能的使用,建议使用一些套件工具:RStudio。R语言适用于分析和绘制图像。
2025-03-19 23:24:25
584
原创 机器学习——正则化、欠拟合、过拟合、学习曲线
(对目标函数后加上正则化项):使得这个“目标函数+正则化项”的值最小,即为正则化,用防止参数变得过大(参数值变小,意味着对目标函数的影响变小),(简单的模型学不够,复杂的模型学的太多),这里的简单指的是不要过于复杂。欠拟合:训练精度下降,测试精度上升。
2025-03-15 23:27:57
599
原创 模型评估——acc、P、R、F值、交叉验证、K折交叉验证
所以一般评估模型采用分类准确率acc、精确率P、召回率R来综合来评价一个模型。但是一般来说,精确率P和召回率R会一个高一个低,需要对其进行取舍。所以为了更为全面的评估一个模型的好坏,,使用测试集进行对模型的评估,对测试数据计算测试数据的误差的平方,再取其平均值,也就是。在计算P、R、F值的时,统计的对象可能是TP,也可以是TN。那么我们该如何选择呢?设定过大,会增加时间的耗费。确定一个合适的K值。
2025-03-15 20:23:04
981
原创 机器学习——数学理论、应用场景、似然函数、梯度下降法、感知机、线性可分、线性不可分、联合概率表达式、支持向量机(SVM)、决策超平面、平面划分
那么如何使得其乘积最大,就涉及一个θ参数的调整,如何θ参数能够使得该乘积达到最大,那么就能最近似地说明训练数据。上面提及的最速梯度下降法、随机梯度下降法、小批量随机梯度下降法,都需要考虑一个学习率的问题,这个。因为在回归中涉及微分(求导)计算,而绝对值在有的点中不能计算其导数,还必须分情况讨论,故。当然这里的随机选择数据可以随机选择一个,也可以随机选择多个,随机选择多个的方法叫做。处理连续数据(时间序列数据,即连续观测的数据,非离散的数据)④然后就涉及学习率的问题,这个学习率是作为超参数,
2025-03-15 20:09:55
756
原创 自然语言理解——关于模型开发流程、相关量化和比较
而大模型适用于不受设备、场地、资金的限制,使得其不太亲民,往往是资金技术雄厚的大公司在进行研究。与之相较的小模型,更受到人们欢迎,因为其占用内存较小、易于调试、适用场景更为专一,如果一个小模型的测试准确率够高,那么其将会是非常有用的。目前有的小模型对于输出的文本长度有限制,大多在512或1024,
2025-03-10 21:40:59
165
原创 模型微调——模型性能提升方法及注意事项(自用)
激活函数选择softmax且得到各类的概率值,损失函数选择Sparse Categorical Cross-Entropy(稀疏分类交叉熵)、Catergorical Cross-Entropy(分类交叉熵)的方法,其可以直接在LLM界面窗口上进行提出:“给我生成与我给出的数据条主题一致的新数据,并给出40条,每条文本不要过长,大概60个文本即可,并且力求简洁”。除非需产生的数据的复杂性高,标准高,难度大,才采用这个方式,否则其新数据的产生的成本太高了。④对数据集中的训练数量较少的类进行数据增加,
2025-03-08 23:22:31
866
原创 Python——地图可视化
一般使用同一种颜色表示一个区域的属性,常用与选举和人口普查数据的可视化。对于颜色的选择可以使用单色渐变系、双向渐变系、完整色谱变化。带分布图(柱形、饼状)的地图、二维核密度估计等位地图、三维柱形地图(可加上时间序列)学术图表包括:主标题、副标题和脚注区作为图表的背景信息,都采取左对齐,并四周留白。占整个图表面积的1/3,使用大号字体和强烈对比效果。常使用数据来源表明数据的来源,以及图例的注解。主要是配色方案的选择很关键。比主标题小一半左右的字号。用于数据的标注和区分。
2025-03-08 15:38:40
208
原创 Python可视化——地理空间型图表(自用)
这两个安装包都内置有世界地图的绘制数据信息,其不仅可以绘制不同投影的地图,同时也可以根据不同的地区名来提取对应地区的地理数据,从而绘制全局或局部地区的地图。,也可以通过绘制软件和python中涉及的两个包进行读取并绘制。图片来源:https://it.sohu.com/a/738294084_121343791。总的来说就是映射到二维平面中的任何点通过比例尺放大到实际标准一致,即为成功进行地图投影。,并使用绘图软件来打开这些SHP格式文件,就可以绘制相应地图。然后运行下面这个代码:查看数据集格式。
2025-03-06 23:05:19
924
原创 中国首款AI原生IDE:字节跳动Trae国内版深度解析与实践指南
标志着国产AI编程工具进入新纪元。该工具以动态智能协作为核心,搭载Doubao-1.5-pro和"满血版"DeepSeek R1/V3双模型引擎,支持自然语言生成完整项目框架,实现端到端开发闭环。技术层面突破传统IDE限制,通过全栈上下文理解与Builder模式,将复杂需求转化为可执行代码,实测效率较传统工具提升30%以上。针对本土开发者深度优化中文语义理解,支持私有模型接入与跨平台协作,已覆盖Windows/Mac系统并开放Linux预约
2025-03-04 11:02:13
1458
原创 主题模型(二)
主题模型训练需优化以提升应用价值。技巧包括:采用词干化与n-gram,添加领域相关停用词,利用Gensim和scikit-learn调参确定主题数。Gensim关键超参数有chunksize、passes和iterations,LDA模型中alpha和beta参数影响主题密度和词汇表大小。训练时可打开日志记录。主题一致性衡量模型可解释性,可通过可视化或一致性值评估模型效果,确定最佳主题数。可视化方法包括pyLDAvis、Gensim距离计算和树形图。
2025-02-27 23:10:30
657
原创 主题模型(一)
主题模型是文本挖掘技术,用于提取文本数据的潜在语义结构,帮助理解和探索无标记文本。它通过分析文档中单词的概率分布来标注主题信息,实现更高效的文档搜索和排序。Gensim支持多种算法,如LDA、LSA和DTM,其中LDA概率值全为正数,LSA可能包含正负数。HDP无需预设主题数量,适合探索性分析。DTM引入时间帧,动态观察主题变化。Scikit-learn的NMF通过矩阵分解降低内存消耗,提高计算效率。常用的算法有LDA、LSA、HDP和NMF,Gensim和scikit-learn是两个常用库。
2025-02-27 23:04:24
279
原创 数据库Sql语言使用方法(二)(自用)
数据库操作涵盖了数据定义、操纵与控制,内置函数丰富多样,包括字符串、数值、日期和流程函数,用于数据处理与逻辑判断。约束条件如主键、外键、唯一性等确保数据完整性。多表查询支持内连接、外连接、自连接等,实现复杂数据关系的高效查询。此外,聚合函数、分组、排序和分页功能助力数据分析。外键约束维护表间数据一致性,支持级联、置空等操作。嵌套查询、联合查询等高级查询方式进一步提升查询灵活性。
2025-02-24 14:45:40
963
原创 数据库Sql语言使用方法(一)(自用)
数据库是数据存储与管理的核心工具,MySQL是其重要实现。它通过DDL(数据定义语言)进行数据库、表、索引等的创建、修改和删除操作;DML(数据操纵语言)实现数据的增、删、改、查;DCL(数据控制语言)则用于用户权限管理。其中,数据类型多样,包括数值、字符串、日期时间等,表操作涉及字段的增删改,查询支持聚合函数、分组、排序和分页等功能,权限管理涵盖用户创建、权限授予与回收等。
2025-02-24 14:35:13
945
原创 Dockerfile文本文件+FastAPI学习
本文介绍了如何通过Dockerfile构建Docker镜像,并结合FastAPI框架快速开发和部署API应用。Dockerfile定义了镜像的运行环境、依赖安装及启动命令,FastAPI则提供了高性能的API开发能力并自动生成交互式文档。用户可通过http://127.0.0.1:8000访问应用,http://127.0.0.1:8000/docs和http://127.0.0.1:8000/redoc查看API文档。若链接无法访问,请检查链接合法性或重试。
2025-02-21 20:29:27
192
原创 基于Google浏览器版本更新导致的更换驱动出现的问题(自用)
更新 ChromeDriver 以匹配 Google 浏览器版本:查看浏览器版本(方法一:设置 > 关于;方法二:输入 chrome://version/)。使用终端命令 where chromedriver 找到旧版路径并删除 chromedriver.exe。从 Chrome for Testing 下载新版本驱动。更新环境变量(可选,若原位置更新则无需更改)。运行 chromedriver --version 验证更新,若失败可运行 ipconfig /flushdns 清除缓存。
2025-02-20 12:03:12
397
原创 DeepSeek-R1模型的认识(自用)
DeepSeek-R1模型对标OpenAI-o1,通过强化学习实现自我进化,具备强大推理能力。其训练采用少量冷启动数据和多阶段流程,结合基于结果和思考过程的奖励机制。衍生模型基于Qwen和Llama提炼,参数规模从1.5B到70B不等。
2025-02-18 23:11:45
251
原创 Embedding模型选取(自用)
本文介绍 embedding 模型选取要点,包括句子长度、向量维度、模型大小等四点要求,还提及内部实现过程与主题相关模型训练流程,并推荐在 Huggingface 上找模型排行榜以助选择。
2025-02-18 17:23:48
160
原创 DeepSeek -V3模型的内部细节的自我理解(自用)
近年来,自然语言处理领域取得了显著进展。BERTopic模型通过合理选取embedding模型,结合分词、word embedding及Pooling操作,有效表示文本信息。DeepSeek-V3在混合专家模型优化方面表现出色,通过将专家分类为共享专家和路由专家,并结合门控网络,提升了模型性能。此外,MLA注意力机制通过低秩联合压缩,显著减少了KV缓存,提高了推理效率。同时,无辅助损失的负载均衡策略和多token预测(MTP)技术进一步优化了模型的计算效率和推理速度。这些创新为大模型的发展提供了有力支持
2025-02-18 15:16:52
1035
原创 基于恒源云平台的pycharm的SSH远程连接(自项自用)
对于自己项目中关于pycharm与恒源云算力平台设置的一些经验总结!为自己后面进行项目配置提供便利
2025-02-16 11:28:37
432
原创 BERTopic模型使用的注意事项(自用)
本文介绍了如何使用BERTopic进行文本主题建模和可视化。BERTopic结合了SentenceTransformer、UMAP和HDBSCAN等工具,能够高效地从文本数据中提取主题。通过visualize_topics()方法,可以直观地展示主题分布;visualize_hierarchy()方法则用于呈现主题的层次结构。此外,visualize_heatmap()和visualize_barchart()方法分别用于展示主题间的相似度和关键词权重。这些可视化工具帮助用户更好地理解和解释主题建模的结果。
2025-02-11 20:36:25
469
原创 BERTopic主题聚类模型的认识(自用)
本文探讨了基于BERTopic的主题建模技术及其多种实现方式。BERTopic结合了BERT嵌入和聚类算法,能够高效提取文本数据的主题。通过使用不同的嵌入模型(如SentenceTransformer、OpenAI模型)和调整降维(UMAP)及聚类(HDBSCAN)参数,可以灵活优化主题建模效果。此外,还介绍了利用TF-IDF向量进行主题建模的方法,以及如何通过自定义降维模型实现无降维的主题提取。这些方法为文本分析提供了多样化的工具,有助于深入挖掘文本数据的内在结构和主题信息。
2025-02-09 23:05:26
1645
原创 高维数据降维的三种方法(自用)
摘要:本文对比了PCA、t-SNE和UMAP三种降维方法。PCA是线性方法,时间复杂度为 O(n3),适合线性数据,能保留较多原始信息。t-SNE是非线性方法,时间复杂度为 O(nlogn),擅长保留局部结构,但不适合大规模数据且无法捕获全局结构。UMAP通过拓扑结构实现降维,时间复杂度为 O(n1.14),能同时保留全局和局部结构,适合复杂数据。实验表明,UMAP在处理复杂数据时表现最佳,其次是t-SNE和PCA
2025-02-09 13:36:03
399
原创 在学习模型外围知识的一些思考(自用)
本文探讨了多种交互方式,包括 HCI、GUI 和 NUI,分别阐述了它们的交互特点和目的。在论文主题相似性方面,提及 KNN 分类方法以及有监督学习的应用。介绍了模型参数中的 temperature 对输出结果的影响,以及模型四要素。指出数据质量对模型性能的重要性,并说明大模型在处理错误内容时的局限性。阐述了视觉 + 多模态发表论文的四个方向,包括大模型微调、新领域应用、数据集构建与评估以及即插即用方式。强调 prompt 工程的重要性,以及从 Hard Prompt 到 Soft Prompt 的转变,提
2025-02-08 13:06:58
410
信息检索基础知识及其应用领域的综述
2025-02-24
信息检索基础知识与技术综述及其实际应用解析
2025-02-24
欧洲文学史知识点汇总及其考试要点解析
2025-02-24
媒介经营管理作业:探讨市场定位、品牌形象与战略管理的核心知识点
2025-02-24
媒介经营管理理论及实践应用-知识点解析
2025-02-24
管理学原理中企业领导力与组织行为的选择与应用
2025-02-24
管理学核心概念及其应用-理论、案例及问题解析
2025-02-24
传媒经济学基础知识点测试与解析
2025-02-24
传媒经济学基础试题集锦:涵盖市场结构与政策规制的应用实例解析
2025-02-24
公共关系学核心理论及其实践应用
2025-02-24
社会学术语解析及核心概念综述-基于选择题的内容覆盖
2025-02-24
社会学术语与概念综述:关键考点解析及其应用场景
2025-02-24
市场营销学核心概念解析及其应用场景
2025-02-24
市场营销学作业解析:涵盖消费者行为、渠道策略及营销理念
2025-02-24
文化产业概论:发展历程、现状与关键文化概念解析
2025-02-24
文化产业发展概论及其相关知识
2025-02-24
数字图像处理入门-二值图、半色调图、颜色模型及相关概念解析及MATLAB实现
2025-02-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人