人工智能
文章平均质量分 80
广漂一枚
来自遵义酒都的广漂族,多年大厂经验,等混不下去就回家卖酒,哈哈...
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2.1、机器学习-模型评估指标与参数调优
本文总结了机器学习的常见评估指标与调优方法。分类问题主要采用混淆矩阵、准确率、精确率、召回率、F1-Score、ROC曲线、AUC值和KS曲线等指标;回归问题常用MAE、MSE、RMSE、R²等指标,并分析了各指标的适用场景。此外,介绍了K折交叉验证和GridSearch网格搜索两种参数调优方法,前者通过数据切分提升模型可信度,后者通过穷举搜索寻找最优超参数组合。这些指标和方法的选择需结合实际业务需求和模型特点。原创 2025-09-21 12:53:16 · 1009 阅读 · 0 评论 -
2.0、机器学习-数据聚类与分群分析
摘要:本文介绍了两种无监督聚类算法——K-Means和DBSCAN。K-Means通过迭代优化质心实现球形簇划分,需预先指定簇数,对噪声敏感。DBSCAN基于密度识别任意形状簇,能自动处理噪声,但需设置邻域半径和最小点数。实验对比显示:K-Means适合凸数据集,计算高效;DBSCAN适用于非凸分布,能识别噪声点。文章通过Python代码演示了两种算法在合成数据上的应用效果,并对比了它们在聚类形状、噪声处理、参数需求等方面的特性差异。原创 2025-09-20 21:57:40 · 691 阅读 · 0 评论 -
1.9、机器学习-LightGBM模型(金融实战)
LightGBM是一种高效的梯度提升决策树框架,相比XGBoost具有更快的训练速度和更低的内存消耗。它采用直方图算法、按叶子生长策略等技术优化,特别适合大规模数据和高维特征场景。本文通过一个客户违约预测案例,展示了LightGBM的实际应用流程:从数据预处理、特征工程到模型构建、评估和调优,最后部署应用。案例中重点演示了分类模型的实现、特征重要性分析以及参数调优方法,为处理类似预测问题提供了完整参考。原创 2025-09-19 09:00:00 · 539 阅读 · 0 评论 -
1.8、机器学习-XGBoost模型(金融实战)
本文系统介绍了Boosting集成学习方法,重点分析了AdaBoost、GBDT、XGBoost和LightGBM等算法的核心思想与特点。通过对比Bagging与Boosting的技术差异,指出Boosting算法通过迭代优化和样本权重调整,能构建高精度模型但易过拟合。文章详细解析了XGBoost相对GBDT的改进,包括二阶泰勒展开、正则化等优化,并提供了信用卡评分实战案例,展示数据预处理、模型训练评估、特征重要性分析等完整流程。结果表明,XGBoost在信用评分预测中表现优异,同时强调了模型调优和过拟合控原创 2025-09-16 07:44:09 · 1041 阅读 · 0 评论 -
1.7、机器学习-随机森林模型
摘要: 集成学习通过组合多个模型提升预测性能,主要分为Bagging(如随机森林)和Boosting(如AdaBoost、XGBoost)两类算法。随机森林作为Bagging代表,通过数据/特征随机抽样构建多棵决策树,以投票或平均方式输出结果,兼具分类与回归功能。其核心参数包括树数量(n_estimators)、随机种子(random_state)和树深度(max_depth)等,需调参平衡性能与过拟合。以鸢尾花数据集为例,随机森林分类器通过SKlearn实现,展示高准确率与稳定性的特点,适用于复杂数据预测原创 2025-09-12 14:30:00 · 807 阅读 · 0 评论 -
1.6、机器学习-决策树模型(金融实战)
决策树是一种基于特征分割的监督学习算法,通过递归分割数据空间构建预测模型。文章首先介绍了决策树的基本原理,包括信息熵的概念和计算方式,以及如何利用信息增益来选择最优划分特征。接着详细阐述了三种主要决策树算法(ID3、C4.5和CART)的特点和实现方法,其中CART算法支持分类和回归任务。最后通过银行信用风险评估案例,展示了数据预处理、模型构建、评估和调优的完整流程,包括特征重要性分析和决策树可视化。文章强调决策树的直观性和可解释性,同时指出需要通过参数调优和剪枝来防止过拟合。原创 2025-09-11 10:22:10 · 972 阅读 · 0 评论 -
1.4 机器学习-K 近邻算法(代码干货)
K近邻算法(KNN)是一种基于实例的机器学习方法,其核心思想是"物以类聚"。在分类问题中,通过多数投票原则确定新样本类别;在回归问题中,通过取K个最近邻的平均值预测目标值。算法实现包含三个关键要素:K值选择、距离度量和决策规则。本文详细介绍了KNN在分类(如乳腺癌预测)和回归(如波士顿房价预测)任务中的应用流程,包括数据加载、切分、特征标准化、模型训练与评估,并展示了如何保存和加载模型。评估指标方面,分类任务使用准确率,回归任务则采用MAE、MSE和RMSE。原创 2025-08-28 14:27:43 · 302 阅读 · 0 评论 -
deepseek+“D-id”或“即梦AI”快速生成短视频
学会高效使用工具,deepseek+“D-id”或“即梦AI”快速生成短视频原创 2025-02-11 23:55:57 · 3814 阅读 · 0 评论 -
deepseek+即梦一键生成海报
访问deepseek官方网站:https://www.deepseek.com/原创 2025-02-15 19:13:09 · 1526 阅读 · 0 评论 -
deepseek+kimi一键生成PPT
轻松使用大模型工具高效办公,deepseek+kimi一键生成PPT,让你不再为领导要求而烦恼。原创 2025-02-11 22:23:07 · 9888 阅读 · 0 评论 -
机器学习-数据预处理(附完整代码)
在进行数据挖掘中,原始海量的数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以对首先对数据进行清洗就显得尤为重要,在数据清洗完成后,后续伴随着数据集成、转换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。原创 2025-02-07 00:02:16 · 4024 阅读 · 1 评论 -
机器学习-学习算法
机器学习。原创 2025-01-16 23:03:17 · 908 阅读 · 0 评论 -
机器学习训练方式和三要素
判别模型是对数据输出做判别的模型,多用于监督学习,尤其适合。继续编辑。原创 2025-01-16 23:02:26 · 1537 阅读 · 0 评论 -
机器学习-数据标注(二)
是指三维数据的一种重要表达方式,通过激光雷达等传感器,能够采集到各类障碍物以及其位置坐标,而标注员则需要将这些密集的点云分类,并标注上不同属性,常应用于。数据标准是通过分类、画框、标注、注释等,对图片、语音 、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。、语义分割、实例分割、 目标检测、图像分类、关键点、线段标注、文字识别转写、点云标注、属性判断等。负责对文本、图像、语音、视频等标注数据进行归来、整理、编辑、标记和批注。是对事物属性进行标签,属性标注包括:文本类别、新闻、娱乐等。原创 2025-01-16 23:01:42 · 1986 阅读 · 0 评论 -
推荐系统-ALS协同过滤算法代码实现
从协同过滤的分类来说,ALS(Alternating Least Squares,交替最小二乘)算法属于User-Item CF,也叫做混合CF,它同时考虑了User和Item两个方面。用户和物品的关系,可以抽象为如下的三元组:。其中,Rating是用户对商品的评分,表征用户对该商品的喜好程度。ALS算法是基于模型的推荐算法,,评估出缺失项的值,以此来得到一个基本的训练模型,然后依照此模型可以针对新的用户和物品数据进行评估。原创 2023-07-27 22:19:27 · 975 阅读 · 0 评论 -
推荐系统-基于标签的Top-N个性化推荐代码实现
本文主要探讨如何利用用户打标签的行为为其推荐物品,UGC标签系统受到越来越多的关注,标签既能反映用户的兴趣又能描述物品的本身特征。原创 2023-07-18 22:25:41 · 1703 阅读 · 0 评论 -
每个人都要会“Chat AI”的提问方式
,点击右侧的【获取】按钮,此处是我已经安装了插件所以是【删除】按钮,点击获取按钮后会弹出对话框,选择【添加扩展】即可下载安装插件,后面安装流程按提示完成即可。(4)回到浏览器,点击右上方的【+】按钮,会弹出新的选项卡"WebTab新标签页”,在新页面中点击【问心一言 AI】图标按钮。(5)如果用户已经登录,则会直接进入"问心一言"的对话界面,如果未登录,登录msn邮箱账号即可开启使用"问心一言"了。(1)切换到浏览器,选择右上方选项卡,在弹出的对话框中选择【扩展】选项,原创 2023-06-21 20:27:54 · 589 阅读 · 0 评论 -
推荐系统-基于领域的协同过滤算法选择(一文足矣)
为什么新闻推荐使用UserCF算法,而购物网站使用ItemCF算法?原创 2023-03-12 13:26:39 · 762 阅读 · 1 评论 -
基于容器云提交spark job任务
spark提交Kind=Job类型的任务,首先需要申请具有Job任务提交权限的rbac,然后编写对应的yaml文件,通过spark-submit命令提交任务到集群执行。原创 2023-03-04 19:21:41 · 1889 阅读 · 0 评论 -
记一份Cassandra中间件生产调优实践
-server##JVM configurationHeap size-Xms16G-Xmx16G-XX: SurvivorRatio=4GC configuration#禁用CMS,使用U1禁止使用Xmn,U1会自动扩展分配-XX+UseG1GC-XX:G1RSetUpdatingPauseTimePercent=5-XX.MaxGCPauseMillis=500-XX:InitiatingHeapOccupancyPercent=80-XX:ParallelGCThreads=1原创 2022-03-12 12:33:07 · 541 阅读 · 0 评论 -
在Alluxio上运行Apache Hive
The Apache Hive ™ 数据仓库软件使用SQL,方便读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投影到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。我们都知道,Hive作为数据仓库工具,传统文件数据处理大都是搭配Hadoop使用。此处将描述如何搭配Alluxio内存加速使用,让你的批处理任务速度飞起来。本节将使用apache-hive-3.1.2与alluxio2.3|2.4结合,验证数仓功能使用。1.Hive部署1.1.前期准备先下载Hi原创 2021-05-02 12:20:46 · 740 阅读 · 0 评论
分享