- 博客(138)
- 资源 (29)
- 收藏
- 关注
原创 2.1、机器学习-模型评估指标与参数调优
本文总结了机器学习的常见评估指标与调优方法。分类问题主要采用混淆矩阵、准确率、精确率、召回率、F1-Score、ROC曲线、AUC值和KS曲线等指标;回归问题常用MAE、MSE、RMSE、R²等指标,并分析了各指标的适用场景。此外,介绍了K折交叉验证和GridSearch网格搜索两种参数调优方法,前者通过数据切分提升模型可信度,后者通过穷举搜索寻找最优超参数组合。这些指标和方法的选择需结合实际业务需求和模型特点。
2025-09-21 12:53:16
950
原创 2.0、机器学习-数据聚类与分群分析
摘要:本文介绍了两种无监督聚类算法——K-Means和DBSCAN。K-Means通过迭代优化质心实现球形簇划分,需预先指定簇数,对噪声敏感。DBSCAN基于密度识别任意形状簇,能自动处理噪声,但需设置邻域半径和最小点数。实验对比显示:K-Means适合凸数据集,计算高效;DBSCAN适用于非凸分布,能识别噪声点。文章通过Python代码演示了两种算法在合成数据上的应用效果,并对比了它们在聚类形状、噪声处理、参数需求等方面的特性差异。
2025-09-20 21:57:40
651
原创 1.9、机器学习-LightGBM模型(金融实战)
LightGBM是一种高效的梯度提升决策树框架,相比XGBoost具有更快的训练速度和更低的内存消耗。它采用直方图算法、按叶子生长策略等技术优化,特别适合大规模数据和高维特征场景。本文通过一个客户违约预测案例,展示了LightGBM的实际应用流程:从数据预处理、特征工程到模型构建、评估和调优,最后部署应用。案例中重点演示了分类模型的实现、特征重要性分析以及参数调优方法,为处理类似预测问题提供了完整参考。
2025-09-19 09:00:00
521
原创 1.8、机器学习-XGBoost模型(金融实战)
本文系统介绍了Boosting集成学习方法,重点分析了AdaBoost、GBDT、XGBoost和LightGBM等算法的核心思想与特点。通过对比Bagging与Boosting的技术差异,指出Boosting算法通过迭代优化和样本权重调整,能构建高精度模型但易过拟合。文章详细解析了XGBoost相对GBDT的改进,包括二阶泰勒展开、正则化等优化,并提供了信用卡评分实战案例,展示数据预处理、模型训练评估、特征重要性分析等完整流程。结果表明,XGBoost在信用评分预测中表现优异,同时强调了模型调优和过拟合控
2025-09-16 07:44:09
1004
原创 1.7、机器学习-随机森林模型
摘要: 集成学习通过组合多个模型提升预测性能,主要分为Bagging(如随机森林)和Boosting(如AdaBoost、XGBoost)两类算法。随机森林作为Bagging代表,通过数据/特征随机抽样构建多棵决策树,以投票或平均方式输出结果,兼具分类与回归功能。其核心参数包括树数量(n_estimators)、随机种子(random_state)和树深度(max_depth)等,需调参平衡性能与过拟合。以鸢尾花数据集为例,随机森林分类器通过SKlearn实现,展示高准确率与稳定性的特点,适用于复杂数据预测
2025-09-12 14:30:00
783
原创 1.6、机器学习-决策树模型(金融实战)
决策树是一种基于特征分割的监督学习算法,通过递归分割数据空间构建预测模型。文章首先介绍了决策树的基本原理,包括信息熵的概念和计算方式,以及如何利用信息增益来选择最优划分特征。接着详细阐述了三种主要决策树算法(ID3、C4.5和CART)的特点和实现方法,其中CART算法支持分类和回归任务。最后通过银行信用风险评估案例,展示了数据预处理、模型构建、评估和调优的完整流程,包括特征重要性分析和决策树可视化。文章强调决策树的直观性和可解释性,同时指出需要通过参数调优和剪枝来防止过拟合。
2025-09-11 10:22:10
940
原创 1.5、机器学习-回归模型(代码干货)
本文介绍了线性回归和逻辑回归两种机器学习模型的基本原理及Python实现。线性回归部分涵盖一元和多元回归的数学原理(y=ax+b和y=w1x1+...+wnxn+b),通过Scikit-learn库实现房价预测和客户价值预测案例,使用均方误差(MSE)评估模型。逻辑回归部分解释了其通过Sigmoid函数将线性回归转换为分类模型的特性,并演示了乳腺癌诊断和信用卡流失预警两个分类案例。文中提供了完整的数据预处理、模型训练和评估代码,包括缺失值处理、特征工程(One-hot编码等)和准确率评估。两种回归模型均采用
2025-09-06 15:13:04
1045
原创 1.4 机器学习-K 近邻算法(代码干货)
K近邻算法(KNN)是一种基于实例的机器学习方法,其核心思想是"物以类聚"。在分类问题中,通过多数投票原则确定新样本类别;在回归问题中,通过取K个最近邻的平均值预测目标值。算法实现包含三个关键要素:K值选择、距离度量和决策规则。本文详细介绍了KNN在分类(如乳腺癌预测)和回归(如波士顿房价预测)任务中的应用流程,包括数据加载、切分、特征标准化、模型训练与评估,并展示了如何保存和加载模型。评估指标方面,分类任务使用准确率,回归任务则采用MAE、MSE和RMSE。
2025-08-28 14:27:43
291
原创 1.3 机器学习-特征工程
特征工程是将原始数据转换为有效特征以提升模型性能的过程,主要包括特征构建(如从日期提取星期几)、特征提取(如文本向量化)、特征变换(如标准化)和特征选择(如过滤冗余特征)。以乳腺癌数据集为例,通过Z-score或Min-Max方法对30个特征进行标准化处理,消除量纲差异,从而优化模型表现。特征工程需结合领域知识,并防止数据泄露(使用训练集统计量处理测试集)。
2025-08-27 08:30:00
851
原创 1.2 机器学习-向量化编程
从线性代数视角,机器学习就是一系列NumPy 构成了和等强大机器学习库的基础。NumPy 支持向量化编程,通过其内置的向量化函数和工具,可以高效处理数组运算,避免显式循环。从数学基础的线性代数视角来看,机器学习本质上可以理解为一系列矩阵变换和运算的过程。无论是简单的线性回归还是复杂的深度学习模型,其核心计算都可以归结为矩阵乘法、特征值分解、奇异值分解等线性代数运算。作为Python科学计算的基础库,NumPy在这个过程中的作用至关重要。
2025-08-26 10:21:54
613
原创 1.1 机器学习算法-sklearn源起
sklearn是 Python 中最流行的开源机器学习库之一,基于 NumPy、SciPy 和 Matplotlib 构建。它提供了丰富的机器学习算法和工具,适用于数据挖掘和数据分析任务。分类(如 SVM、随机森林、逻辑回归)等回归(如线性回归、岭回归)等聚类(如 K-Means、DBSCAN)等降维(如 PCA、t-SNE)等交叉验证、超参数调优(如网格搜索)等评估指标(如准确率、F1 分数、ROC 曲线)等标准化、归一化、缺失值处理、特征编码(如 One-Hot Encoding)等流水线(
2025-05-24 12:09:41
985
原创 检索增强生成(RAG)的局限性
让大模型先对问题进行一轮抽象,从大体上去把握用户的问题,获得一层高级思考下的语料块。这个策略的提示词写作:isandis假如是医疗咨询的场景,用户描述了一大段病情、现象、感受、担忧;或者在法律服务的场景,用户描述了现场情况、事发双方的背景、纠纷的由来等一大段话的时候,我们就可以用这个策略,让大模型先理解一下用户的意图是什么,这个事情大体上看是什么问题。
2025-04-04 15:00:00
921
原创 什么是检索增强生成(RAG)
是一种结合了信息检索和文本生成技术的新型自然语言处理方法。这种方法增强了模型的理解和生成能力。相较于经典生成式模型,检索增强生成技术通过引入外部数据源的实时上下文信息,无需修改模型参数即可动态整合未训练过的新知识,有效提升生成内容与搜索需求的相关性。这种机制能够灵活融合互联网实时资讯、企业专属业务场景数据及私有化文档资料等多样化信息源,在不触发模型重训练的前提下持续优化大语言模型的输出质量。接下来我们用一个通俗易懂的例子来解释检索增强生成。你是一个导游,在你的工作中遇到了问题。
2025-04-03 20:32:57
1209
原创 大模型-提示词(Prompt)最佳实践
所谓提示词工程(Prompt Engineering)就是研究如何构建和调整提示词,从而让大语言模型实现各种符合用户预期的任务的过程。就像跟AI沟通的艺术,为了让像DeepSeek这样的大语言模型更好地理解你的需求,你需要清晰地描述你的需求,提供必要的背景信息,明确告诉AI你想让它做什么。就像跟人沟通一样,你需要不断调整你的表达方式,直到AI理解你的意思,并给出你想要的答案。为了引导大模型按照我们预想的要求来完成各项任务,作为使用者,我们需要不断调整提示词,构建有效的提示词,从而不断地提升大模型的表现。
2025-04-02 11:46:26
1146
原创 大模型-提示词(Prompt)技巧
提示词的概念; 提示词技巧:直接提问、增加示例、分配角色、限定输出风格和格式,拆解复杂任务,使用分隔符号区分单元。
2025-04-01 23:30:06
2738
原创 大模型的特点和工作流程
在2021年,斯坦福大学的研究员团队发表了一篇论文,提出了(基础模型,即大模型)的概念。简单来说,它是一类具有大量参数(通常在十亿以上),能在极为广泛的数据上进行训练,并适用于多种任务和应用的预训练深度学习模型。在2022年11月,美国OpenAI公司发布了ChatGPT——一种先进的人工智能语言模型,专为对话交互而设计,具有强大的自然语言理解和生成能力,可以完成撰写论文、邮件、脚本、文案、翻译、代码等任务。
2025-03-30 22:19:36
1243
原创 DeepSeek入门到大师 清华大学[1-5版]全集
DeepSeek是什么?DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。
2025-02-23 23:14:23
910
原创 机器学习-生命周期
在使用机器学习中的术语表述上述用户申请贷款的例子时,可转换为二分类法评估用户的信用:信用好可以放款,信用差则拒绝放款。针对评估用户的信用问题,我们有哪些解决方案?人工审核或者采用机器学习的方式。假如确定采用机器学习的方式:最重要的是,应该如何衡量机器学习的结果,这个结果和期望相差多少如何减小这种差距。第一步便是定义问题,这需要团队成员同思考,给出各自的建议和理解,确定解决问题的思路。
2025-02-19 00:19:52
981
原创 机器学习-数据预处理(附完整代码)
在进行数据挖掘中,原始海量的数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以对首先对数据进行清洗就显得尤为重要,在数据清洗完成后,后续伴随着数据集成、转换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。
2025-02-07 00:02:16
3744
1
原创 机器学习-数据标注(二)
是指三维数据的一种重要表达方式,通过激光雷达等传感器,能够采集到各类障碍物以及其位置坐标,而标注员则需要将这些密集的点云分类,并标注上不同属性,常应用于。数据标准是通过分类、画框、标注、注释等,对图片、语音 、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。、语义分割、实例分割、 目标检测、图像分类、关键点、线段标注、文字识别转写、点云标注、属性判断等。负责对文本、图像、语音、视频等标注数据进行归来、整理、编辑、标记和批注。是对事物属性进行标签,属性标注包括:文本类别、新闻、娱乐等。
2025-01-16 23:01:42
1846
原创 SparkSQL 执行底层原理解析
从Spark SQL 底层架构可以看到,我们写的SQL语句,经过一个优化器(Catalyst),转化为RDD,交给集群执行。SQL到RDD中间经过了一个Catalyst,它就是Spark SQL的核心,是针对Spark SQL语句执行过程中的查询优化框架,基于Scala函数式编程结构。
2023-12-24 20:55:08
2182
原创 Elasticsearch的分片平衡问题解决
2023年11月份在某电商系统生产中的Elasticsearch(以下简称ES)集群突然,出现了大量慢查询告警,导致请求堆积。经过几天的排查发现了ES节点主分片和副本分片分布存在不均匀的问题。当然了暂未有定论是由于分片不均衡导致了性能下降,但是主分片和副本分片分布不均匀确实是个问题。
2023-12-24 16:18:07
3845
原创 基于Headless构建高可用spark+pyspark集群
在启动spark worker脚本中需要传入master的地址,在容器云kubernetes dns且设置了service的缘故,可以通过ecc-spark-master.ecc-spark-cluster.svc.cluster.local:7077访问。没有默认负载均衡器,可直接访问 Pod IP 地址。spark master分为两个部分,一个是类型为ReplicationController的主体,命名为ecc-spark-master.yaml,另一部分为一个service,暴露master的。
2023-10-28 21:20:51
1018
原创 Python爬虫-经典案例详解
爬虫一般指从网络资源的抓取,通过Python语言的脚本特性,配置字符的处理非常灵活,Python有丰富的网络抓取模块,因而两者经常联系在一起Python就被叫作爬虫。爬虫可以抓取某个网站或者某个应用的内容提取有用的价值信息。有时还可以模拟用户在浏览器或app应用上的操作行为,从而实现程序自动化。
2023-10-28 19:16:42
436
原创 Hive SQL 函数高阶应用场景
HIVE作为数据仓库处理常用工具,如同RDBMS关系型数据库中标准SQL语法一样,Hive SQL也内置了不少系统函数,满足于用户在不同场景下的数据分析需求,以提高开发SQL数据分析的效率。我们可以使用show functions查看当下版本支持的函数,并且可以通过describe function extended funcname来查看函数对应的使用方式和方法,下面我们将描述HIVE SQL中常用函数的高阶使用场景。
2023-10-22 13:50:42
1753
4
原创 spark读写minio文件代码实践
Minion作为一个先进的对象存储方案,对于大数据和人工智能的支持有着天然的优势。它支持与Spark\Flink等技术方案进行整合,并且通过S3协议实现数据查询的下沉,这让大数据的存储与查询分离提供了事实依据。(2) 根据部署的minio服务的信息(如端口、Access Key、Secret Key、存储桶名称等),创建一个SparkSession对象,可以使用如下步骤进行读写Minio。(1) 首先,需要部署minio服务集群,搭建minio对象存储桶,可以参考我的文章。
2023-08-14 22:29:46
1793
原创 推荐系统-基于物品协同过滤算法代码实现
当前Spark没有像mahout那样,严格区分基于物品的协同过滤推荐(ItemCF)和基于用户的协同过滤推荐(UserCF),只有基于模型的协同过滤推荐算法ALS(model-based CF)。但ALS算法对于一些特定的问题(用户数量较小的场景,以及物品数量明显小于用户数量的场景),效果并不理想,不像mahout提供了各种推荐算法选择。为了充分利用spark在速度上带来的提升同时为满足一些业务需求,于是使用spark构建ItemCF算法。
2023-08-02 23:29:26
699
原创 推荐系统-ALS协同过滤算法代码实现
从协同过滤的分类来说,ALS(Alternating Least Squares,交替最小二乘)算法属于User-Item CF,也叫做混合CF,它同时考虑了User和Item两个方面。用户和物品的关系,可以抽象为如下的三元组:。其中,Rating是用户对商品的评分,表征用户对该商品的喜好程度。ALS算法是基于模型的推荐算法,,评估出缺失项的值,以此来得到一个基本的训练模型,然后依照此模型可以针对新的用户和物品数据进行评估。
2023-07-27 22:19:27
912
原创 推荐系统-基于标签的Top-N个性化推荐代码实现
本文主要探讨如何利用用户打标签的行为为其推荐物品,UGC标签系统受到越来越多的关注,标签既能反映用户的兴趣又能描述物品的本身特征。
2023-07-18 22:25:41
1642
原创 Elasticsearch 数据迁移方案
倘若准备将自建的 elasticsearch 迁移K8s,或者的迁移到其他elasticsearch集群,可以根据自己的业务需要选择适当的迁移方案,
2023-06-24 18:28:27
2911
原创 每个人都要会“Chat AI”的提问方式
,点击右侧的【获取】按钮,此处是我已经安装了插件所以是【删除】按钮,点击获取按钮后会弹出对话框,选择【添加扩展】即可下载安装插件,后面安装流程按提示完成即可。(4)回到浏览器,点击右上方的【+】按钮,会弹出新的选项卡"WebTab新标签页”,在新页面中点击【问心一言 AI】图标按钮。(5)如果用户已经登录,则会直接进入"问心一言"的对话界面,如果未登录,登录msn邮箱账号即可开启使用"问心一言"了。(1)切换到浏览器,选择右上方选项卡,在弹出的对话框中选择【扩展】选项,
2023-06-21 20:27:54
563
原创 redis运维小记批量处理
过期命令: redis-cli -h ip地址 -p 端口 -a 密码 keys "ACE_*" | xargs - i redis-cli -h ip地址 -p端口 -a 密码 expire {} $(($RANDOM + 54321))删除命令: redis-cli -h ip地址 -p 端口 -a 密码 keys "ACE_*" | xargs - i redis-cli -h ip地址 -p端口 -a 密码 del {}登录命令: redis-cli -h ip -p 端口。
2023-06-05 10:26:20
767
原创 基于容器云提交spark job任务
spark提交Kind=Job类型的任务,首先需要申请具有Job任务提交权限的rbac,然后编写对应的yaml文件,通过spark-submit命令提交任务到集群执行。
2023-03-04 19:21:41
1880
原创 ES使用Ngram分词器实现wildcard高性能替代方案
## 3.1 Ngram定义Ngram是一种基于统计语言模型的算法。Ngram的基本思想:是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。
2022-05-03 21:42:34
6017
快速准确搭建好SSH框架开发环境
2012-03-27
nfs-utils.tar.gz
2021-07-04
More Exceptional C++
2015-11-30
Essential C++
2015-11-30
Effective C++(有效的C++)
2015-11-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅