自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(138)
  • 资源 (29)
  • 收藏
  • 关注

原创 2.1、机器学习-模型评估指标与参数调优

本文总结了机器学习的常见评估指标与调优方法。分类问题主要采用混淆矩阵、准确率、精确率、召回率、F1-Score、ROC曲线、AUC值和KS曲线等指标;回归问题常用MAE、MSE、RMSE、R²等指标,并分析了各指标的适用场景。此外,介绍了K折交叉验证和GridSearch网格搜索两种参数调优方法,前者通过数据切分提升模型可信度,后者通过穷举搜索寻找最优超参数组合。这些指标和方法的选择需结合实际业务需求和模型特点。

2025-09-21 12:53:16 950

原创 2.0、机器学习-数据聚类与分群分析

摘要:本文介绍了两种无监督聚类算法——K-Means和DBSCAN。K-Means通过迭代优化质心实现球形簇划分,需预先指定簇数,对噪声敏感。DBSCAN基于密度识别任意形状簇,能自动处理噪声,但需设置邻域半径和最小点数。实验对比显示:K-Means适合凸数据集,计算高效;DBSCAN适用于非凸分布,能识别噪声点。文章通过Python代码演示了两种算法在合成数据上的应用效果,并对比了它们在聚类形状、噪声处理、参数需求等方面的特性差异。

2025-09-20 21:57:40 651

原创 1.9、机器学习-LightGBM模型(金融实战)

LightGBM是一种高效的梯度提升决策树框架,相比XGBoost具有更快的训练速度和更低的内存消耗。它采用直方图算法、按叶子生长策略等技术优化,特别适合大规模数据和高维特征场景。本文通过一个客户违约预测案例,展示了LightGBM的实际应用流程:从数据预处理、特征工程到模型构建、评估和调优,最后部署应用。案例中重点演示了分类模型的实现、特征重要性分析以及参数调优方法,为处理类似预测问题提供了完整参考。

2025-09-19 09:00:00 521

原创 1.8、机器学习-XGBoost模型(金融实战)

本文系统介绍了Boosting集成学习方法,重点分析了AdaBoost、GBDT、XGBoost和LightGBM等算法的核心思想与特点。通过对比Bagging与Boosting的技术差异,指出Boosting算法通过迭代优化和样本权重调整,能构建高精度模型但易过拟合。文章详细解析了XGBoost相对GBDT的改进,包括二阶泰勒展开、正则化等优化,并提供了信用卡评分实战案例,展示数据预处理、模型训练评估、特征重要性分析等完整流程。结果表明,XGBoost在信用评分预测中表现优异,同时强调了模型调优和过拟合控

2025-09-16 07:44:09 1004

原创 1.7、机器学习-随机森林模型

摘要: 集成学习通过组合多个模型提升预测性能,主要分为Bagging(如随机森林)和Boosting(如AdaBoost、XGBoost)两类算法。随机森林作为Bagging代表,通过数据/特征随机抽样构建多棵决策树,以投票或平均方式输出结果,兼具分类与回归功能。其核心参数包括树数量(n_estimators)、随机种子(random_state)和树深度(max_depth)等,需调参平衡性能与过拟合。以鸢尾花数据集为例,随机森林分类器通过SKlearn实现,展示高准确率与稳定性的特点,适用于复杂数据预测

2025-09-12 14:30:00 783

原创 1.6、机器学习-决策树模型(金融实战)

决策树是一种基于特征分割的监督学习算法,通过递归分割数据空间构建预测模型。文章首先介绍了决策树的基本原理,包括信息熵的概念和计算方式,以及如何利用信息增益来选择最优划分特征。接着详细阐述了三种主要决策树算法(ID3、C4.5和CART)的特点和实现方法,其中CART算法支持分类和回归任务。最后通过银行信用风险评估案例,展示了数据预处理、模型构建、评估和调优的完整流程,包括特征重要性分析和决策树可视化。文章强调决策树的直观性和可解释性,同时指出需要通过参数调优和剪枝来防止过拟合。

2025-09-11 10:22:10 940

原创 1.5、机器学习-回归模型(代码干货)

本文介绍了线性回归和逻辑回归两种机器学习模型的基本原理及Python实现。线性回归部分涵盖一元和多元回归的数学原理(y=ax+b和y=w1x1+...+wnxn+b),通过Scikit-learn库实现房价预测和客户价值预测案例,使用均方误差(MSE)评估模型。逻辑回归部分解释了其通过Sigmoid函数将线性回归转换为分类模型的特性,并演示了乳腺癌诊断和信用卡流失预警两个分类案例。文中提供了完整的数据预处理、模型训练和评估代码,包括缺失值处理、特征工程(One-hot编码等)和准确率评估。两种回归模型均采用

2025-09-06 15:13:04 1045

原创 1.4 机器学习-K 近邻算法(代码干货)

K近邻算法(KNN)是一种基于实例的机器学习方法,其核心思想是"物以类聚"。在分类问题中,通过多数投票原则确定新样本类别;在回归问题中,通过取K个最近邻的平均值预测目标值。算法实现包含三个关键要素:K值选择、距离度量和决策规则。本文详细介绍了KNN在分类(如乳腺癌预测)和回归(如波士顿房价预测)任务中的应用流程,包括数据加载、切分、特征标准化、模型训练与评估,并展示了如何保存和加载模型。评估指标方面,分类任务使用准确率,回归任务则采用MAE、MSE和RMSE。

2025-08-28 14:27:43 291

原创 1.3 机器学习-特征工程

特征工程是将原始数据转换为有效特征以提升模型性能的过程,主要包括特征构建(如从日期提取星期几)、特征提取(如文本向量化)、特征变换(如标准化)和特征选择(如过滤冗余特征)。以乳腺癌数据集为例,通过Z-score或Min-Max方法对30个特征进行标准化处理,消除量纲差异,从而优化模型表现。特征工程需结合领域知识,并防止数据泄露(使用训练集统计量处理测试集)。

2025-08-27 08:30:00 851

原创 1.2 机器学习-向量化编程

从线性代数视角,机器学习就是一系列NumPy 构成了和等强大机器学习库的基础。NumPy 支持向量化编程,通过其内置的向量化函数和工具,可以高效处理数组运算,避免显式循环。从数学基础的线性代数视角来看,机器学习本质上可以理解为一系列矩阵变换和运算的过程。无论是简单的线性回归还是复杂的深度学习模型,其核心计算都可以归结为矩阵乘法、特征值分解、奇异值分解等线性代数运算。作为Python科学计算的基础库,NumPy在这个过程中的作用至关重要。

2025-08-26 10:21:54 613

原创 1.1 机器学习算法-sklearn源起

sklearn是 Python 中最流行的开源机器学习库之一,基于 NumPy、SciPy 和 Matplotlib 构建。它提供了丰富的机器学习算法和工具,适用于数据挖掘和数据分析任务。分类(如 SVM、随机森林、逻辑回归)等回归(如线性回归、岭回归)等聚类(如 K-Means、DBSCAN)等降维(如 PCA、t-SNE)等交叉验证、超参数调优(如网格搜索)等评估指标(如准确率、F1 分数、ROC 曲线)等标准化、归一化、缺失值处理、特征编码(如 One-Hot Encoding)等流水线(

2025-05-24 12:09:41 985

原创 检索增强生成(RAG)的局限性

让大模型先对问题进行一轮抽象,从大体上去把握用户的问题,获得一层高级思考下的语料块。这个策略的提示词写作:isandis假如是医疗咨询的场景,用户描述了一大段病情、现象、感受、担忧;或者在法律服务的场景,用户描述了现场情况、事发双方的背景、纠纷的由来等一大段话的时候,我们就可以用这个策略,让大模型先理解一下用户的意图是什么,这个事情大体上看是什么问题。

2025-04-04 15:00:00 921

原创 什么是检索增强生成(RAG)

是一种结合了信息检索和文本生成技术的新型自然语言处理方法。这种方法增强了模型的理解和生成能力。相较于经典生成式模型,检索增强生成技术通过引入外部数据源的实时上下文信息,无需修改模型参数即可动态整合未训练过的新知识,有效提升生成内容与搜索需求的相关性。这种机制能够灵活融合互联网实时资讯、企业专属业务场景数据及私有化文档资料等多样化信息源,在不触发模型重训练的前提下持续优化大语言模型的输出质量。接下来我们用一个通俗易懂的例子来解释检索增强生成。你是一个导游,在你的工作中遇到了问题。

2025-04-03 20:32:57 1209

原创 大模型-提示词(Prompt)最佳实践

所谓提示词工程(Prompt Engineering)就是研究如何构建和调整提示词,从而让大语言模型实现各种符合用户预期的任务的过程。就像跟AI沟通的艺术,为了让像DeepSeek这样的大语言模型更好地理解你的需求,你需要清晰地描述你的需求,提供必要的背景信息,明确告诉AI你想让它做什么。就像跟人沟通一样,你需要不断调整你的表达方式,直到AI理解你的意思,并给出你想要的答案。为了引导大模型按照我们预想的要求来完成各项任务,作为使用者,我们需要不断调整提示词,构建有效的提示词,从而不断地提升大模型的表现。

2025-04-02 11:46:26 1146

原创 大模型-提示词(Prompt)技巧

提示词的概念; 提示词技巧:直接提问、增加示例、分配角色、限定输出风格和格式,拆解复杂任务,使用分隔符号区分单元。

2025-04-01 23:30:06 2738

原创 大模型的特点和工作流程

在2021年,斯坦福大学的研究员团队发表了一篇论文,提出了(基础模型,即大模型)的概念。简单来说,它是一类具有大量参数(通常在十亿以上),能在极为广泛的数据上进行训练,并适用于多种任务和应用的预训练深度学习模型。在2022年11月,美国OpenAI公司发布了ChatGPT——一种先进的人工智能语言模型,专为对话交互而设计,具有强大的自然语言理解和生成能力,可以完成撰写论文、邮件、脚本、文案、翻译、代码等任务。

2025-03-30 22:19:36 1243

原创 DeepSeek入门到大师 清华大学[1-5版]全集

DeepSeek是什么?DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。

2025-02-23 23:14:23 910

原创 机器学习-生命周期

在使用机器学习中的术语表述上述用户申请贷款的例子时,可转换为二分类法评估用户的信用:信用好可以放款,信用差则拒绝放款。针对评估用户的信用问题,我们有哪些解决方案?人工审核或者采用机器学习的方式。假如确定采用机器学习的方式:最重要的是,应该如何衡量机器学习的结果,这个结果和期望相差多少如何减小这种差距。第一步便是定义问题,这需要团队成员同思考,给出各自的建议和理解,确定解决问题的思路。

2025-02-19 00:19:52 981

原创 deepseek+即梦一键生成海报

访问deepseek官方网站:https://www.deepseek.com/

2025-02-15 19:13:09 1451

原创 deepseek+“D-id”或“即梦AI”快速生成短视频

学会高效使用工具,deepseek+“D-id”或“即梦AI”快速生成短视频

2025-02-11 23:55:57 3718 1

原创 deepseek+kimi一键生成PPT

轻松使用大模型工具高效办公,deepseek+kimi一键生成PPT,让你不再为领导要求而烦恼。

2025-02-11 22:23:07 9623

原创 机器学习-数据预处理(附完整代码)

​ 在进行数据挖掘中,原始海量的数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以对首先对数据进行清洗就显得尤为重要,在数据清洗完成后,后续伴随着数据集成、转换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。

2025-02-07 00:02:16 3744 1

原创 机器学习-学习算法

机器学习。

2025-01-16 23:03:17 900

原创 机器学习训练方式和三要素

​判别模型是对数据输出做判别的模型,多用于监督学习,尤其适合。继续编辑。

2025-01-16 23:02:26 1503

原创 机器学习-数据标注(二)

是指三维数据的一种重要表达方式,通过激光雷达等传感器,能够采集到各类障碍物以及其位置坐标,而标注员则需要将这些密集的点云分类,并标注上不同属性,常应用于。数据标准是通过分类、画框、标注、注释等,对图片、语音 、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。、语义分割、实例分割、 目标检测、图像分类、关键点、线段标注、文字识别转写、点云标注、属性判断等。负责对文本、图像、语音、视频等标注数据进行归来、整理、编辑、标记和批注。是对事物属性进行标签,属性标注包括:文本类别、新闻、娱乐等。

2025-01-16 23:01:42 1846

原创 SparkSQL 执行底层原理解析

从Spark SQL 底层架构可以看到,我们写的SQL语句,经过一个优化器(Catalyst),转化为RDD,交给集群执行。SQL到RDD中间经过了一个Catalyst,它就是Spark SQL的核心,是针对Spark SQL语句执行过程中的查询优化框架,基于Scala函数式编程结构。

2023-12-24 20:55:08 2182

原创 Elasticsearch的分片平衡问题解决

2023年11月份在某电商系统生产中的Elasticsearch(以下简称ES)集群突然,出现了大量慢查询告警,导致请求堆积。经过几天的排查发现了ES节点主分片和副本分片分布存在不均匀的问题。当然了暂未有定论是由于分片不均衡导致了性能下降,但是主分片和副本分片分布不均匀确实是个问题。

2023-12-24 16:18:07 3845

原创 基于Headless构建高可用spark+pyspark集群

在启动spark worker脚本中需要传入master的地址,在容器云kubernetes dns且设置了service的缘故,可以通过ecc-spark-master.ecc-spark-cluster.svc.cluster.local:7077访问。没有默认负载均衡器,可直接访问 Pod IP 地址。spark master分为两个部分,一个是类型为ReplicationController的主体,命名为ecc-spark-master.yaml,另一部分为一个service,暴露master的。

2023-10-28 21:20:51 1018

原创 Python爬虫-经典案例详解

爬虫一般指从网络资源的抓取,通过Python语言的脚本特性,配置字符的处理非常灵活,Python有丰富的网络抓取模块,因而两者经常联系在一起Python就被叫作爬虫。爬虫可以抓取某个网站或者某个应用的内容提取有用的价值信息。有时还可以模拟用户在浏览器或app应用上的操作行为,从而实现程序自动化。

2023-10-28 19:16:42 436

原创 Hive SQL 函数高阶应用场景

HIVE作为数据仓库处理常用工具,如同RDBMS关系型数据库中标准SQL语法一样,Hive SQL也内置了不少系统函数,满足于用户在不同场景下的数据分析需求,以提高开发SQL数据分析的效率。我们可以使用show functions查看当下版本支持的函数,并且可以通过describe function extended funcname来查看函数对应的使用方式和方法,下面我们将描述HIVE SQL中常用函数的高阶使用场景。

2023-10-22 13:50:42 1753 4

原创 spark读写minio文件代码实践

Minion作为一个先进的对象存储方案,对于大数据和人工智能的支持有着天然的优势。它支持与Spark\Flink等技术方案进行整合,并且通过S3协议实现数据查询的下沉,这让大数据的存储与查询分离提供了事实依据。(2) 根据部署的minio服务的信息(如端口、Access Key、Secret Key、存储桶名称等),创建一个SparkSession对象,可以使用如下步骤进行读写Minio。(1) 首先,需要部署minio服务集群,搭建minio对象存储桶,可以参考我的文章。

2023-08-14 22:29:46 1793

原创 推荐系统-基于物品协同过滤算法代码实现

当前Spark没有像mahout那样,严格区分基于物品的协同过滤推荐(ItemCF)和基于用户的协同过滤推荐(UserCF),只有基于模型的协同过滤推荐算法ALS(model-based CF)。但ALS算法对于一些特定的问题(用户数量较小的场景,以及物品数量明显小于用户数量的场景),效果并不理想,不像mahout提供了各种推荐算法选择。为了充分利用spark在速度上带来的提升同时为满足一些业务需求,于是使用spark构建ItemCF算法。

2023-08-02 23:29:26 699

原创 推荐系统-ALS协同过滤算法代码实现

从协同过滤的分类来说,ALS(Alternating Least Squares,交替最小二乘)算法属于User-Item CF,也叫做混合CF,它同时考虑了User和Item两个方面。用户和物品的关系,可以抽象为如下的三元组:。其中,Rating是用户对商品的评分,表征用户对该商品的喜好程度。ALS算法是基于模型的推荐算法,,评估出缺失项的值,以此来得到一个基本的训练模型,然后依照此模型可以针对新的用户和物品数据进行评估。

2023-07-27 22:19:27 912

原创 推荐系统-基于标签的Top-N个性化推荐代码实现

本文主要探讨如何利用用户打标签的行为为其推荐物品,UGC标签系统受到越来越多的关注,标签既能反映用户的兴趣又能描述物品的本身特征。

2023-07-18 22:25:41 1642

原创 Elasticsearch 数据迁移方案

倘若准备将自建的 elasticsearch 迁移K8s,或者的迁移到其他elasticsearch集群,可以根据自己的业务需要选择适当的迁移方案,

2023-06-24 18:28:27 2911

原创 每个人都要会“Chat AI”的提问方式

,点击右侧的【获取】按钮,此处是我已经安装了插件所以是【删除】按钮,点击获取按钮后会弹出对话框,选择【添加扩展】即可下载安装插件,后面安装流程按提示完成即可。(4)回到浏览器,点击右上方的【+】按钮,会弹出新的选项卡"WebTab新标签页”,在新页面中点击【问心一言 AI】图标按钮。(5)如果用户已经登录,则会直接进入"问心一言"的对话界面,如果未登录,登录msn邮箱账号即可开启使用"问心一言"了。(1)切换到浏览器,选择右上方选项卡,在弹出的对话框中选择【扩展】选项,

2023-06-21 20:27:54 563

原创 redis运维小记批量处理

过期命令: redis-cli -h ip地址 -p 端口 -a 密码 keys "ACE_*" | xargs - i redis-cli -h ip地址 -p端口 -a 密码 expire {} $(($RANDOM + 54321))删除命令: redis-cli -h ip地址 -p 端口 -a 密码 keys "ACE_*" | xargs - i redis-cli -h ip地址 -p端口 -a 密码 del {}登录命令: redis-cli -h ip -p 端口。

2023-06-05 10:26:20 767

原创 推荐系统-基于领域的协同过滤算法选择(一文足矣)

为什么新闻推荐使用UserCF算法,而购物网站使用ItemCF算法?

2023-03-12 13:26:39 738

原创 基于容器云提交spark job任务

spark提交Kind=Job类型的任务,首先需要申请具有Job任务提交权限的rbac,然后编写对应的yaml文件,通过spark-submit命令提交任务到集群执行。

2023-03-04 19:21:41 1880

原创 ES使用Ngram分词器实现wildcard高性能替代方案

## 3.1 Ngram定义Ngram是一种基于统计语言模型的算法。Ngram的基本思想:是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。

2022-05-03 21:42:34 6017

机器学习-回归算法-逻辑回归模型-信用卡客户流失预警模型

机器学习-回归算法-逻辑回归模型-信用卡客户流失预警模型

2025-09-06

波士顿房价数据集,使用在机器学习KNN模型预测

波士顿房价数据集,使用在机器学习KNN模型预测

2025-08-25

实战企业级分拣系统

真正的工业应用,让你具备超强的工业设计与应用能力,成为工业巨头,德马泰克也要臣服脚下!自动分拣系统秒杀快递,啊哈。

2015-11-27

C++编程实践

C++编程思想是权威的C++家族的翘楚

2015-11-30

2024如何制定年度规划(1).pptx

规划文档ppt

2024-01-02

快速准确搭建好SSH框架开发环境

在java web开发中我们总是一直专注于传统的编程方式,但是利用Stuts + Hibernate + Spring框架会让你的编程变得更加的简单高效

2012-03-27

史上最好的.net三层架构实例

史上最好的.net三层架构实例,让你真正高效掌握

2016-03-07

给IT一份优秀的PPT

一份优秀的PPT,,适合开发者做各种优秀的工作。

2016-03-07

nfs-utils.tar.gz

nfs离线安装包,也可通过离线命令下载到本地目录: yum -y install --downloadonly --downloaddir /root/nfs nfs-utils

2021-07-04

最流行的java web开发框架

最流行的Java web开发框架,java web框架是目前为止最完整、最强大、最时髦的框架,即使是华为、阿里巴巴、京东等也不例外 。

2015-11-08

spark thriftserver(或hive)基于mysql8.x元数据库

支持mysql8.x,使用utf8mb4编码。

2021-09-19

有史以来最好的.net三层架构+AngularJs

有史以来最好的.net三层架构实例,让你真正高效掌握

2016-03-12

史上最好的苹果开发文档

史上最好的苹果端开发文档,从此处开始,你将探得意外的收获。当然如果你想更加深入的了解,请访问:https://niyao88.taobao.com/

2016-03-14

product-center-canal.zip

Canal全流程处理代码实战,数据解析,数据监听,数据处理,生产实战代码

2021-01-31

elasticsearch-http-client.zip

真正实战商城客户端搜索引擎代码

2021-03-07

search-client.zip

真正实战商城客户端搜索引擎代码

2021-03-07

product-center-common.zip

商品中心,Canal使用Common类

2021-01-31

Modern C++ 设计

这本书将代你从低版本的VC6.0 到高版本VS2010甚至更高版本的演变,让你极限编程,畅想C++带来的魅力。

2015-11-30

心跳按钮+圆形按钮源代码

如Iphone上的按钮,可以自由跳动,跳动频率自由设定,按钮支持各种形状。再加上圆形按钮绝对是唯一。

2014-08-13

iOS组件与框架 iOS SDK高级特性剖析

iOS组件与框架 iOS SDK高级特性剖析,全方位讲解了 UI的设计和UI高级类库的使用;

2016-07-07

Mx Component Version4

好的东西大家要乐于分享,分享才能彼此进步!

2014-09-26

More Exceptional C++

More Exceptional C++ 以实例方式告诉我们如何有效进行坚实的软件工程,是 Exceptional C++进行有效深入的研究。

2015-11-30

Essential C++

C++面向对象编程技术的极点,有效的C++(Essential C++)不仅从技术上给予C++程序员深入指导,而且从思想上解放C++开发者,并且已经成为深入学习C++面向对象编程俱佳书籍

2015-11-30

Exceptional C++

Exceptional C++ 以实例方式告诉我们如何有效进行坚实的软件工程

2015-11-30

高校实验室建设与系统维护

信息系统的建设是一个非常复杂的过程,但是这个资源能够让你感受真正的信息系统的基本建设。

2012-03-27

Effective C++(有效的C++)

有效的C++(Effective C++)不仅从技术上给予C++程序员深入指导,而且从思想上解放C++开发者,并且已经成为深入学习C++俱佳书籍

2015-11-30

C++编程思想

C++编程思想是权威的C++家族的翘楚之一,C++编程思想用巧妙的方式全方位阐述了C++的企业级权威发布应用。

2015-11-30

Effective STL

Effective STL 不仅从技术上给予C++程序员深入指导,而且从思想上解放C++开发者 是深入学习C++俱佳书籍

2015-11-30

微软权威的图表演示程序

对进行图标开发的人员来说,这绝对是首选。

2014-08-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除