
机器学习ML
文章平均质量分 95
机器学习ML
AI仙人掌
NLP算法专家|深耕智能文本处理领域,专注用AI技术驱动金融与政务场景的数字化转型
技术核心能力
领域专长
• 金融政务场景:10年+垂直领域经验,聚焦智能风控、政务文档解析、高精度信息抽取
• 文本智能处理:构建金融合同解析、监管文件结构化、政务问答系统等20+行业解决方案
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AI与机器学习ML:利用Python 从零实现神经网络
本文介绍了神经网络的基本结构与工作原理。通过一个包含10个观测值和3个特征变量的简单数据集示例,详细阐述了神经网络的前向传播过程,包括输入层、隐藏层和输出层的计算流程。文章重点讲解了反向传播机制和梯度下降算法,说明如何利用损失函数(二进制交叉熵)来调整权重和偏差参数,以最小化预测误差。示例中展示了ReLU和Sigmoid激活函数的使用场景,并演示了从输入数据到预测输出的完整计算过程,为理解神经网络的内部机制提供了清晰的技术路径。原创 2025-06-13 14:49:29 · 941 阅读 · 1 评论 -
机器学习与人工智能:NLP分词与文本相似度分析
本文介绍了自然语言处理(NLP)中的基础技术,包括分词、文本预处理、词袋模型和余弦相似度。作者通过构建一个简单的Python NLP对象,展示了如何将文本数据转换为计算机可理解的格式,并计算文本之间的相似度。文章详细解释了分词、停用词去除、n-grams生成等预处理步骤,并介绍了词袋模型的基本概念。最后,作者通过余弦相似度公式,展示了如何衡量文本之间的相似性。本文旨在为读者提供NLP的基础知识,并鼓励读者通过DIY方式深入理解这些技术。原创 2025-05-17 00:15:00 · 1174 阅读 · 1 评论 -
利用“Flower”实现联邦机器学习的实战指南
本文深入探讨了联邦机器学习(Federated Machine Learning)的概念及其应用,通过使用 Flower 框架,作者详细介绍了如何在不共享数据的情况下,利用多个医疗机构的数据安全地训练一个可以检测眼部疾病的机器学习模型。文章从数据集的准备、模型的训练与评估,到联邦学习的具体实现步骤,进行了全面的讲解,并展示了联邦学习在处理数据隐私和模型性能方面的优势。原创 2025-05-11 15:12:06 · 1388 阅读 · 0 评论 -
通过 ModernBERT 实现零样本分类的性能提升
基于 ModernBERT 的新型文本分类模型 GLiClass,在零样本和少样本设置下展现出卓越的性能。GLiClass 结合了复杂模型的准确性与嵌入式方法的效率,通过标签整合、上下文表示学习、表示池化和灵活评分机制,实现输入文本与标签之间的丰富交互。该模型支持多类分类、主题分类、情感分析、事件分类、基于提示的约束分类、自然语言推理以及检索增强生成(RAG)等多种应用场景。实验结果显示,GLiClass 在多个文本分类数据集上表现优异,尤其在零样本设置下展现出强大的泛化能力,为现代 NLP 任务提供了一个原创 2025-05-07 00:00:00 · 1956 阅读 · 28 评论 -
如何让模型聪明地选择特征:一种“蒸馏及选择”的方法
本文介绍了一种创新的“蒸馏及选择”(Distill-to-Select)方法,旨在通过模型蒸馏技术实现高效的特征选择和模型简化。该方法首先训练一个复杂的教师模型(如LightGBM),然后将其知识提炼到一个稀疏的学生模型(如逻辑回归)中,通过复合损失函数(结合预测损失、蒸馏损失和稀疏性损失)优化学生模型。实验表明,提炼后的学生模型不仅性能与教师模型相当,还具有更高的可解释性和稀疏性,能够自动筛选出核心特征。这种方法适用于多种模型架构,具有广泛的适用性和灵活性,为复杂模型的简化和特征选择提供了一种全新的解决方原创 2025-05-02 13:49:05 · 1251 阅读 · 4 评论 -
监督学习中自适应模型选择与混合策略:基于强化学习RL的马尔可夫决策过程
无需监督微调的强化学习:通过强化学习(RL)在试错中发展推理能力,无需依赖大型标注数据集。我将RL代理应用于动态学习最佳模型选择策略,无需微调。随着时间的推移,它可以在新数据集或领域中泛化,无需重新训练模型,类似于元学习。例如,代理可能学会在结构化数据中使用XGBoost,在非线性数据中使用DNN,自动适应变化的条件。数据驱动的模型选择与分类:根据数据上下文激活相关的模型组件,使过程高效且有针对性。同样,RL。原创 2025-04-29 02:00:00 · 1576 阅读 · 40 评论 -
机器学习算法速查表:数据科学家的宝藏秘籍
机器学习的世界里充满了各种各样的算法,每个算法都有自己的优势、劣势和应用场景。作为一名数据科学家,知道何时以及如何使用这些算法,是解决实际问题的关键。这份速查表将带你快速了解最流行的机器学习算法,解释清晰,例子实用,还加了一些有趣的表情符号,让学习过程更加轻松愉快!🎉。原创 2025-04-30 00:00:00 · 1625 阅读 · 0 评论 -
机器学习分类模型性能评估:应对类别不平衡的策略与指标
在机器学习中,构建分类模型时,我们常常面临数据类别不平衡的问题,例如在罕见疾病检测任务中,患病样本极少。这种情况下,传统的准确率指标可能误导模型性能评估,因为简单地预测多数类就能获得高准确率,但这忽略了少数类的检测。本文通过混淆矩阵引出多种性能评估指标,包括召回率、精确率和F1分数,详细探讨了它们在处理类别不平衡问题时的优势与适用场景,帮助读者理解如何选择合适的指标来准确评估分类模型的性能,从而更好地应对实际应用中的挑战。原创 2025-04-29 00:00:00 · 1140 阅读 · 2 评论 -
人工智能与机器学习:Python从零实现K-Means 算法
我的博客主页: https://lizheng.blog.youkuaiyun.comK-Means 可是我超喜欢的机器学习算法呢,因为它能帮我们发现数据里那些隐藏起来的模式呢。要是用得好的话,它能把你数据里的分组或者聚类情况展示得明明白白的,那可都是因为它背后那些严谨的数学原理呢。这在现实生活中可有不少厉害的应用呢。比如说呀,要是你负责分析一个电商网站的点击流数据呢,你就可以用 K-Means 把顾客按照他们点击的内容、加入购物车的东西,还有购买的东西来分成不同的群组呢。这就能帮你搞出一套个性化策略呢,根据顾客所在原创 2025-04-28 22:00:00 · 738 阅读 · 7 评论 -
人工智能与机器学习:Python从零实现性回归模型
带你从零实现一个线性回归模型,不依赖任何机器学习库。从数据预处理、归一化,到实现 Sigmoid 函数、计算损失函数,再到用梯度下降找到最优权重,每一步都详细讲解。最后,咱们还用加州房价数据集测试了模型,准确率达到了80%,和 sklearn 的模型不相上下。原创 2025-04-26 00:00:00 · 2354 阅读 · 55 评论 -
人工智能与机器学习:Python从零实现逻辑回归模型
这篇文章带你从零实现一个逻辑回归模型,不依赖任何机器学习库。从数据预处理、归一化,到实现 Sigmoid 函数、计算损失函数,再到用梯度下降找到最优权重,每一步都详细讲解。最后,咱们还用心脏病发作数据集测试了模型,准确率达到了80%,和 sklearn 的模型不相上下。原创 2025-04-25 18:14:44 · 1490 阅读 · 9 评论 -
人工智能与机器学习:二元分类决策树构建指南
本文围绕构建用于二元分类的决策树展开。先介绍决策树的概念、结构及元素,以邮件欺诈检测为例说明其工作原理。接着讲解构建决策树的基尼不纯度指标,包括分类和连续变量的计算方法。最后给出Python实现,定义 DIYClassificationDecisionTree 类,包含超参数设置、数据划分、拟合及构建树等方法,助读者掌握决策树构建技巧。原创 2025-04-24 20:30:00 · 1152 阅读 · 6 评论 -
数据集中常见的11种变量类型及其在数据分析中的重要性
本文介绍了数据集中常见的11种变量类型及其在数据分析中的重要性。自变量和因变量是基础,而混杂变量和相关变量需特别注意,因为它们会影响因果推断的准确性。控制变量用于消除混杂因素的影响,潜在变量则通过其他变量推断得出。交互变量衡量多个变量间的相互作用,平稳和非平稳变量在时间序列分析中至关重要。滞后变量用于捕捉历史信息,而泄露变量可能导致模型过拟合。了解这些变量类型有助于更好地构建和优化数据分析模型。原创 2025-04-24 10:45:20 · 1068 阅读 · 1 评论 -
机器学习ML极简指南
机器学习是现代AI的核心,从推荐系统到自动驾驶,无处不在。但每个智能应用背后,都离不开那些奠基性的模型。本文用最简练的方式拆解核心机器学习模型,助你面试时对答如流,稳如老狗。原创 2025-03-30 01:13:06 · 1403 阅读 · 22 评论 -
自适应多模型蒸馏:一种将多个预测模型动态组合成轻量高性能学生模型的新方法
在机器学习中,依赖单一模型(如XGBoostLightGBM或)进行预测是常见做法。然而,正如多样化的专家团队能做出更优决策一样,多个预测模型(“教师”)可以指导一个更简单、轻量的模型(“学生”)学习更全面的模式。这种方法称为知识蒸馏,本文介绍了一种自适应多教师蒸馏。原创 2025-03-28 13:11:02 · 1182 阅读 · 17 评论 -
网络舆情监测在教育行业的必要性
近年来,教育网络舆情爆发频率较高,纷繁复杂的突发事件将部分学校和教育主管部门卷入到安全和声誉的危机之中。古语云:“三人成虎,众口铄金”。这也意味着,人的语言和报纸、电视、互联网等媒介组成的传播世界对公众了解事实真相起到了决定性的作用。这种作用在互联网时代体现的尤为明显,教育工作者、教育主管部门应高度重视网络舆情,加强管理,科学研判,积极应对,趋利避害。教育舆情是人们在网络上对教育行业,教育机构...原创 2020-04-07 09:54:09 · 1335 阅读 · 0 评论 -
python sklearn模型融合案例分享
heamy库的blending方法和mlxtend库的Stacking 方法# -*- coding: utf-8 -*-from heamy.dataset import Datasetfrom heamy.estimator import Regressor, Classifierfrom heamy.pipeline import ModelsPipelinefrom skle...原创 2019-04-16 13:37:32 · 3260 阅读 · 1 评论 -
文本分类问题的增量学习 PassiveAggressiveClassifier在线主动攻击型分类算法 大数据
实际解决机器学习问题过程中,我们会遇到一些“大数据”问题,比如有上百万条数据,上千上万维特征,此时数据存储已经达到10G这种级别。如果是文本分类分体,你还需要提取文本特征,这时候如果把数据load到内存,那占用内存就太大了,如何解决:1. 对数据进行降维?2. 使用流式或类似流式处理?3. 上大机器,高内存的,或者用spark集群。本文将要介绍的是一种增量学算法PassiveAggressiveC...原创 2017-12-27 16:47:00 · 6929 阅读 · 1 评论