机器学习

当前热词解释

 

 

 

机器学习基本术语

 

数据集:

 

 

样例:

 

特征:

 

特征值属性值:(某特征的具体值)

 

缺失数据:补全或删除

 

标签:

 

总的数据量有100W。

训练数据

取出90w  作为训练数据

80w是训练集,用于真正的模型计算(学习)。è 得到结论(判断逻辑/模型)

10w是验证集,用于验证计算出的模型。    è  验证结论(模型)--》yes/no

 

测试数据

剩余的10W是测试集,用于测试计算出的模型(套用前面的结论/模型)。  è测试前面的结论(模型)

 

模型训练的三步: 1: 模型训练    2:模型验证      3:模型测试

举例说明:

好比就是推导出一个数据公式a*a+b*b=c*c(勾股定理)  验证这个公式对不对,再测试这个公式 ,这个例子可以不 

 

 

机器学习的整体流程

 

 

 

机器学习算法分类

监督学习:是指每个进入算法的训练数据样本都有对应的期望值也就是目标值

 

 

无监督学习:是指每个进入算法的训练数据样本没有对应的期望值。

 

 

半监督学习:对样本的部分打标来进行机器学习

 

增强学习(强化学习):一种比较复杂的机器学习种类,强调的是系统与外界不断地交互,获得外界的反馈,然后决定自身的行为。

阿尔法Go 下象棋。

 

 

机器学习在大数据项目中的位置

 

 

用户价值模型-RFM

XXX网店,6-18期间得活动到底发给谁????

例如有50w历史用户,如何对用户分群???

使用RFM模型对用户分群

 

RFM是

Rencency(最近一次消费)----  最后一次得消费得时间

Frequency(消费频率)   ----  消费次数(半年内/一年内/所有)

Monetary(消费金额)   ----   消费金额(半年内/一年内/所有)

   

 

 

 

R(日期)     F(次数)    M(人民币)

张三      2020-06-15       100           56550
李四      2020-03-19       30            55660

以上数据量纲(相当于单位)不相同,无法直接进行计算。

需要将去转换为相同量纲得数据,才能计算

R(日期)

今日日期2020年06月19日

认为设立一个规则

1-5à5分    6-10à4分    11-20à3分   21-30à2分    31+à1分【业务部门确定】

张三       4   à  5分(2020-06-15)

李四       90  à  1分(2020-03-19)

 

F(次数)

 ≥200=5分,150-199=4分,100-149=3分,50-99=2分,1-49=1分【业务部门确定】

张三     3分(100)

李四     1分(30)

 

M(人民币)

≥20w=5分,10-19w=4分,5-9w=3分,1-4w=2分,<1w=1分    【业务部门确定】

张三     3分(56550)

李四     3分(55660)

-----------------------------------------------

张三  5分     3分     3分       1  高价值

李四  1分     1分     3分       0  低价值

王五  4分     4分     3分       1  高价值

-----------------------------------------------  

数据归一化:

将不同量纲得数据整理成相同量纲得数据

 

如何进行分类??

1、求和  ??

2、放入空间??

3、使用机器学习算法(K-Means聚类

   超高   高   中高   中    中低    低   超低(id  ,  rule)

 

 

计算流程

第一步:计算每个用户的最后一次消费时间,一定时间段内(半年/一年/所有)的消费数量,消费金额

第二步:数据归一化,将不同量纲(单位)的数据处理成相同量纲的数据

第三步:使用机器学习算法K-Means进行聚类(分类)

第四步:根据标签系统,进行标签匹配,打标签。

基于数据驱动的 Koopman 算子的递归神经网络模型线性化,用于纳米定位系统的预测控制研究(Matlab代码实现)内容概要:本文围绕“基于数据驱动的 Koopman 算子的递归神经网络模型线性化,用于纳米定位系统的预测控制研究”展开,提出了一种结合数据驱动方法与Koopman算子理论的递归神经网络(RNN)模型线性化方法,旨在提升纳米定位系统的预测控制精度与动态响应能力。研究通过构建数据驱动的线性化模型,克服了传统非线性系统建模复杂、计算开销大的问题,并在Matlab平台上实现了完整的算法仿真与验证,展示了该方法在高精度定位控制中的有效性与实用性。; 适合人群:具备一定自动化、控制理论或机器学习背景的科研人员与工程技术人员,尤其是从事精密定位、智能控制、非线性系统建模与预测控制相关领域的研究生与研究人员。; 使用场景及目标:①应用于纳米级精密定位系统(如原子力显微镜、半导体制造设备)中的高性能预测控制;②为复杂非线性系统的数据驱动建模与线性化提供新思路;③结合深度学习与经典控制理论,推动智能控制算法的实际落地。; 阅读建议:建议读者结合Matlab代码实现部分,深入理解Koopman算子与RNN结合的建模范式,重点关注数据预处理、模型训练与控制系统集成等关键环节,并可通过替换实际系统数据进行迁移验证,以掌握该方法的核心思想与工程应用技巧。
基于粒子群算法优化Kmeans聚类的居民用电行为分析研究(Matlb代码实现)内容概要:本文围绕基于粒子群算法(PSO)优化Kmeans聚类的居民用电行为分析展开研究,提出了一种结合智能优化算法与传统聚类方法的技术路径。通过使用粒子群算法优化Kmeans聚类的初始聚类中心,有效克服了传统Kmeans算法易陷入局部最优、对初始值敏感的问题,提升了聚类的稳定性和准确性。研究利用Matlab实现了该算法,并应用于居民用电数据的行为模式识别与分类,有助于精细化电力需求管理、用户画像构建及个性化用电服务设计。文档还提及相关应用场景如负荷预测、电力系统优化等,并提供了配套代码资源。; 适合人群:具备一定Matlab编程基础,从事电力系统、智能优化算法、数据分析等相关领域的研究人员或工程技术人员,尤其适合研究生及科研人员。; 使用场景及目标:①用于居民用电行为的高效聚类分析,挖掘典型用电模式;②提升Kmeans聚类算法的性能,避免局部最优问题;③为电力公司开展需求响应、负荷预测和用户分群管理提供技术支持;④作为智能优化算法与机器学习结合应用的教学与科研案例。; 阅读建议:建议读者结合提供的Matlab代码进行实践操作,深入理解PSO优化Kmeans的核心机制,关注参数设置对聚类效果的影响,并尝试将其应用于其他相似的数据聚类问题中,以加深理解和拓展应用能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值