我裂解的机器学习(ML)

本文介绍了机器学习的基本概念及其在数据分析中的应用价值。探讨了机器学习、人工智能、数据挖掘及模式识别之间的内在联系,并通过kmeans算法在分布式环境下的实现案例,展示了聚类过程的具体步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习是指一套工具、方法或程式,使到我们可以从现实世界的海量数据里提炼出有价值的知识,规则和模式,然后将它们反哺给前台应用系统,进行预测,推荐等能产生直接经济价值的场景,给用户带来“机器具备人类般高智能”的震撼性体验。对于数据越来越多,而人力成本又越来越高的大数据时代,机器学习能降低企业进行数据分析的成本,掌控有关技术,可以给企业和个人带来巨大的价值。


机器学习,人工智能,数据挖掘,模式识别等技术,其实是同一座山峰在不同视角下的侧影,其技术内涵几乎是一样的,都是回归,分类器,聚类,频繁模式挖掘,神经网络等等,我们学习机器识别的同时,学到的知识同样也可以用于数据挖掘和设计机器人这样高度智能化的产品,这些领域概念之间至少在技术上没有界限,是互相渗透的。


其实像kmeans在分布式环境下的聚类过程很好想像,就是需要一批向量的数据,和一批随机中心点的数据,map读数据看看和哪个中心点近将key设置成最近的中心点的序号,reduce设置和k相同的个数,reduce里将每个送过来的向量计算求出新的中心点,修正老的中心点。输出向量这样就形成了一次聚类的过程然后再来一次mapreduce,循环下去知道中心点不动了聚类就结束了。


这里面主要是修正中心点需要reduce去修改或是形成新的中心点。其实reduce可以在自己的运行目录里创建临时文件然后放到HDFS里,下个循环再用 。-file 这个可以用一下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值