机器学习处理

本文探讨了Spark MLlib在数据科学项目中的角色,包括其架构定位、算法分类及监督与非监督学习的区别。通过Twitter数据集,详细讲解了聚类分析与Scikit-Learn的应用,并覆盖了机器学习流程的关键步骤,如特征工程、模型训练与验证,以及避免过拟合的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

http://www.aboutyun.com/forum.php?mod=viewthread&tid=21514
Spark【python】开发者—Spark与Twitter数据的机器学习实践
问题导读:
1. Spark MLlib 在应用架构中是什么位置?
2. Spark MLlib 中算法怎么分类的?
3. 监督和非监督式学习的异同点?
4. 机器学习的工作流和数据流是如何工作的?
5. 如何用Twitter 数据集聚类?
6. 如何在Twitter 数据集上应用Scikit-Learn?

https://monkeylearn.com/blog/gentle-guide-to-machine-learning/
A Gentle Guide to Machine Learning
一、现实中的机器学习
1.图像处理
 图像标签
 图形识别
 汽车自动驾驶

2.文本分析
 垃圾邮件过滤
 情感分析
 信息提取

3.数据挖掘
 异常检查
 关联规则
 聚类
 预测

电脑游戏和机器人

二、机器学习算法分类
 监督学习和无监督学习
1.监督学习
 分类
 回归
2.无监督学习
 聚类算法

三、机器学习算法
支持向量机
概率模型
深度学习

四、使用机器学习要注意的几个方面
1.应该用什么机器学习算法?
 监督还是无监督
 分类、回归还是聚类
 深度学习、支持向量机、朴素贝叶斯、决策树

2.特征工程
 (1)特征提取
  将行数据转化为特征向量
 (2)特征选择
  特征选择算法
  避免选择过多的特征 可能会造成维灾难

五、训练样本

六、测试样本并验证规律
 训练样本和测试样本不能相交
 过拟合:模型过度依赖训练样本,预测效果欠佳
 避免过拟合的方法是尽量使用简单的模型和更少的特征,简化模型并且使用更大且更具有代表性的训练集
 除了准确率,还要注意精确率和召回率
 混淆矩阵可以用来测试分类算法的准确性

七、应用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值