机器学习开发流程

博客介绍了数据来源,包括公司自有、合作及购买的数据。阐述开发过程,如明确问题、数据处理、特征工程、选算法建模、评估模型后上线。还说明了数据类型分离散和连续型,应据此选算法,最后介绍了监督学习(含分类、回归)和无监督学习的算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 数据来源
  1. 公司本身就有数据
  2. 合作过来的数据
  3. 购买的数据
  • 开发过程
  1. 明确做什么问题–建立模型[根据数据类型]
  2. 数据的基本处理: pd去处理数据(缺失值,合并)
  3. 特征工程(对特征进行处理)【非常重要】
  4. 寻找合适的算法进行预测 模型:算法 + 数据
  5. 模型的评估,判定效果
  6. 上线使用, 以API形式提供
  • 判断数据类型
  1. 离散型:在区间内不可再分,通常为整数。例如:人的数量
  2. 连续型:在区间可分,可以无限划分,通常为非整数,含有小数部分。例如:长度、时间、质量
  • 根据数据类型选择合适的算法
    比如一般来说目标值为离散型数据通常会作为分类算法的数据[猫狗的图像分类]
    目标值连续型数据通常会作为回归型算法的数据[股票预测]
  • 机器学习算法分类
  1. 监督学习(预测):有特征值和目标值
    1> 分类 K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
    2> 回归 隐马尔可夫模型
  2. 无监督学习:只有目标值
    聚类 k-means
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值