05-机器学习算法分类以及开发流程

"""
1. 需要明确:
    算法是核心,数据和计算是基础

2. 找准定位:
    如果只是开发工程师:没必要把数学的推导搞得特别清楚。仅需要把算法的原理搞清楚、知道用在哪些方面、该算法擅长及不擅长的领域即可
        重要:
            特征工程、调参数、优化
    大部分复杂模型的算法设计都是算法工程师在做
    应该怎么做?
        1. 学会分析问题,使用机器学习算法的目的,想要算法完成何种任务
        2. 掌握算法基本思想,并对问题用相应的算法以及库和框架去解决问题

3. 机器学习算法的判别依据
    数据类型:
        离散型数据,又称计算数据:全部是整数,不能再细分,也不能再进一步提高其精确度
        连续型数据:变量可以在某个范围内取任一数,如时间、质量等,含有小数部分
        仅需记住:离散型区间内不可分,连续型区间内可分
    数据类型个不同应用:
        离散型:分类
        连续型:预测

4. 机器学习算法的分类:
    监督学习(预测):有特征值+目标值,即有标准答案
        分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
            目标值是离散型数据
            概念:分类是监督学习的一个核心问题,在监督学习中,当输出变量取有限个离散值时,预测问题会变成分类问题。最基础的便是二分类问题,即判断是否
        回归:线性回归、岭回归
            目标值是连续型数据
            用途:用于预测输入变量和输出变量之间的关系
        标注:隐马尔可夫模型
    无监督学习:只有特征值,即没有标准答案
        聚类:k-means

5. 机器学习的开发流程:
    (围绕)数据:
        来源:
            1. 本身有数据
            2. 合作过来数据
            3. 购买的数据(很少)
        流程:
            1. 原始数据:明确问题做什么。即建立模型(到底是分类还是回归等):根据数据类型(目标值类型),划分应用种类
            2. 数据的基本处理:用pd去处理数据(缺失值、合并表...)
            3. 特征工程:对特征进行处理(重要环节)
            4. 找到合适的算法去进行预测

            ps:模型=算法+数据
            5. 模型的评估:判定模型的效果怎么样。
                如果模型评估没有合格:
                    1. 换算法、参数
                    2. 特征工程重新处理
            6. 上线使用:常以API形式提供
"""
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值