机器学习算法的应用场景

各种算法的应用场景的使用;简单数据,稀疏数据适用简单模型(LR,linearSVM等),连续数据,复杂数据用复杂模型;
    各种算法的应用场景介绍:
        KNN的使用场景:需要一个特别容易解释的模型时;比如需要向用户解释原因的推荐算法
        贝叶斯:使用比较广的是朴素贝叶斯,所以处理不同维度之间相关性比较小的数据,比较适用
        决策树:能够清晰的基于选择不同预测结果的树状结构,树的顶层特征往往能代表一些重要的信息
        随机森林:数据维度相对较低的数据(几十维度),同时对准确性有较高的要求
        SVM:和随机森林一样,对数据的抗干扰能力很强;
        LR: 本质上是一种线性分类器,所以处理不好特征之间线性相关的数据;
            LR要求特征最好是稀疏的,就是因为稀疏可以使得特征之间的相关性下降
            在另一个方面,LR学习到的是每个特征的权重,所以也可以用来特征选择
        神经网络:对于复杂特征的数据学习的效果很好;
        Boosting:提升算法 自带特征选择,GBDT只是使用CART回归树来作为基分类器(无论是分类模型还是回归模型);
            GBDT:一般树的深度为6层左右就可以了,远远的小于随机森林;
            GBDT算法的理解:使用购物金额和购物次数两个特征,来预测购物的年龄;
            使用cart回归树进行分类模型,对于样本,分为三类,每类构建一颗决策树,
                                        对于每一条样本将标签添加到样本中去(x,0),(x,1),(x,0),对所有的子节点的标签值求平均;
                                        然后作为求残差进行下一轮的迭代;最后用softmax来比较大小;

8:卡方检验特征选择过程理解:
    卡方检验用来描述两个特征的独立性,或者是实际值和期望值的偏离程度,如果卡方检验的值越大表示两个特征越独立以及实际值和期望值偏离的越大;
    通常会有一个假设,如果计算出的卡方值过大,说明实际与原假设的偏离程度越大;
    通常假设检验的方式是:假设两个特征之间是无关的,如果得到的假设检验值p-value值为0.01,表示只有0.01的概率发生这样的事情,也就是有0.99的概率表明原假设错误,也就是有0.99的概率表明两个特征是相关的;
    在Python中sklearn中的卡方检验的方式from sklearn.feature_selection import SelectKBest
                            from sklearn.feature _selection import chi2
                            model=SelectBest(chi2,k=2)
                            model.fit_transpose(X_train,y_train)
                            #返回相应的值得结果;
                            
9:面试中被问到的决策树缺失值的处理:
    1. 在选择分裂属性的时候,训练样本存在缺失值,如何处理?(计算分裂损失减少值时,忽略特征缺失的样本,最终计算的值乘以比例(实际参与计算的样本数除以总的样本数))

        假如你使用ID3算法,那么选择分类属性时,就要计算所有属性的熵增(信息增益,Gain)。
        假设10个样本,属性是a,b,c。在计算a属性熵时发现,第10个样本的a属性缺失,那么就把第10个样本去掉,前9个样本组成新的样本集,在新样本集上按正常方法计算a属性的熵增。
        然后结果乘0.9(新样本占raw样本的比例),就是a属性最终的熵。
    2.分类属性选择完成,对训练样本分类,发现样本属性缺失怎么办?(将该样本分配到所有子节点中,权重由1变为具有属性a的样本被划分成的子集样本个数的相对比率,计算错误率的时候,需要考虑到样本权重)

        比如该节点是根据a属性划分,但是待分类样本a属性缺失,怎么办呢?假设a属性离散,有1,2两种取值,那么就把该样本分配到两个子节点中去,但是权重由1变为相应离散值个数占样本的比例。
        然后计算错误率的时候,注意,不是每个样本都是权重为1,存在分数。
    3.测试样本中有缺失值怎么办;
        使用缺失值补全的方式进行(最简单的方式),填充所有的可能值,为其可能值做一个分类或者回归得到相应的分类结果;

分类:分类可以找出这些不同种类客户之间的特征,让用户了解不同行为类别客户的分布特征,从而进行商业决策和业务活动,如:在银行行业,可以通过阿里云机器学习对客户进行分类,以便进行风险评估和防控;在销售领域,可以通过对客户的细分,进行潜客挖掘、客户提升和交叉销售、客户挽留等 聚类:通常”人以群分,物以类聚”,通过对数据对象划分为若干类,同一类的对象具有较高的相似度,不同类的对象相似度较低,以便我们度量对象间的相似性,发现相关性。如在安全领域,通过异常点的检测,可以发现异常的安全行为。通过人与人之间的相似性,实现团伙犯罪的发掘 预测:通过对历史事件的习来积累经验,得出事物间的相似性和关联性,从而对事物的未来状况做出预测。比如:预测销售收入和利润,预测用户下一个阶段的消费行为等 关联:分析各个物品或者商品之间同时出现的机率,典型的场景如:购物篮分析。比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很好的规划商品摆放问题。在电商网站中,利用关联规则可以发现哪些用户更喜欢哪类的商品,当发现有类似的客户的时候,可以将其它客户购买的商品推荐给相类似的客户,以提高网站的收入。
回答: 机器学习算法有广泛的应用场景。根据引用\[3\]中的整理,以下是一些机器学习算法的使用场景示例: - 分类算法应用场景: 例如,垃圾邮件过滤、文本分类、图像识别、疾病诊断等。 - 回归算法应用场景: 例如,房价预测、销售预测、股票价格预测等。 - 聚类算法应用场景: 例如,市场细分、社交网络分析、异常检测等。 - 关联规则应用场景: 例如,购物篮分析、推荐系统、市场篮子分析等。 这些只是机器学习算法的一部分应用场景,实际上,机器学习算法在各个领域都有广泛的应用,如金融、医疗、交通、电子商务等。通过选择合适的算法和数据,可以解决各种实际问题,并提供智能化的解决方案。 #### 引用[.reference_title] - *1* *2* [机器学习算法原理:详细介绍各种机器学习算法的原理、优缺点和适用场景](https://blog.youkuaiyun.com/a871923942/article/details/130439617)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [机器学习算法应用场景实例六十则](https://blog.youkuaiyun.com/u011323949/article/details/108084614)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值