1.背景介绍
机器学习概述
机器学习(Machine Learning)是计算机科学的一个研究领域,其旨在使计算机系统可以自动地学习并 improve 从经验中获得的知识,以便更好地做出决策、预测或指导其他动作。它主要包括监督学习、无监督学习、半监督学习、强化学习等四个子领域。其中,监督学习包括分类、回归问题;无监督学习则主要包括聚类、降维和密度估计问题;半监督学习通过标注少量的有限数据集进行训练并提升模型性能,如文本挖掘、图像识别、新闻分类、医疗诊断等领域;强化学习利用环境信息及奖励机制进行决策与学习,旨在学习控制问题。目前,机器学习已经成为一个热门话题,主要原因是其能够在海量数据中找到有效的模式,解决复杂的问题,有着广阔的应用前景。
概念阐释
数据采集:从各种渠道获取大量的数据。如获取用户的搜索记录、购物习惯、使用行为、公开信息等。
特征工程:将数据转换为可用于机器学习的形式。通过对原始数据进行分析和处理,提取特征(feature),可以帮助我们发现数据的共性和规律,并找出那些可能影响目标变量的潜在因素。例如,对于某个用户来说,可能有的特征是他最近的一次购买时间、是否会下单、收藏了哪些商品、浏览过哪些页面、使用什么设备、访问什么网站等。
数据清洗:将数据进行清洗、规范化、转换等,让数据处于合法的状态。数据清洗包括缺失值处理、异常值处理、数据合并、数据融合等。
特征选择