第1章 数据的量化和特征提取
前言:
读者朋友们大家好,从这篇开始更新我本人撰写的《速通机器学习》一书;本书已出版并发售于JD,想要实体书的可以自行购买。
本书从传统的机器学习,如线性回归、逻辑回归、朴素贝叶斯、支持向量机、集成学习,到前沿的深度学习和神经网络,如DNN、CNN、BERT、ResNet等,对人工智能技术进行零基础讲解,内容涵盖数学原理、公式推导、图表展示、企业应用案例。
本书面向初,中级读者,能帮助读者迅速掌握机器学习技术的相关概念及原理。本书内容结合作者多年的科研工作经验,理论和实践并重,对科研、学习、面试等均有帮助。
如若想要《速通机器学习》与《速通深度学习数学基础》二书电子档,可以后台私信或者评论区留言;如对机器学习感兴趣想一起学习讨论也可后台留言,我看到就会回复;谢谢大家。
序
机器学习是人工智能领域最活跃的分支之一,作为多学科交叉的重要工具,为计算机领域解决实际学习问题提供了理论支撑与应用算法。近年来,机器学习在互联网应用中崭露头角,计算机视觉、自然语言处理、推荐系统、搜索系统等积累了大量的数据和丰富的场景,促进了包括机器学习在内的诸学科的发展与繁荣。与此同时,机器学习的快速发展,也让我们切实领略了人工智能给人类生活带来各种改变的潜力。
这是一本涵盖机器学习现有重要领域和关键算法的读物,主要面向人工智能、机器学习、模式识别、数据挖掘、计算机应用、数学和统计学等领域的研究生和相关技术人员。这本书为我们介绍了经典机器学习、深度学习的常见模型,涉及领域包括图像处理、自然语言处理、推荐系统等。
不同于侧重理论的机器学习读物,本书作者摒弃了复杂烦琐的数学公式和理论推导,转而采用对各类知识点给出应用实例和绘制图表等方式进行讲解。同时,书中蕴含了作者对机器学习理论及各类模型的内在关系的理解与思考,并通过细致的对比和说明,透彻地讲述了不同概念之间的传承与发展,使读者可以快速领略机器学习的精髓并掌握一定的自学能力。
本书作者勤于思考、关注技术发展,在工作中积累了丰富的机器学习实战经验,这些经验正是本书的灵感和和创意来源。难能可贵的是,书中的大量示例均源于作者亲身参与的项目,对读者具有借鉴意义,这也是本书的亮点之一;特此推荐。
中国科学院院士 樊文飞
1.1 机器学习概述
1956年夏季,以麦卡赛、明斯基、罗切斯特、申农等为首的一批有远见卓识的年轻科学家举办了一次聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语。这次聚会标志着“人工智能”这门新兴学科的正式诞生。
经过数十年的发展,人工智能已从最初的感知机,历经逻辑回归和支持向量机,发展到目前最为火热的深度学习。人工智能的研究成果已经从实验室落地,其工程实践涉及的应用也从个别领域延伸至各行各业。目前,绝大多数人工智能都是通过机器学习实现的(这里的“机器”特指计算机),因此,在本书中,人工智能和机器学习同指一个概念。
机器学习是什么呢?通俗地讲,就是机器(计算机)使用模型进行学习,以解决特定任务。模型可以理解为一个数学运算函数。模型的输入是图像等信息(函数的自变量),模型的输出是我们想要的结果(函数的因变量),例如识别图像中的动物是“猫”还是“狗”。函数里的很多参数是未知的,学习阶段就是通过已知结果的数据来寻找合适的参数,使模型能够给出正确的输出。学习一般被形象地称为训练。模型训练完成后,我们就可以使用它对未知类别的数据进行预测。
任何一项技术都有自己的业务边界,业务边界决定了技术的应用场景。机器学习只能处理有规律的、平滑连续的任务,例如声音识别、图像识别、文本分类等,但对猜骰子点数、预测彩票等完全随机事件无能为力。平滑连续是指输入的微小改变不会影响预测结果,例如“预测一个数字是否为质数”等非连续任务,输入从12到13,仅增大了1,预测结果却完全不同(机器学习很难在这类任务上取得较好的效果)。
人工智能的目的是使用机器代替人类的脑力劳动。人类的脑力劳动一般分为创新性脑力劳动和重复性脑力劳动。识别声音、文字、图像等属于重复性脑力劳动,这类任务在不久的将来可以由机器胜任;而在创新性脑力劳动方面,例如写作、发明创造等,机器学习还有很长的路要走。
1.2 特征提取
在开展人工智能相关工作时,我们面临的业务大都是客观世界中的问题,例如图片、视频、文本的识别及推荐系统的设计等。这些业务包含各式各样的数据——图片对应的是像素值,文本对应的是字符串,语音对应的是声波,推荐系统则包含大量的用户行为数据——五花八门、无奇不有。但是,机器学习模型作为一个数学函数,接受的输入一般是浮点数数组。这个数组用专业术语表述,叫作特征向量,数组的长度叫作特征向量的维度。特征向量的某个具体位置的数值表示真实世界中某个属性的强度。因此,无论何种业务,都需要将业务特征表示为向量