**scikit-learn中文社区 : https://scikit-learn.org.cn/
常用名词
机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。
深度学习(英语:deep learning)是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。
算法(algorithm;算法),指一个被定义好的、计算机可施行其指示的有限步骤或次序,常用于计算、数据处理和自动推理。算法是有效方法,包含一系列定义清晰的指令并可于有限的时间及空间内清楚的表述出来
模型是指用一个较为简单的东西来代表另一个东西,在这里我们的模型就是公式求解
样本(英语:Sample)是统计学术语,指从全体中随机抽取的个体。通过对样本的调查,可以大概的了解全体的情况。抽样时抽取样本来进行调查,而普查时则需要调查每一个个体
特征指的是从原始数据提取的单个属性,一般是一个数。原始数据必须转化成一个特征向量才可以进一步分析。它们类似于统计中的自变量。特征向量所属的向量空间称为特征空间。
训练集 指用来训练模型的数据
测试集 指用来测试模型的数据
数据类型:
结构化数据,数据的结构较规范,通常指数据库里的二维表
非结构化数据,以二进制的方式存储,通常指声音、视频、图片等
半结构化数据,既有结构化数据,也有非结构化数据共同存在
连续型数据-----> 数据的呈现方式以一种连续的状态可以进行实际的度量,对于机器学习算法的回归
离散型数据 —> 数据以一种离散的方式呈现,表示为类别数据大小之间没有实际意义,对应机器学习算法的分类
多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。
自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。
自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。
推荐算法,常分为两大类,一种是基于人的推荐算法,另外一种是基于物的推荐算法
计算机视觉(Computer vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。
GNN 知识图谱,常用于搜索引擎上,通过建立知识图谱对使用语义检索获取多种来源收集信息,提高搜索策略
**数据的标准化:**统一量纲,防止不同两个量纲的数据对模型产生拟合不佳
0-1缩放,将数据映射到0~1这个区间范围内,不改变数据原本的分布情况
0均值,将数据最后的平均值变为0,不能确定区间范围
机器学习通常分为四类:
- 监督学习
- 无监督学习
- 半监督学习
- 强化学习
特征工程
将数据变成,适合模型要求输入的数据进行规范的一系列操作通称为特征工程
机器学习的步骤
1.建立模型
2.训练模型
3.预测模型
4.评估模型
5.优化模型