数据类型:
离散型数据:记录不同类别个体的数目所得到的数据又称计数数据,所以有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。
连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的,如,长度、时间、质量值等,这类整数通常是整数,含有小数部分。
注:只要记住一点,离散型是区间内不可分,连续型是区间内可分
特征抽取:
特征抽取针对非连续型数据
特征抽取对文本等进行特征值化
注:特征值化是为了计算机更好的去理解数据
特征处理:
特征处理的重要性: 确保每个特征都对结果的影响程度相同
通过特定的方法将数据转化为算法要求的数据
包含:归一化:

标准化:

注:一般用标准化对数据进行特征处理,标准化相比归一化具有能减小异常值对结果的影响
数据类型、特征抽取与处理详解
博客介绍了数据类型,包括离散型和连续型数据的特点;阐述特征抽取针对非连续型数据,对文本等进行特征值化以助计算机理解;还说明了特征处理的重要性,要确保各特征影响程度相同,包含归一化和标准化,一般用标准化减小异常值影响。
612

被折叠的 条评论
为什么被折叠?



