机器学习与深度学习基本概念 学习笔记

本文深入探讨了机器学习的基本概念,数据类型的分类,以及如何通过特征工程提升模型的预测精度。特别关注了数据预处理技术,包括特征抽取、归一化、标准化和缺失值处理,提供了sklearn库的具体应用案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

目录

什么是机器学习

数据来源与类型

数据特征工程

数据特征抽取

TF-IDF

TfidfVectorizer语法

数据的特征处理

归一化

归一化总结

标准化

结合归一化来谈标准化

StandardScaler语法

标准化总结

缺失值处理方法

Imputer流程

关于np.nan(np.NaN)


 

 

 

 

 

 

 

 

 

 

什么是机器学习

机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

数据来源与类型

数据类型

离散型 数据:由 记录不同类别个体的数目所得到的 数据, 又称计数数据 ,所

  有这些数据全部都是整数,而且不能再细分,也不能进一步提高他

  的精确度。

 

 

连续型数据: 变量可以在 某个范围内 取任 一数 即变量的取值可以 是连续

  的,如,长度、时间、质量值等,这类整数通常是非整数,含有小数

  部分。

注:只要记住一点,离散型是区间内不可分,连续型是区间内可分

Kaggle网址:https://www.kaggle.com/datasets

UCI数据集网址: http://archive.ics.uci.edu/ml/

scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets

数据特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性

特征工程的意义:•直接影响模型的预测结果

 

 

 

数据特征抽取

sklearn特征抽取API

sklearn.feature_extraction

字典特征抽取作用:对字典数据进行特征值化

类:sklearn.feature_extraction.DictVectorizer

 

"coding = utf-8"

from sklearn.feature_extraction import DictVectorizer

def dictvec():
    """
    对数据进行特征工程化处理
    :return:
    """
    dict = DictVectorizer(sparse=False)

    Xdata = [{"city": "beijing", "temperature": 100},
             {"city": "shanghai", "temperature": 90},
             {"city": "shenzhen", "temperature": 80},
             {"city": "lanzhou", "temperature": 75},]
    data = dict.fit_transform(Xdata)

    print(data)
    print(dict.get_feature_names())
    print(dict.get_params())

    return  None



def main():

    print(10*"=")
    dictvec()


if __name__ == "__main__":
    main()

CountVectorizer语法

TF-IDF

TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,

并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分

能力,适合用来分类。

 

TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

类:sklearn.feature_extraction.text.TfidfVectorizer

TfidfVectorizer语法

TfidfVectorizer ( stop_words =None , )
返回词的权重矩阵
TfidfVectorizer . fit_transform ( X,y )      
X: 文本或者包含 文本字符串的可迭代对象
返回值:返回 sparse 矩阵
TfidfVectorizer . inverse_transform (X)
X:array 数组或者 sparse 矩阵

返回值:转换之前数据格式

TfidfVectorizer.get_feature_names ()
返回值 : 单词列表

 

数据的特征处理

1、特征处理的方法

2sklearn特征处理API

特征处理是通过特定的统计方法(数学方法)数据转换成算法要求的数据

数值型数据:标准缩放:

  1、归一化

               2、标准化

 

   3、缺失值

类别型数据:one-hot编码

时间类型:时间的切分

归一化

特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间

sklearn归一化API

sklearn归一化API:  sklearn.preprocessing.MinMaxScaler

MinMaxScaler语法

归一化总结

注意在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景

标准化

结合归一化来谈标准化

StandardScaler语法

标准化总结

在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

 

缺失值处理方法

Imputer流程

关于np.nan(np.NaN)

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值