机器学习与深度学习基本概念学习笔记

最新推荐文章于 2024-08-28 02:26:45 发布

天人合一peng

最新推荐文章于 2024-08-28 02:26:45 发布

阅读量331

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习/深度学习/人工智能/情感计算 Python

本文链接：https://blog.youkuaiyun.com/moonlightpeng/article/details/86755181

Python 同时被 2 个专栏收录

297 篇文章

订阅专栏

机器学习/深度学习/人工智能/情感计算

223 篇文章

订阅专栏

本文深入探讨了机器学习的基本概念，数据类型的分类，以及如何通过特征工程提升模型的预测精度。特别关注了数据预处理技术，包括特征抽取、归一化、标准化和缺失值处理，提供了sklearn库的具体应用案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是机器学习

机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测

数据来源与类型

数据类型

• 离散型数据：由记录不同类别个体的数目所得到的数据，又称计数数据，所

有这些数据全部都是整数，而且不能再细分，也不能进一步提高他

们的精确度。

• 连续型数据：变量可以在某个范围内取任一数，即变量的取值可以是连续

的，如，长度、时间、质量值等，这类整数通常是非整数，含有小数

部分。

注：只要记住一点，离散型是区间内不可分，连续型是区间内可分

Kaggle网址：https://www.kaggle.com/datasets

UCI数据集网址： http://archive.ics.uci.edu/ml/

scikit-learn网址：http://scikit-learn.org/stable/datasets/index.html#datasets

数据特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的模型准确性

特征工程的意义：•直接影响模型的预测结果

数据特征抽取

sklearn特征抽取API

• sklearn.feature_extraction

字典特征抽取作用：对字典数据进行特征值化

类：sklearn.feature_extraction.DictVectorizer

"coding = utf-8"

from sklearn.feature_extraction import DictVectorizer

def dictvec():
    """
    对数据进行特征工程化处理
    :return:
    """
    dict = DictVectorizer(sparse=False)

    Xdata = [{"city": "beijing", "temperature": 100},
             {"city": "shanghai", "temperature": 90},
             {"city": "shenzhen", "temperature": 80},
             {"city": "lanzhou", "temperature": 75},]
    data = dict.fit_transform(Xdata)

    print(data)
    print(dict.get_feature_names())
    print(dict.get_params())

    return  None



def main():

    print(10*"=")
    dictvec()


if __name__ == "__main__":
    main()