数据集的构成 从历史数据中获得规律 机器学习的数据:文件csv mysql: 性能瓶颈,读取速度慢 格式不符合机械学习要求的数据格式 pandas:读取工具 基于numpy:释放了GIL,真正的多线程 可用数据集 kaggle 大数据竞赛平台 80 万科学家 真实数据 数据量巨大 UCI 收录了360个数据集 数据量几十万 覆盖各个领域 SK-LEARN 数据量较小 方便学习 常用数据集数据的结构组成 特征值+目标值 dataframe 列索引作为特征值 数据对于特征的处理 pandas