sklearn 简介
Sklearn是一个基于Python语言的开源机器学习库。全称Scikit-Learn,是建立在诸如NumPy、SciPy和matplotlib等其他Python库之上,为用户提供了一系列高质量的机器学习算法,其典型特点有:
- 简单有效的工具进行预测数据分析
- 每个人都可以访问,并且可以在各种情况下重用
- 基于NumPy,SciPy和matplotlib构建
- 开源,可商业使用*BSD许可证
sklearn的发展历程
sklearn最初源于David Cournapeau的一个Google Summer of Code项目,这个项目名为scikits.learn。起初,它旨在作为SciPy工具包的一部分,即“SciKit”,这是一系列独立开发且分布式的第三方扩展。随着项目的深入和需求的增长,原始代码库后来被其他开发者进行了重写。这一阶段标志着sklearn向更稳定和功能丰富的方向迈进。
2010年,费边Pedregosa、盖尔Varoquaux、亚历山大Gramfort和Vincent米歇尔等核心开发者加入了项目,并在法国国家信息与自动化研究所的罗屈昂库尔进行了首次公开发行,发布的Sklearn 0.1版本。这个版本引入了许多新的算法和功能,如逻辑回归、决策树、随机森林等。此外,Sklearn还提供了一套完整的数据处理、特征提取和模型评估的工具,使得用户可以更方便地进行机器学习任务。这为sklearn的后续发展奠定了坚实的基础。
到了2012年Sklearn发布了0.12版本,这个版本对整个库进行了重构,使得Sklearn的代码更加模块化和可扩展。此外,Sklearn还引入了一些新的特性,如交叉验证、网格搜索等,这些特性极大地提高了用户在模型选择和调优