Python数据科学基础:工具、安装与实践
1. 关键Python库介绍
1.1 scikit - learn
自2007年项目启动以来,scikit - learn已成为Python程序员首选的通用机器学习工具包。截至目前,已有两千多名开发者为该项目贡献代码。它包含以下子模块:
- 分类 :支持向量机(SVM)、最近邻算法、随机森林、逻辑回归等。
- 回归 :Lasso回归、岭回归等。
- 聚类 :k - 均值聚类、谱聚类等。
- 降维 :主成分分析(PCA)、特征选择、矩阵分解等。
- 模型选择 :网格搜索、交叉验证、评估指标。
- 预处理 :特征提取、归一化。
1.2 statsmodels
statsmodels是一个统计分析包,起源于斯坦福大学统计学教授Jonathan Taylor的工作,他实现了许多在R语言中流行的回归分析模型。2010年,Skipper Seabold和Josef Perktold正式创建了statsmodels项目,此后该项目吸引了大量用户和贡献者。Nathaniel Smith开发的Patsy项目为statsmodels提供了受R语言公式系统启发的公式或模型规范框架。
与scikit - learn相比,statsmodels包含经典(主要是频率学派)统计和计量经济学的算法,包括以下子模块:
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



