忙碌总是好的~
背景
本章主要记录一下各个语言的数据挖掘包及相关博客,便于以后调用,慢慢完善
数据库连接
类别 | Python | R |
---|---|---|
MySQL | mysql-connector-python | RMysql |
Python数据分析工具
扩展库 | 简介 |
---|---|
Numpy | 提供数组支持,以及相应的高效处理函数 |
Scipy | 提供矩阵支持,以及矩阵相关的数值计算模块 |
Matplotlib | 强大的数据可视化工具、作图库 |
Pandas | 强大、灵活的数据分析和探索工具 |
StatsModels | 统计建模和计量经济学:描述统计、统计模型估计和推断 |
Scikit-Learn | 支持回归、分类、聚类等强大的机器学习库 |
kera | 深度学习库、用于建立神经网络模型以及深度学习模型 |
Genism | 用于文本题型库、文本挖掘常用 |
Scikit-Learn
官网: http://scikit-learn.org/stable/
api: http://scikit-learn.org/stable/modules/classes.html
user guide: http://scikit-learn.org/stable/user_guide.html
优秀博客: http://www.jianshu.com/p/516f009c0875
类别:六大类
Classification 分类
Regression 回归
clustering 聚类
Dimensionality reduction 降维
Model selection 模式选择
Preprocessing 预处理
安装包模块(0.16):
__check_build
cluster 聚类
covariance 协方差
cross_decomposition 交叉降维
datasets 数据集
decomposition 降维
ensemble 集成学习
externals 模型持久化
feature_extraction 特征提取
feature_selection 特征选择
gaussian_process 高斯过程
linear_model 线性模型
manifold 流形学习
metrics 度量
mixture 混合
neighbors 邻居
neural_network 神经网络
preprocessing 预处理
semi_supervised 半监督学习
svm
tests 测试
tree 决策树
utils
Scipy
官方文档: https://docs.scipy.org/doc/scipy/reference/
子模块形式组织,大体模块1:
子模块 描述
constans 物理和数学常数
cluster 聚类算法
fftpack 快速傅立叶变换程序
integrate 集成和常微分方程求解器
interpolate 拟合和平滑曲线
io 输入和输出
linalg 线性代数
maxentropy 最大熵法
ndimage N维图像处理
odr 正交距离回归
optimize 最优路径选择
signal 信号处理
sparse 稀疏矩阵和以及相关程序
spatial 空间数据结构和算法
special 特殊函数
stats 统计上的函数和分布
weave C/C++ 整合(integration)
pandas
官网: http://pandas.pydata.org/pandas-docs/stable/
博客教程: http://python.jobbole.com/85742/
http://blog.youkuaiyun.com/yhb315279058/article/details/50226027
numpy
matplotlib
官网: http://www.labri.fr/perso/nrougier/teaching/matplotlib/
博客 :
简单例子:http://phddreamer.blog.163.com/blog/static/18993409620135394944504/
中文教程:http://www.tuicool.com/articles/jquuyij
R
参考:http://jingyan.baidu.com/article/c33e3f48f6ac20ea14cbb55f.html
分为4类:测、分类、聚类和关联参考
* 预测:连续因变量
stats包 lm函数,实现多元线性回归
stats包 glm函数,实现广义线性回归
stats包 nls函数,实现非线性最小二乘回归
rpart包 rpart函数,基于CART算法的分类回归树模型
RWeka包 M5P函数,模型树算法,集线性回归和CART算法的优点
adabag包 bagging函数,基于rpart算法的集成算法
adabag包 boosting函数,基于rpart算法的集成算法
randomForest包 randomForest函数,基于rpart算法的集成算法
e1071包 svm函数,支持向量机算法
kernlab包 ksvm函数,基于核函数的支持向量机
nnet包 nnet函数,单隐藏层的神经网络算法
neuralnet包 neuralnet函数,多隐藏层多节点的神经网络算法
RSNNS包 mlp函数,多层感知器神经网络
RSNNS包rbf函数,基于径向基函数的神经网络
- 分类:离散因变量
stats包 glm函数,实现Logistic回归,选择logit连接函数
stats包 knn函数,k最近邻算法
kknn包 kknn函数,加权的k最近邻算法
rpart包 rpart函数,基于CART算法的分类回归树模型
adabag包bagging函数,基于rpart算法的集成算法
adabag包boosting函数,基于rpart算法的集成算法
randomForest包randomForest函数,基于rpart算法的集成算法
party包ctree函数,条件分类树算法
RWeka包OneR函数,一维的学习规则算法
RWeka包JPip函数,多维的学习规则算法
RWeka包J48函数,基于C4.5算法的决策树
C50包C5.0函数,基于C5.0算法的决策树
e1071包svm函数,支持向量机算法
kernlab包ksvm函数,基于核函数的支持向量机
e1071包naiveBayes函数,贝叶斯分类器算法
klaR包NaiveBayes函数,贝叶斯分类器算分
MASS包lda函数,线性判别分析
MASS包qda函数,二次判别分析
nnet包nnet函数,单隐藏层的神经网络算法
RSNNS包mlp函数,多层感知器神经网络
RSNNS包rbf函数,基于径向基函数的神经网络
- 聚类:
Nbclust包Nbclust函数可以确定应该聚为几类
stats包kmeans函数,k均值聚类算法
cluster包pam函数,k中心点聚类算法
stats包hclust函数,层次聚类算法
fpc包dbscan函数,密度聚类算法
fpc包kmeansruns函数,相比于kmeans函数更加稳定,而且还可以估计聚为几类
fpc包pamk函数,相比于pam函数,可以给出参考的聚类个数
mclust包Mclust函数,期望最大(EM)算法
- 关联规则:
arules包apriori函数,Apriori关联规则算法
数据挖掘 2
回归
类别 | Python | R | PySpark | Java |
---|---|---|---|---|
普通最小二乘法回归(ols) | statsmodels.ols、sklearn.linear_model.LinearRegression | ….. | ….. | ….. |
参考博客:
[1] http://blog.youkuaiyun.com/nkwangjie/article/details/17503941
[2] http://www.cnblogs.com/SandyKid/p/6142610.html