数据挖掘包

忙碌总是好的~


背景

本章主要记录一下各个语言的数据挖掘包及相关博客,便于以后调用,慢慢完善

数据库连接

类别PythonR
MySQLmysql-connector-pythonRMysql

Python数据分析工具

扩展库简介
Numpy提供数组支持,以及相应的高效处理函数
Scipy提供矩阵支持,以及矩阵相关的数值计算模块
Matplotlib强大的数据可视化工具、作图库
Pandas强大、灵活的数据分析和探索工具
StatsModels统计建模和计量经济学:描述统计、统计模型估计和推断
Scikit-Learn支持回归、分类、聚类等强大的机器学习库
kera深度学习库、用于建立神经网络模型以及深度学习模型
Genism用于文本题型库、文本挖掘常用
Scikit-Learn

官网: http://scikit-learn.org/stable/
api: http://scikit-learn.org/stable/modules/classes.html
user guide: http://scikit-learn.org/stable/user_guide.html
优秀博客: http://www.jianshu.com/p/516f009c0875

类别:六大类

Classification 分类 
Regression 回归 
clustering 聚类 
Dimensionality reduction 降维 
Model selection 模式选择 
Preprocessing 预处理 

安装包模块(0.16):

__check_build
cluster 聚类
covariance 协方差
cross_decomposition 交叉降维
datasets 数据集
decomposition 降维
ensemble 集成学习
externals 模型持久化
feature_extraction 特征提取
feature_selection 特征选择
gaussian_process 高斯过程
linear_model 线性模型
manifold 流形学习
metrics 度量
mixture 混合
neighbors 邻居
neural_network 神经网络
preprocessing 预处理
semi_supervised 半监督学习
svm
tests 测试
tree 决策树
utils
Scipy

官方文档: https://docs.scipy.org/doc/scipy/reference/
子模块形式组织,大体模块1

子模块         描述
constans        物理和数学常数
cluster         聚类算法
fftpack         快速傅立叶变换程序
integrate       集成和常微分方程求解器
interpolate     拟合和平滑曲线
io              输入和输出
linalg          线性代数
maxentropy      最大熵法
ndimage         N维图像处理
odr             正交距离回归
optimize        最优路径选择
signal          信号处理
sparse          稀疏矩阵和以及相关程序
spatial         空间数据结构和算法
special         特殊函数
stats           统计上的函数和分布
weave           C/C++ 整合(integration)
pandas

官网: http://pandas.pydata.org/pandas-docs/stable/
博客教程: http://python.jobbole.com/85742/
http://blog.youkuaiyun.com/yhb315279058/article/details/50226027

numpy

官网: http://www.numpy.org/

matplotlib

官网: http://www.labri.fr/perso/nrougier/teaching/matplotlib/
博客
简单例子:http://phddreamer.blog.163.com/blog/static/18993409620135394944504/
中文教程:http://www.tuicool.com/articles/jquuyij

R

参考:http://jingyan.baidu.com/article/c33e3f48f6ac20ea14cbb55f.html
分为4类:测、分类、聚类和关联参考
* 预测:连续因变量

stats包 lm函数,实现多元线性回归

stats包 glm函数,实现广义线性回归

stats包 nls函数,实现非线性最小二乘回归

rpart包 rpart函数,基于CART算法的分类回归树模型

RWeka包 M5P函数,模型树算法,集线性回归和CART算法的优点

adabag包 bagging函数,基于rpart算法的集成算法

adabag包 boosting函数,基于rpart算法的集成算法

randomForest包 randomForest函数,基于rpart算法的集成算法

e1071包 svm函数,支持向量机算法

kernlab包 ksvm函数,基于核函数的支持向量机

nnet包 nnet函数,单隐藏层的神经网络算法

neuralnet包 neuralnet函数,多隐藏层多节点的神经网络算法

RSNNS包 mlp函数,多层感知器神经网络

RSNNS包rbf函数,基于径向基函数的神经网络
  • 分类:离散因变量
stats包 glm函数,实现Logistic回归,选择logit连接函数

stats包 knn函数,k最近邻算法

kknn包 kknn函数,加权的k最近邻算法

rpart包 rpart函数,基于CART算法的分类回归树模型

adabag包bagging函数,基于rpart算法的集成算法

adabag包boosting函数,基于rpart算法的集成算法

randomForest包randomForest函数,基于rpart算法的集成算法

party包ctree函数,条件分类树算法

RWeka包OneR函数,一维的学习规则算法

RWeka包JPip函数,多维的学习规则算法

RWeka包J48函数,基于C4.5算法的决策树

C50包C5.0函数,基于C5.0算法的决策树

e1071包svm函数,支持向量机算法

kernlab包ksvm函数,基于核函数的支持向量机

e1071包naiveBayes函数,贝叶斯分类器算法

klaR包NaiveBayes函数,贝叶斯分类器算分

MASS包lda函数,线性判别分析

MASS包qda函数,二次判别分析

nnet包nnet函数,单隐藏层的神经网络算法

RSNNS包mlp函数,多层感知器神经网络

RSNNS包rbf函数,基于径向基函数的神经网络
  • 聚类:
Nbclust包Nbclust函数可以确定应该聚为几类

stats包kmeans函数,k均值聚类算法

cluster包pam函数,k中心点聚类算法

stats包hclust函数,层次聚类算法

fpc包dbscan函数,密度聚类算法

fpc包kmeansruns函数,相比于kmeans函数更加稳定,而且还可以估计聚为几类

fpc包pamk函数,相比于pam函数,可以给出参考的聚类个数

mclust包Mclust函数,期望最大(EM)算法
  • 关联规则:
arules包apriori函数,Apriori关联规则算法

数据挖掘 2

回归
类别PythonRPySparkJava
普通最小二乘法回归(ols)statsmodels.ols、sklearn.linear_model.LinearRegression…..…..…..

参考博客:
[1] http://blog.youkuaiyun.com/nkwangjie/article/details/17503941
[2] http://www.cnblogs.com/SandyKid/p/6142610.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值