数据挖掘基础知识

本文介绍了数据挖掘的主要模块,包括Numpy, Pandas, Matplotlib, StatsModels, Scipy, Scikit-Learn, Keras 和 Gensim。特别讨论了Pandas中的DataFrame和Series对象,以及一些关键函数如累积计算和滚动计算。在绘图函数部分,讲解了如何使用plot绘制各种图形,如线性图、折线图、饼图和直方图,以及如何添加对数轴和误差条。" 114290994,9100421,Next主题快速配置黑暗模式,"['hexo', 'javascript', '前端开发', '博客美化']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主要的数据挖掘模块:

  • Numpy
  • Pandas
  • matplotlib
  • StatsModels
  • Scipy
  • Scikit-Learn
  • Keras
  • Gensim
pandas中的一些函数

DataFrame或者Series的对象

方法名函数功能
sum()求和(按列)
mean()算数平均数
var()方差
std()标准差
corr()Spearman(Pearson)相关系数
cov()协方差矩阵
skew()偏度(三阶矩)
kurt()峰度(四阶矩)
describe()给出样本的基本描述

累积计算(cum): 计算前1,2,3…n的

方法名函数功能
cumsum前n的和
cumprod
cummax最大值
cummin最小值

滚动计算(pd.rolling_):pandas中的函数,
使用格式为pd.rolling_mean(D,K) :每k列计算一次K值,
滚动计算

方法名函数功能
rolling_sum()计算和
roliing_mean算术平均数
rolling_var方差
rolling_std标准差
rolling_corr相关系数矩阵
rolling_cov协方差
rolling_skew偏度
rolling_kurt峰度
常用的绘图函数
  • plot
    • 功能:绘制线性二维图、折线图
    • 使用格式:
      • plt.plot(x,y,S):绘制y对x(即以x为横轴的二维图形),S指定图像的类型、颜色等
      • D.plot(kind= ‘’):默认以index为横坐标,每列数据为纵坐标,kind中指定图形的类型
  • pie
    • 功能: 绘制饼形图
    • 使用格式: plt.pie(size)

pie中有大量的参数,需要的时候再查

  • hist

    • 功能:绘制二维条形直方图
    • 使用格式:plt.hist(x,y)
    • y可以是组数,也可以是列表(分组的边界点)
  • plot(logx = True)/plot(logy = True:

    • 绘制x/y的对数图形
  • plot(yerr = error):

    • 绘制误差条形图
    • 使用格式: D.plot(yerr = error)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值