
数据挖掘
Zrx_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘导论
数据挖掘是在大型数据库中,自动地发现有用信息的过程。用来探查大型数据库,发现先前未知的有用模式,预测未来观测接结果。 并非所有的信息发现任务都是数据挖掘,上网查找个别记录只能称为信息检索(information retrieval) 数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分。 整个KDD过程为: 输入数据→数据预处(特...原创 2019-12-01 14:48:10 · 1858 阅读 · 0 评论 -
数据挖掘导论(2)
探索数据 数据探索有助于选择合适的数据预处理和数据分析技术。 数据探索与探测性数据分析(Exploratory Data Analysis, EDA) 汇总统计(summary statistics):是量化的,如值集合均值和标准差 可视化技术:如直方图和散布图 联机分析处理(OLAP):从多维数据数组中创建汇总表各种方法,包括在不同的维上或不同的属性值上聚集数据。 3.2 汇总统计 对于具有...原创 2019-12-01 14:49:34 · 470 阅读 · 0 评论 -
数据挖掘导论(3)
第四章 分类:基础概念、决策树与模型评估 分类任务的输入是一个元组(x,y),x是属性集,y是特殊属性。 分类(classification) 就是通过学习得到一个目标函数(target function) f,把每个属性映射到一个预先定义的类标号y。 目标函数也称分类模型(classification model),可用于: 描述性建模:列出所有元组,并说明那些属性决定特殊属性。 预测性建模:...原创 2019-12-01 14:49:09 · 1754 阅读 · 0 评论 -
利用Python进行数据分析
Numpy(Numerical Python)是PY科学计算的基础包。 快速高效的多维数组对象ndarray 用于对数组执行元素级计算以及直接对数组执行数学运算的函数 用于读写硬盘上基于数组的数据集的工具 线性代数运算、傅里叶变换,以及随机数生成 用于将C\C++ 代码集成到PY 更为重要的是Numpy作为在算法之间传递数据的容器。Np的数组比PY的内置数组处理起来更高效,而且C语言写的程序可...原创 2019-12-01 14:48:43 · 991 阅读 · 0 评论 -
pandas
In[1]:from pandas import Series, DataFrame In[2]:import pandas as pd pandas主要熟悉它的两个主要数据结构: Series和DataFrame Series series是一种类似一维数组的对象,由一组数据(各种np数据类型)以及一组与之相关的数据标签(索引)组成。 可以通过Series的value和index属性获取数组...原创 2019-12-01 14:48:34 · 278 阅读 · 0 评论 -
数据规整化:清理、转换、合并、重塑
合并数据集 pandas.merge :用于列之间的扩充 pandas.concat :可以沿着轴将多个对象进行叠加,用于行之间的扩充 combine_first可以将重复数据编接在一起,用一个对象的值填充另一个重复对象的缺失值。 pd.merge pd.merge(df1,df2,on ='key') //若df1和df2有相同的列索引,可用该列作为中间轴进行连接。 pd.merge(df1...原创 2019-10-07 15:57:38 · 403 阅读 · 0 评论