
数据挖掘学习笔记
技术搬砖工
技术搬砖工交流微信: monky2020
展开
-
数据挖掘考试重点(条理版)
数据挖掘考试重点(条理版)填空或简答:1. 数据、信息和知识是广义数据表现的不同形式。2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以转载 2014-06-02 14:33:52 · 4857 阅读 · 0 评论 -
ETL数据处理笔记-kettle基础
1.Kettle里的数据以数据行的形式,由转换里的步骤来处理。2.作业项是作业的基本组成部分,每个作业项根据前一个作业项的结果顺序执行。3.可以在转换或作业里定义数据库连接,可以在数据库等设置对话框里使用参数。4.kettle有不同类型的资源库,每种资源库都有自己的使用场景。5.kettle使用灵活的虚拟文件系统,可以访问各种不同位置的文件。6.通过变量和命名参数可以使转换或者作业更加灵...原创 2018-12-09 01:42:54 · 414 阅读 · 0 评论 -
深度学习基础-决策树应用(python实现)
Python机器学习的库-scikit-learn1特性:简单高效的数据挖掘和机器学习分析对所有用户开放,根据不同需求高度可重用性给予Numpy,SciPy和matplotlib开源覆盖问题领域:分类(classfication),回归(regression),聚类(clustering)降维(dimensionality reduction)模型选择(model原创 2017-09-17 15:07:58 · 610 阅读 · 0 评论 -
深度学习基础-决策树
理论一:机器学习中分类和预测算法的评估 1.准确率 2.速度 3.强壮性 4.可规模性 5.可解释性二:什么是决策树/判定树(decision tree) 判定树是一个类似于流程图的树结构,其中,每个内部节点标识在一个属性上的测试,每个分支代表一个属性输出,而每个树节点代表类或类分布,树的最顶层是根节点2.机器学习中分类方法原创 2017-09-17 11:33:00 · 1467 阅读 · 0 评论 -
python-operator模块
本模块主要包括一些python内部操作符对应的函数,主要包括几类:对象比较,逻辑笔记,算术运算和序列操作 操作 语法函数相加a + b add(a, b)字符串拼接seq1 + seq2concat(seq1,原创 2017-09-15 15:24:47 · 741 阅读 · 0 评论 -
数据挖掘-K-means算法
K-means算法是一种基于样本间相似性度量的间接聚类方法。此算法以K为参数,把N个对象分为K个簇,以使簇内具有较高的相似度,而且簇间的相似度较低。相似度的计算根据一个簇中对象的平均值来进行。此算法的工作过程为:首先从N个数据对象任意选择K个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然转载 2014-06-15 11:55:30 · 960 阅读 · 0 评论 -
数据挖掘技术笔记
1 什么是数据挖掘?原创 2014-05-22 15:22:04 · 1236 阅读 · 0 评论 -
数据挖掘的任务
通常数据挖掘的任务分为两大类原创 2014-05-22 15:31:16 · 2862 阅读 · 0 评论 -
继续数据挖掘
预测建模(predictive modeling):原创 2014-05-22 15:56:56 · 662 阅读 · 0 评论 -
数据挖掘之-简单属性之间的相似度和相异度
通常,具有若干属性的对象之间的原创 2014-06-05 23:49:05 · 5388 阅读 · 0 评论 -
数据分析技能树
原创 2019-01-05 18:16:04 · 954 阅读 · 0 评论