
数据挖掘
文章平均质量分 79
本专栏以数据挖掘为主要内容,讲述实现数据挖掘的各主要功能、挖掘算法和应用,并通过对实际数据的分析更加深入地理解常用的数据挖掘模型,同时结合真实电商业务环境,构建数据仓库,使得学生了解数据挖掘在实际工作中的应用。
智享AI
爱生活,爱运动,爱学习,爱编程
展开
-
四十四、ETL工具的查询_连接和映射
1. ETL工具Kettle的查询、连接和映射在ETL工具中,查询、连接和映射各自的作用包括:查询步骤:用来查询数据源中的数据并合并到主数据流中连接步骤:将结果集合通过关键字进行连接子转换/映射:在转换里调用一个子转换,便于封装和重用2. 查询步骤在Kettle工具中,查询步骤常见的方式包括:流查询、模糊匹配、数据库查询、Web查询等等。流查询只支持“==”的查询如果匹配上多条,只保留最后一条如果没有匹配上,只保留字段值为NULL模糊匹配只支持单列的查询匹配相似度最大原创 2021-02-25 14:57:41 · 983 阅读 · 0 评论 -
四十三、ETL工具的流程和应用
1. Kettle的流程步骤和应用步骤Kettle应用步骤的作用:用来转换提供的一些工具类步骤。具体的内容包括:NULL值处理如何启动其他程序日志功能文件处理功能2. 如何过滤数据在Kettle工具中,可以通过Switch/case、过滤记录和更具Java表达式完成数据的过滤。各自的特点包括:Switch/case按钮多路开关、可以实现一路到多路支持日期、数值、字符串类型比较过滤记录按钮多路开关、支持一路到两路支持日期、数值、字符串比较,自定义嵌套的表达式等根据原创 2021-02-24 09:38:11 · 866 阅读 · 0 评论 -
四十二、ETL工具Kettle的转换步骤
1. ETL工具Kettle的转换步骤1.1 Kettle转换步骤的具体内容:字符串处理字符串的拆分字符串的替换行列变换其他转换步骤闭合距离XSL转换数值范围2 字符串的处理2.1 字符串的拆分按位置拆分字符串,完成对字符串的剪辑按标志字符一列拆分成多列或多行字符串的合并:多列合并为一列多行合并为一行2.2 字符串的替换值映射使用正则表达式2.3 字符串的其他转换使用常量替换一个字段的值。使用一个字段替换另一个字段的值。字符串原创 2021-02-23 10:37:54 · 733 阅读 · 0 评论 -
四十一、ETL工具kettle输出步骤
1. ETL工具Kettle的输出步骤Kettle输入步骤主要分为以下几类:数据库输出表输出更新、删除、插入和更新文件输出文本文件输出XML输出Excel文件输出其他报表和应用2 数据库输出2.1 表输出的功能使用SQL的方式向数据库提交数据特点:表输出支持批量提交数据,可以对数据进行分区,具有字段映射和返回自增列的弄能。2.2 表输出各自功能的特点更新:根据关键字匹配规则,更新数据库中已有的数据删除:根据关键字匹配规则,删除数据库已有的数据原创 2021-02-22 10:30:38 · 591 阅读 · 0 评论 -
四十、ETL工具的输入步骤
数据挖掘_unit401. ETL工具Kettle的输入步骤1.1 Kettle输入步骤主要分为以下几类:生成记录和自定义常量。获取系统信息输入方式2 生成记录和自定义常量2.1 Kettle组件生成记录生成记录的每行数据都是相同的,所以便诞生了自定义常量数据来手工模拟数据。2.2 Kettle组件自定义常量用于生成自定义的数据一般用于测试数据的构建3 获取系统信息获得各类系统信息,常见的包括:转换开始时间关键时间点信息最多十个命令行参数主机名/ip/原创 2021-02-20 10:49:29 · 556 阅读 · 0 评论 -
三十九、ETL工具Kettle基础使用
1. Kettle工具介绍Kettle是一款国外开源的ETL工具,纯Java编写,开业在Windows、Linux、Unix上运行,可以高效稳定的完成数据抽取。Kettle中文名叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出Kettle的下载地址:https://sourceforge.net/projects/pentaho/files/Data%20Integration/3.2.0-stable/Kettle和Informatica相比,两者各自的优点原创 2020-09-01 16:34:49 · 496 阅读 · 0 评论 -
三十八、商业智能与ETL基础知识
1. ETL基础知识1.1 商业智能的概念商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。ETL是BI项目重要的一个环节。通常情况下,在BI项目中ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败,ETL在数据挖掘中的作用如图所示:。ETL的基础概念:背景、定义和过程ETL模式介绍ETL常用工具2 ETL基础概念:背景、定义和过程原创 2020-08-28 16:49:04 · 864 阅读 · 0 评论 -
三十七、数据泛化(面向属性的归纳)
1. 数据泛化:面向属性的归纳从概念上讲,数据立方体可以看做一种多维数据泛化。数据泛化通过把相对低层的值(例如,属性年龄的数值)用较高层概念(例如,青年、中年和老年)替换来汇总数据。数据特征化的面向属性的归纳面向属性归纳的有效实现类比较的面向属性归纳2 数据特征的面向属性的归纳2.1 面向属性的归纳的基本步骤数据聚焦,获得初始数据关系进行面向属性的归纳基本操作是数据泛化,对有大量不同的属性,进行一下操作:属性删除属性泛化属性泛化控制2.2 数据聚焦目的是获得跟任务原创 2020-08-26 18:56:25 · 3133 阅读 · 0 评论 -
三十六、数据仓库的实现
1. 数据仓库的实现1.1 数据仓库的基本内容数据仓库包含海量数据。OLAP服务器要在数秒内回答决策支持查询。因此,至关重要的是,数据仓库系统要支持高校的数据立方体技术、存取方法和处理技术。本节,我们主要关注的是数据仓库的有效实现方法。数据立方体的有效计算索引OLAP数据:位图索引和链接索引OLAP查询的有效处理OPAP的服务器结构2 数据立方体的有效计算2.1 compute cube操作与维灾难多维数据分析的很想是有效地计算许多维集合上的聚集。用SQL的属于,这些聚集称为分组(gr原创 2020-08-25 13:56:15 · 856 阅读 · 0 评论 -
三十五、数据仓库的设计和应用
1. 数据仓库的设计1.1 数据仓库设计的基本内容本节我们将研究用于信息处理、分析处理和数据挖掘的数据仓库设计,数据仓库的设计与使用包含的内容有:数据仓库的设计的商务分析框架数据仓库的设计过程数据仓库用于信息出处理从联机分析处理到多维数据挖掘2 数据仓库的设计的商务分析框架2.1 数据仓库的用途和优点拥有数据仓库,商务分析者能够得到什么?数据仓库可以通过提供相关信息,据此估计性能并作出重要调整,可以提供竞争优势。数据仓库可以提供企业生成力量,因为它能快速、有效地搜集准确描述组织机原创 2020-08-17 10:10:10 · 483 阅读 · 0 评论 -
三十四、数据仓库的建模
1. 数据立方体与OLAP1.1 数据仓库和OLAP的基本内容数据仓库和OLAP工具基于多维数据模型,这种模型将数据看做数据立方体形式。一种多维数据模型多维数据模型的模式维:概念分层的作用度量的分类和计算典型的OLAP操作2 一种多维数据模型2.1 数据立方体数据立方体允许以多维对数据建模和观察,它由维和事实定义。维是一个单位想要记录的透视或实体。每个维都可以有一个与之相关联的表,该表称为维表,它进一步描述维。通常,多维数据模型围绕注入销售这样的中心主题组织,主题用事实表表示原创 2020-08-16 09:13:14 · 539 阅读 · 0 评论 -
三十三、数据仓库的概述
1. 数据仓库的概述1.1 数据仓库的基本内容数据仓库泛化、合并多维空间的数据。构造数据仓库涉及数据清理、数据集成和数据变换,可以看作数据挖掘的一个重要预处理步骤。此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据的交互分析,有利于有效的数据泛化和数据挖掘。数据仓库的基本内容包括:什么是数据仓库操作数据库与数据仓库的区别分离的数据仓库数据仓库模型数据提取变换和转入元数据库2. 什么是数据仓库?2.1 数据仓库的基本概念数据仓库已有多种定义方式,很难给出一种严格原创 2020-08-14 16:21:53 · 372 阅读 · 0 评论 -
三十二、电子商务服务推荐模型构建
1. 模型构建本案例在数据预预处理的基础上,针对预处理后的数据进行模型构建,其中涉及的过程主要有:推荐流程相似度计算推荐结果2. 推荐流程2.1 推荐系统流程图在实际应用中,构造推荐系统时,并不是采用单一的推荐方法进行推荐。为了实现较好的推荐结果,一般会结合多种推荐方法将推荐结果进行组合,最后得出推荐结果。2.2 选择合适的推荐算法针对此项目的实际情况,分析目标的特点为:长尾网页丰富,用户个性化需求强烈以及推荐结果的实时变化,以及结合原始数据的特点:网页数明显小于用户数,因此原创 2020-08-13 14:16:43 · 584 阅读 · 0 评论 -
三十、电子商务分析与服务推荐的分析方法与过程
1. 分析方法与过程1.1 目标本案例的目标是对用户进行推荐,即以一定的方式将用户与物品之间建立联系。为了更好地帮助用户从海量的数据中快速发现感兴趣的网页,在目前相对单一的推荐系统上进行补充。电子商务服务推荐的分析方法与过程的主要内容包括:数据抽取数据探索性分析2. 数据抽取推荐系统使用的推荐算法**本项目中使用的是协同过滤算法,其特点是通过历史数据找出相似的用户或者网页,在数据抽取的过程中,进可能选择大量的数据,这样就能降低推荐结果的随机性,提高推荐结果的准确性,能更好地发掘长尾网原创 2020-07-24 10:45:25 · 394 阅读 · 0 评论 -
二十九、电子商务服务推荐项目基本描述
1. 电子商务用户行为分析综合案例本案例主要的研究对象是法律网站,它是一家电子商务类的大型法律咨询网站,致力于为用户提供丰富的法律信息与专业咨询服务,并为律师与律师事务所提供卓有成效的互联网整合营销解决方案。为了能更好的满足用户需求,发现用户的兴趣点,从而引导用户发现自己的信息需求,将长尾网页准确地推荐给所需用户,帮助用户发现他们感兴的信息。本案例建立服务推荐的主要内容包括:背景与挖掘目标推荐系统原理图数据分析处理图智能推荐系统流程图2. 背景挖掘与目标2.1 推荐系统产生的背景在互联原创 2020-07-22 17:46:19 · 501 阅读 · 0 评论 -
二十八、电力窃漏电案例模型构建
数据挖掘_unit281. 综合案例模型构建构建窃漏电用户识别模型;构建LM神经网络模型;构建CART决策树模型;模型评价2. 构建窃漏电用户识别模型2.1 构建专家样本专家样本准备完成后,需要划分测试样本和训练样本,随机选取20%作为测试样本,剩下的作为训练样本。2.3 资源数据集专家样本数据集的内容包括时间、用户编号、电量趋势下降指标、线损指标、告警类指标和是否窃漏电标签,数据集共有291条样本数据。数据集详情参考model.xls工具库pandas==0.24原创 2020-07-21 10:46:38 · 1629 阅读 · 1 评论 -
二十七、综合案例数据预处理
1. 综合案例数据预处理1.1 电力窃漏电综合案例数据清洗:去掉冗余数据缺失值处理:填充缺失值数据变换:窃漏电评价指标体系构建专家样本:构建专家样本2. 数据清洗2.1 窃漏电数据预处理原始数据中并不是所有的数据都需要进行分析,因此在数据处理时,需要将冗余的数据进行过滤。非居民用电类别不可能存在窃漏电现象,需要将非居民用电类别数据过滤掉;结合本业务的实例,节假日用电了与工作日项目,会明显降低,可以过滤节假日的用电数据。窃漏电案例数据集详细信息在原始计量数据,特别是用户电量原创 2020-07-20 12:06:08 · 928 阅读 · 0 评论 -
二十五、数据挖掘之离群点检测
数据挖掘_unit251. 离群点的基本概念1.1 离群点的概念在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群点。1.2 离群点的来源数据来源不同,如欺诈、入侵、不寻常的实验结果等数据变量变化引起,如顾客的新的购买模式、基因突变等数据测量和收集误差离群点检测的难点在时间序列样本中发现离群点一般比较困难,因为这些离群点可能会隐藏在趋势、季节性或者其他变化中。对于维度为非数值型的样本,在检测过程中需要多加考虑、比如对维度进行预处理等。离群点检测的主要应用领原创 2020-06-15 16:34:26 · 3633 阅读 · 0 评论 -
二十四、数据挖掘时序模式
时序模式1. 时序模式1.1 问题引入下个月的商品销量、销售额或库存量是多少?明天广州市的最高用电负荷是多少?序列模式的概念时序模式:描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。序列模式将关联和时间序列模式结合起来,重点考虑数据之间维度上的关联性。1.2 序列模式的内容时间序列分析序列发现时间序列的组合成分时间序列的组合模型2. 时间序列分析2.1 序列分析的基本内容用已有的数据序列预测未来。在时间序列分析中,数据的属性值随着时间不断变化的。回归不强调数据原创 2020-06-11 11:17:18 · 1726 阅读 · 0 评论 -
二十三、聚类算法
1. 聚类算法聚类:数据对象的集合在同一个聚类中的对象彼此相似不同聚类中的对象则差别较大聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学习:没有预定义的类别,观察式学习聚类分析的典型应用在GIS系统中,对相似区域进行聚类,产生主题地图检测空间聚类,并给出它们在空间数据挖掘中的解释图像处理商务应用中,帮市场...原创 2020-04-03 10:51:07 · 795 阅读 · 1 评论 -
二十二、分类与预测
1. 分类与预测分类的概念预测分类标号(或离散值)根据训练数据集和类标号属性,构建模型来分类现有数据, 并用来分类新数据预测预测分类标号(或离散值)建立连续函数值模型,预测新事物分类举例分类问题的实施过程分类问题的基本要素分类问题的应用场景常用的分类算法2. 决策树分类算法认识决策树如何根据观看电影记录预测用户喜欢哪一种类型的电影?决策树的形...原创 2020-03-26 15:40:02 · 1049 阅读 · 0 评论 -
二十一、挖掘模式评估方法
1. 模式评估方法评估方法的规则大部分关联规则挖掘算法都使用指支持度-置信度框架。尽管最小支持度和置信度阈值有助于排出大量无趣规则的探查,但仍然会产生一些用户不感兴趣的规则。强规则不一定是有趣的从关联分析到相关分析2. 强规则不一定是有趣的例1:买游戏->买录像buys(X, “computer games”) => buys(X, “videos”) [40%, ...原创 2020-03-25 14:43:56 · 1379 阅读 · 0 评论 -
二十、Eclat算法介绍
1. Eclat算法简介数据格式Apriori算法和FpGrowth都是从项集格式{TID: itemset}的事物集中挖掘频繁模式,其中TID是事物标识符,而itemset是事物TID中购买的商品。这种数据格式成为水平数据格式。数据也可以用项-TID集格式{item:TID_set}表示,其中item是项的名称,而TID_set是包含item的事物标识符的集合。这种数据格式称为垂直数据格...原创 2020-03-24 11:05:02 · 6279 阅读 · 1 评论 -
十九、FPGrowth算法介绍
1. Apriori和FPGrowht算法的特点FP-Growth算法概述FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。FP-Growth算法的特点相比Apriori算法需要多次扫描数据库,FPGrowth只需要对数据库扫描2次。第1次扫描事务数据库获得频繁1项集。第2次扫描建立一颗F...原创 2020-03-20 10:56:05 · 2344 阅读 · 0 评论 -
十八、Apriori算法介绍
1. 关联规则挖掘关联规则挖掘定义大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务:频繁项集产生(Frequent Itemset Generation)其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。规则的产生(Rule Generation)其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则。关联分...原创 2020-03-18 11:59:09 · 1132 阅读 · 0 评论 -
十七、频繁模式、关联和相关性的基本概念和方法
1.挖掘频繁模式、关联和相关性动机:寻找数据的内在规律什么样的产品会经常在一起购买?当购买一台电脑后,后续会有哪些购买行为?数据离散化是一种数据变换形式。数据变换策略概述通过规范化变换数据-通过分箱离散化通过直方图分析离散化通过聚类、决策树和相关分析离散化标称数据的概念分层产生应用挖掘数据之间的关联、相关性、和其他有趣的联系,及购物篮分析, 交差营销, 价目表设置,销...原创 2020-03-17 08:27:10 · 973 阅读 · 0 评论 -
十六、数据变换和数据离散化
1.数据归约的概念数据变换的概念和数据离散化在数据预处理过程中,不同的数据适合不同的数据挖掘算。数据变换是一种将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入。数据离散化是一种数据变换形式。数据变换策略概述通过规范化变换数据-通过分箱离散化通过直方图分析离散化通过聚类、决策树和相关分析离散化标称数据的概念分层产生2 数据变换策略概述在数据变换中...原创 2020-03-12 08:42:56 · 4389 阅读 · 0 评论 -
十五、数据归约
1.数据归约的概念1.1 数据归约数据规约方法类似数据集的压缩,它通过维度的减少或者数据量的减少,来达到降低数据规模的目的。数据归约策略概述维度归约数量归约2 数据归约策略对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。计算时间:较简单的数据,即经过数据归约后的结果,可减少数据挖掘...原创 2020-03-10 09:59:24 · 9307 阅读 · 0 评论 -
十四、数据集成
1.数据集成的概念和难点1.1 数据集成的基本概念数据集成是一个数据整合的过程。通过综合各数据源,将拥有不同结构、不同属性的数据整合归纳在一起,就是数据集成。1、数据集成式将不同来源的数据整合在一个数据库中的过程。2、不同的数据源定义属性时命名规则不同,存入的数据格式、取值方式、单位都会有不同。因此即便两个值代表的业务意义相同,也不代表存在数据库中的值就是相同的。1.2 数据集成的难点...原创 2020-03-09 08:51:44 · 6691 阅读 · 0 评论 -
十三、数据清洗
1.清洗数据数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等:缺失值处理;噪声数据处理;不一致数据的处理;清洗数据的原则包括以下方面的内容:尽可能赋予属性名和属性值明确的含义统一多数据源的属性值编码去除重复属性去除可忽略字段合理选择关联字段尽可能赋予属性名和属性值明确的含义统一多数据源的属性值编码去除重复属性去除...原创 2020-03-07 09:24:51 · 7585 阅读 · 0 评论 -
十二、数据预处理概述
1.数据预处理**数据预处理(data preprocessing)**是指在主要的处理以前对数据进行的一些处理,以保证数据质量能满足数据挖掘的任务。数据质量:为什么要对数据预处理?数据预处理的形式数据处理的主要任务2 数据质量:为什么要对数据预处理2.1 数据质量的因素在实际的数据挖掘任务中,数据质量决定了数据挖掘任务的成与败,而数据质量涉及许多因素,主要包括:1.准确性...原创 2020-03-06 14:42:59 · 6652 阅读 · 0 评论 -
十一、探索性数据分析应用案例
1.Lending Club数据处理初步处理1.1 借贷状态数据处理1、借贷状态分为:Fully Paid:,Charged Off和Current,Default等。2、处理的规则:如果借贷状态为Fully Paid, 结果返回0,否则返回1,实现的代码如下图所示:1.2 借贷期限预处理1、在Lending club数据中,借贷期限的数据内容为:‘n/a’,‘1 year’,‘2 ...原创 2020-03-05 08:38:48 · 2294 阅读 · 0 评论 -
十、探索性数据分析的图形化探索
1.图形化探索图行化探索又称为可视化描述,通过图表的形式将数据的各个特征呈现出来,不同的图有着各自的优势和缺陷,在实际运用过程中可以综合使用进行数据的分析:直方图累积分布图箱型图条形图饼图散点图图形化探索相比与数字化的探索结果看起来更直观,更能反应数据分布的特点。1.3 直方图1.3.1 直方图的基本概念直方图是直接了解数据分布情况最常用的图形类型,它将连续数据分为几个...原创 2020-03-04 16:58:48 · 901 阅读 · 0 评论 -
九、探索性数据分析的应用
1.探索性数据分析概述探索性数据分析主要包括以下方面的内容:探索性数据分析的概念探索性数据分析的目的探索性数据分析的常见工具探索变量关系及其可视化2 探索性数据分析的概念1977年John Wilder Tukey第一次系统性地论述了探索性数据分析EDA是指对已有的数据通过作图、制表、计算特征等手段探索数据的结构和规律的一种数据分析方法;探索性数据分析(EDA)注重对数据...原创 2020-03-04 09:04:37 · 1214 阅读 · 0 评论 -
七、度量数据的相似性和想异性
1.相似性和想异性度量度量数据的相似性和相异性主要包括以下方面的内容:数数据矩阵和相异性矩阵;标称属性的临近性度量;二元属性的临近性度量;数值属性的相异性:闵科夫斯基距离2 数据矩阵和相异性矩阵数据矩阵数据矩阵或称对象-属性结构:这种数据结构用关系表的形式或n×????矩阵存放n个数据对象:每行对应于一个对象。在记号中,我们可能使用????作为遍历p个属性的下标。相异性矩阵相异性...原创 2020-03-03 09:14:12 · 1478 阅读 · 0 评论 -
六、数据的基本统计描述
1.数据的基本统计描述基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点。中心趋势度量 :均值、中位数、众数和中列数;度量数据散步:极差、四分位数、方差、标准差和四分位数极差;数据的基本统计描述的图形显示:分为数图、直方图、散点图。2 中心趋势度量均值也就是度量数据分布的中部或中心位置。(给定一种属性,它的值大部分落在何处)数据集“中心”的最常用、最有...原创 2020-03-02 14:20:20 · 3725 阅读 · 0 评论 -
五、数据对象和属性类型
数据挖掘_unit051.数据对象数据集由数据对象组成一个数据对象代表一个实体。通常数据对象用属性描述,又称样本、实例或数据点。销售数据库中 :对象可以顾客、商品或销售;医疗数据库中,对象可以是医生或患者;大学数据库中,对象可以是学生、教授和课程;2 属性的概念属性是一个数据字段,表述数据对象的一个特征。通常情况下,属性、维、特征和变量表示的是同一个意思。描述顾客对象的属性可...原创 2020-03-02 11:44:21 · 6423 阅读 · 0 评论 -
四、数据挖掘中常见的挖掘模式
1.数据挖掘的模式1.1 问题数据挖掘的功能是什么,都包含哪些内容,数据挖掘可以挖掘什么类型的模式?1.2 方案数据挖掘功能用于指定数据挖掘任务发现的模式:一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测。数据挖掘的功能和模式主要包括以下内容:特征化和区分频繁模式、关联和相关性分析挖掘分类与...原创 2020-03-01 18:49:11 · 6555 阅读 · 0 评论 -
三、数据挖掘的类型
1.挖掘的数据类型数据挖掘能被应用于任何对目标应用有意义的数据类型最基本的形式有:数据库数据数据仓库数据事务处理数据库数据其他类型的数据1.1 数据库数据数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(称做数据库)和一组存取数据的软件程序组成。软件程序提供如下的机制:定义数据结构和数据存储,确保存储的信息的一致性和安全性。1.2 数据仓库数据数据仓...原创 2020-03-01 09:02:23 · 5377 阅读 · 0 评论 -
二、数据挖掘的工具
数据挖掘_unit021.工具的分类一般来说,数据挖掘工具根据其适用的范围分为以下两类。1.1 通用数据挖掘工具通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。1.2 专用数据挖掘工具针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑了数据、需求的特性。2 数据挖掘工具选择2.1 数据挖掘工具选择参考指标功能性:一个好的数据挖掘工具...原创 2020-02-29 15:58:44 · 2021 阅读 · 0 评论