
大数据
文章平均质量分 88
QYUooYUQ
这个作者很懒,什么都没留下…
展开
-
大数据在物流行业的应用
物流大数据就是通过海量的物流数据,即运输、仓储、搬运装卸、包装及流通加工等物流环节中涉及的数据、信息等,挖掘出新的增值价值,通过大数据分析可以提高运输与配送效率,减少物流成本,更有效地满足客户服务要求。1. 物流大数据的作用物流大数据应用对于物流企业来讲具有以下 3 个方面的重要作用。1)提高物流的智能化水平通过对物流数据的跟踪和分析,物流大数据应用可以根据情况为物流企业做出...原创 2019-07-05 20:59:59 · 59147 阅读 · 0 评论 -
数据挖掘之关联规则分析简介
关联分析是指从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。在大数据时代,关联分析是最常见的数据挖掘任务之一。概述关联分析是一种简单、实用的分析技术,是指发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时岀现的规律和模式。关联分析可从大量数据中发现事物、特征或者数据之间的,频繁出现的相互依赖关系和关联关系。这些关联并不总是事先知道的...原创 2019-07-03 21:19:58 · 5536 阅读 · 0 评论 -
DBSCAN聚类算法简介
DBSCAN(Density—Based Spatial Clustering of Application with Noise)算法是一种典型的基于密度的聚类方法。它将簇定义为密度相连的点的最大集合,能够把具有足够密度的区域划分为簇,并可以在有噪音的空间数据集中发现任意形状的簇。1. 基本概念DBSCAN 算法中有两个重要参数:Eps 和 MmPtS。Eps 是定义密度时的邻域半径,M...原创 2019-07-03 21:19:57 · 32743 阅读 · 4 评论 -
什么是聚类分析?聚类分析方法的类别
聚类分析是指将数据对象的集合分组为由类似的对象组成的多个类的分析过程。基本概念聚类(Clustering)就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。聚类技术通常又被称为无监督学习,与监督学习不同的是,在簇中那些表示数据类别的分类或者分组信息是没有的。数据之间的相似性是通过...原创 2019-07-03 21:09:55 · 109034 阅读 · 0 评论 -
k-means聚类算法简介
k-means 算法是一种基于划分的聚类算法,它以 k 为参数,把 n 个数据对象分成 k 个簇,使簇内具有较高的相似度,而簇间的相似度较低。1. 基本思想k-means 算法是根据给定的 n 个数据对象的数据集,构建 k 个划分聚类的方法,每个划分聚类即为一个簇。该方法将数据划分为 n 个簇,每个簇至少有一个数据对象,每个数据对象必须属于而且只能属于一个簇。同时要满足同一簇中的数据对象相...原创 2019-07-03 21:10:00 · 3045 阅读 · 0 评论 -
Spark MLlib简介
MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道 API。本节将对 Spark MLlib 进行简单介绍,在介绍数据挖掘算法时,将使用 Spark MLlib 提供的算法进行实例讲解。Spark MLlib的构成Sp...原创 2019-07-03 20:59:54 · 299 阅读 · 0 评论 -
Spark MLlib简介
MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道 API。本节将对 Spark MLlib 进行简单介绍,在介绍数据挖掘算法时,将使用 Spark MLlib 提供的算法进行实例讲解。Spark MLlib的构成Sp...原创 2019-07-03 20:59:52 · 874 阅读 · 0 评论 -
决策树和朴素贝叶斯算法简介
本节主要介绍数据挖掘中常见的分类方法决策树和朴素贝叶斯算法。决策树算法决策树(Decision Tree,DT)分类法是一个简单且广泛使用的分类技术。决策树是一个树状预测模型,它是由结点和有向边组成的层次结构。树中包含3种结点:根结点、内部结点和叶子结点。决策树只有一个根结点,是全体训练数据的集合。树中的一个内部结点表示一个特征属性上的测试,对应的分支表示这个特征属性在某个值域上的...原创 2019-07-03 21:00:00 · 4149 阅读 · 0 评论 -
数据挖掘之分类和预测简介
分类和预测是两种使用数据进行预测的方式,可用来确定未来的结果。分类是用于预测数据对象的离散类别的,需要预测的属性值是离散的、无序的。预测则是用于预测数据对象的连续取值的,需要预测的属性值是连续的、有序的。例如,在银行业务中,根据贷款申请者的信息来判断贷款者是属于“安全”类还是“风险”类,这是数据挖掘中的分类任务。而分析给贷款人的贷款量就是数据挖掘中的预测任务。本节将对常用的分类与预...原创 2019-07-03 20:59:56 · 9007 阅读 · 0 评论 -
大数据框架基础Spark是什么?Spark和Hadoop的区别
Spark 是加州大学伯克利分校 AMP(Algorithms,Machines,People)实验室开发的通用内存并行计算框架。Spark 在 2013 年 6 月进入 Apache 成为孵化项目,8 个月后成为 Apache 顶级项目。Spark 以其先进的设计理念,迅速成为社区的热门项目,围绕着 Spark 推出了 SparkSQL、SparkStreaming、MLlib 和 Gr...原创 2019-06-28 11:39:46 · 757 阅读 · 0 评论 -
大数据框架基础MapReduce编程实例:单词计数
本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。任务准备单词计数(WordCount)的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大,每个文档又包含大量的单词,则无法使用传统的线性程序进行处理,而这类问题正是 MapReduce 可以发挥优势的地方。在前面《MapReduce实例分析:单词计数》教程中已经介...原创 2019-06-28 11:38:00 · 1224 阅读 · 0 评论 -
大数据框架基础MapReduce执行流程和Shuffle过程
本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduce 解决实际问题。Hadoop MapReduce作业执行流程整个 Hadoop MapReduce 的作业执行流程如图 1 所示,共分为 10 步。...原创 2019-06-28 11:37:04 · 231 阅读 · 0 评论 -
大数据框架基础MapReduce实例分析:单词计数
单词计数是最简单也是最能体现 MapReduce 思想的程序之一,可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述采用 MapReduce 解决实际问题的基本思路和具体实现过程。设计思路首先,检查单词计数是否可以使用 MapReduce 进行处理。因为在单词计数程序任务中,不同单词的出现次数之...原创 2019-06-28 11:35:59 · 445 阅读 · 0 评论 -
大数据框架基础MapReduce执行流程和Shuffle过程
本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduce 解决实际问题。Hadoop MapReduce作业执行流程整个 Hadoop MapReduce 的作业执行流程如图 1 所示,共分为 10 步。...原创 2019-06-28 11:34:58 · 699 阅读 · 0 评论 -
大数据框架基础MapReduce实例分析:单词计数
单词计数是最简单也是最能体现 MapReduce 思想的程序之一,可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述采用 MapReduce 解决实际问题的基本思路和具体实现过程。设计思路首先,检查单词计数是否可以使用 MapReduce 进行处理。因为在单词计数程序任务中,不同单词的出现次数之...原创 2019-06-28 11:32:59 · 1811 阅读 · 0 评论 -
大数据框架基础Hadoop MapReduce工作流程
MapReduce 就是将输入进行分片,交给不同的 Map 任务进行处理,然后由 Reduce 任务合并成最终的解。MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Output 等阶段,具体的工作流程如图 1 所示。图 1 MapReduce 的工作流程在 Input 阶段,框架根据数据的存储位置,把数据...原创 2019-06-28 11:31:59 · 370 阅读 · 0 评论 -
大数据框架基础Hadoop MapReduce架构
Hadoop MapReduce 是 Hadoop 平台根据 MapReduce 原理实现的计算框架,目前已经实现了两个版本,MapReduce 1.0 和基于 YARN 结构的 MapReduce 2.0。尽管 MapReduce 1.0 中存在一些问题,但是整体架构比较清晰,更适合初学者理解 MapReduce 的核心概念。所以,本教程首先使用 MapReduce 1.0 来介绍 MapR...原创 2019-06-28 11:31:36 · 657 阅读 · 1 评论 -
Apriori算法和FP-Tree算法简介
Apriori关联分析算法Apriori 算法是挖掘产生关联规则所需频繁项集的基本算法,也是最著名的关联分析算法之一。1. Apriori 算法Apriori 算法使用了逐层搜索的迭代方法,即用 k-项集探索(k+1)-项集。为提高按层次搜索并产生相应频繁项集的处理效率,Apriori 算法利用了一个重要性质,该性质还能有效缩小频繁项集的搜索空间。Apriori 性质:一个频繁项集...原创 2019-07-03 21:45:02 · 854 阅读 · 0 评论 -
基于大数据的精准营销
在大数据时代到来之前,企业营销只能利用传统的营销数据,包括客户关系管理系统中的客户信息、广告效果、展览等一些线下活动的效果。数据的来源仅限于消费者某一方面的有限信息,不能提供充分的提示和线索。互联网时代带来了新类型的数据,包括使用网站的数据、地理位置的数据、邮件数据、社交媒体数据等。大数据时代的企业营销可以借助大数据技术将新类型的数据与传统数据进行整合,从而更全面地了解消费者的信息,对顾客群体...原创 2019-07-03 21:45:04 · 16248 阅读 · 0 评论 -
大数据在互联网行业的应用
互联网企业拥有大量的线上数据,而且数据量还在快速增长,除了利用大数据提升自己的业务之外,互联网企业已经开始实现数据业务化,利用大数据发现新的商业价值。以阿里巴巴为例,它不仅在不断加强个性化推荐、“千人千面”这种面向消费者的大数据应用,并且还在尝试利用大数据进行智能客户服务,这种应用场景会逐渐从内部应用延展到外部很多企业的呼叫中心之中。在面向商家的大数据应用中,以“生意参谋”为例,超过 60...原创 2019-07-05 20:59:57 · 33817 阅读 · 1 评论 -
大数据在金融行业的应用
如果能够引入外部数据,还可以进一步加快数据价值的变现。外部数据中比较好的有社交数据、电商交易数据、移动大数据、运营商数据、工商司法数据、公安数据、教育数据和银联交易数据等。大数据在金融行业的应用范围较广,典型的案例有花旗银行利用 IBM 沃森电脑为财富管理客户推荐产品,并预测未来计算机推荐理财的市场将超过银行专业理财师;摩根大通银行利用决策树技术,降低了不良贷款率,转化了提前还款客户,一年为摩...原创 2019-07-05 20:59:54 · 47583 阅读 · 0 评论 -
大数据可以应用在哪些行业?
经过近几年的发展,大数据技术已经慢慢地渗透到各个行业。不同行业的大数据应用进程的速度,与行业的信息化水平、行业与消费者的距离、行业的数据拥有程度有着密切的关系。总体看来,应用大数据技术的行业可以分为以下 4 大类。1)第一大类是互联网和营销行业。互联网行业是离消费者距离最近的行业,同时拥有大量实时产生的数据。业务数据化是其企业运营的基本要素,因此,互联网行业的大数据应用的程度是最高的。与互...转载 2019-07-05 20:59:52 · 8494 阅读 · 0 评论 -
大数据的其他应用领域
1.大数据帮助企业挖掘市场机会,探寻细分市场大数据能够帮助企业分析大量数据,从而进一步挖掘市场机会和细分市场,然后对每个群体量体裁衣般地釆取独特的行动。获得好的产品概念和创意,关键在于如何去搜集消费者相关的信息,如何获得趋势,如何挖掘出人们头脑中未来可能会消费的产品概念。用创新的方法解构消费者的生活方式,剖析消费者的生活密码,才能让吻合消费者未来生活方式的产品研发不再成为问题。企业了...原创 2019-07-05 20:59:51 · 1237 阅读 · 0 评论 -
大数据预测(大数据核心应用)
大数据预测是大数据最核心的应用,它将传统意义的预测拓展到“现测”。大数据预测的优势体现在,它把一个非常困难的预测问题,转化为一个相对简单的描述问题,而这是传统小数据集根本无法企及的。从预测的角度看,大数据预测所得出的结果不仅仅是用于处理现实业务的简单、客观的结论,更是能用于帮助企业经营的决策。1. 预测是大数据的核心价值大数据的本质是解决问题,大数据的核心价值就在于预测,而企业经营的核心也...原创 2019-07-05 20:59:05 · 31418 阅读 · 0 评论 -
基于大数据的个性化推荐系统
随着互联网时代的发展和大数据时代的到来,人们逐渐从信息匮乏的时代走入了信息过载的时代。为了让用户从海量信息中高效地获取自己所需的信息,推荐系统应运而生。推荐系统的主要任务就是联系用户和信息,它一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。基于大数据的推荐系统通过分析用户的历史记录了解用户的喜好,从而主动为用户推荐其感兴...原创 2019-07-05 20:59:03 · 51052 阅读 · 19 评论 -
Spark MLlib简介
MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道 API。本节将对 Spark MLlib 进行简单介绍,在介绍数据挖掘算法时,将使用 Spark MLlib 提供的算法进行实例讲解。Spark MLlib的构成Sp...原创 2019-06-29 17:49:03 · 559 阅读 · 0 评论 -
Spark Streaming编程实战(开发实例)
本节介绍如何编写 Spark Streaming 应用程序,由简到难讲解使用几个核心概念来解决实际应用问题。流数据模拟器在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境,首先需要定义流数据模拟器。该模拟器的主要功能是通过 Socket 方式监听指定的端口号,当外部程序通过该端口进行连接并请求数据时,模拟器将定时将指定的文件数据进行随机获取,并发送给外部程序...原创 2019-06-29 17:47:13 · 931 阅读 · 0 评论 -
Spark DStream相关操作
与 RDD 类似,DStream 也提供了自己的一系列操作方法,这些操作可以分成 3 类:普通的转换操作、窗口转换操作和输出操作。普通的转换操作普通的转换操作如表 1 所示表 1 普通的转换操作 Suo 描述 map(func) 源 DStream 的每个元素通过函数 func 返回一个新的 DStream。 flatMap(func) 类似于 map 操作...原创 2019-06-29 17:46:52 · 1117 阅读 · 0 评论 -
Spark Streaming编程模型
DStream 的操作流程DStream 作为 Spark Streaming 的基础抽象,它代表持续性的数据流。这些数据流既可以通过外部输入源来获取,也可以通过现有的 DStream 的 Transformation 操作来获得。在内部实现上,DStream 由一组时间序列上连续的 RDD 来表示。如图 1 所示,每个 RDD 都包含了自己特定时间间隔内的数据流。图 1DStr...原创 2019-06-29 17:46:25 · 268 阅读 · 0 评论 -
Spark Streaming的系统架构
传统流处理系统架构流处理架构的分布式流处理管道执行方式是,首先用数据采集系统接收来自数据源的流数据,然后在集群上并行处理数据,最后将处理结果存放至下游系统。为了处理这些数据,传统的流处理系统被设计为连续算子模型,其工作方式如图 1 所示。系统包含一系列的工作结点,每组结点上运行一至多个连续算子。对于流数据,每个连续算子(ContinuousOperator)一次处理一条记录,并且将记录...原创 2019-06-29 17:46:10 · 694 阅读 · 0 评论 -
Spark Streaming简介
Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming 支持从多种数据源获取数据,包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后,可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算...原创 2019-06-29 17:45:54 · 2833 阅读 · 0 评论 -
Spark开发实例(编程实践)
本节将介绍如何实际动手进行 RDD 的转换与操作,以及如何编写、编译、打包和运行 Spark 应用程序。启动 SparkShellSpark 的交互式脚本是一种学习 API 的简单途径,也是分析数据集交互的有力工具。Spark 包含多种运行模式,可使用单机模式,也可以使用分布式模式。为简单起见,本节采用单机模式运行 Spark。无论采用哪种模式,只要启动完成后,就初始化了一个 Spa...原创 2019-06-29 17:45:37 · 12535 阅读 · 0 评论 -
Spark生态圈简介
Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。AMP 实验室运用大数据、云计算、通信等各种资源及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为有用的信息,以供人们更好地理解世界。该生态圈已经涉及机器学习、数据挖掘、数据库、信息检索、自然语言处...原创 2019-06-29 17:45:19 · 887 阅读 · 0 评论 -
Spark总体架构和运行流程
本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。Spark 总体架构Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster Manager)、多个运行作业任务的工作结点(Worker Node)、每个应用的任务控制结点(Driver)和每个工作结点上负责具体任务的执行进程(Executor)。...原创 2019-06-29 17:45:05 · 2734 阅读 · 0 评论 -
大数据框架基础HBase Java API编程实例
在本实例中,首先创建一个学生成绩表 scores,用来存储学生各门课程的考试成绩,然后向 scores 添加数据。表 scores 的概念视图如图 1 所示,用学生的名字 name 作为行键,年级 grade 是一个只有一个列的列族,score 是一个列族,每一门课程都是 score 的一个列,如 english、math、Chinese 等。score 的列可以随时添加。例如,后续学生又...原创 2019-06-28 11:30:02 · 632 阅读 · 0 评论 -
大数据框架基础Hadoop MapReduce简介
然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。批处理模式批处理模式是一种最早进行大规模数据处理的模式。批处理主要操作大规模静态数据集,并在整体数据处理完毕后返回结果。批处理非常适合需要访问整个数据集合才能完成的计算工作。例如,在计算总数和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的集合。这些操作要求在计算...原创 2019-06-28 11:31:02 · 491 阅读 · 0 评论 -
HBase列式数据模型简介
数据模型是理解一个数据库的关键,本节介绍 HBase 的列式数据模型,与数据模型相关的基本概念,并描述 HBase 数据库的概念视图和物理视图。数据模型概述HBase 是一个稀疏、多维度、有序的映射表。这张表中每个单元是通过由行键、列族、列限定符和时间戳组成的索引来标识的。每个单元的值是一个未经解释的字符串,没有数据类型。当用户在表中存储数据时,每一行都有一个唯一的行键和任意多的列。...原创 2019-06-27 15:10:13 · 1673 阅读 · 0 评论 -
大数据预处理之数据集成
数据处理常常涉及数据集成操作,即将来自多个数据源的数据,如数据库、数据立方、普通文件等,结合在一起并形成一个统一数据集合,以便为数据处理工作的顺利完成提供完整的数据基础。在数据集成过程中,需要考虑解决以下几个问题。1. 模式集成问题模式集成问题就是如何使来自多个数据源的现实世界的实体相互匹配,这其中就涉及实体识别问题。例如,如何确定一个数据库中的“custom_id”与另一个数据库...原创 2019-06-26 15:57:45 · 7595 阅读 · 1 评论 -
大数据预处理之数据消减
我们都知道对大规模数据进行复杂的数据分析通常需要耗费大量的时间,这时就需要我们的数据消减技术了。数据消减技术的主要目的就是从原有巨大数据集中获得一个精简的数据集,并使这一精简数据集保持原有数据集的完整性。这样在精简数据集上进行数据挖掘就会提高效率,并且能够保证挖掘出来的结果与使用原有数据集所获得的结果基本相同。数据消减的主要策略有以下几种。名称 说明 数据立方合计 这类...原创 2019-06-26 15:57:48 · 2796 阅读 · 0 评论 -
离散化和数值概念层次树简介
离散化技术方法可以通过将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续(取值)属性的取值个数。可以用一个标签来表示一个区间内的实际数据值。在基于决策树的分类挖掘中,消减属性取值个数的离散化处理是一个极为有效的数据预处理步骤。图 1 所示是一个年龄属性的概念层次树。概念层次树可以通过利用较高层次概念替换低层次概念(如年龄的数值)来减少原有数据集的数据量。虽然一些细节在数据泛化过程中消失...原创 2019-06-26 15:57:51 · 928 阅读 · 0 评论