
分布式
夏天的风€&^_^
重庆
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
NoSQL分布式数据库,HBase的原理和学习
一、概念 NoSQL 最开始表示反SQL运动,用新型的非关系数据库取代关系数据库。但是现在NoSQL变成了not only SQL,不仅仅是关系型SQL,现在表示关系和非关系数据库都有优缺点,彼此都无法互相取代。 二、NoSQL数据库特点 灵活的可扩展性 灵活的数据模型 与云计算的完美融合 三、NoSQL数据技术出现的原因 关系数据库在这个海量数据的时代情形下,无法满足Web2.0的需求,主要...原创 2019-11-27 21:04:56 · 866 阅读 · 0 评论 -
HDFS分布式文件系统的学习
首先,我们来看一下hadoop的框架 一、概述: 在获取了海量的数据后,采用何种方式进行高效存储是进行大数据分析的基础; 基于分布式硬件集群,并采用特定的分布式文件系统对海量数据(尤其是原生数据)进行存储; 分布式文件系统把文件存储到多个计算机节点上,成千上万的计算机节点共同构成计算机集群。 而且这种计算机节点的集群不与以前的多个处理器和专用高级硬件的并行化处理装置一样,目前使用的分布式文件系...原创 2019-11-26 23:07:36 · 830 阅读 · 1 评论 -
Hadoop的学习
一、什么是Hadoop? Hadoop是Apache软件基金会旗下的一个开源分布式计算平台, 为用户提供了系统底层细节透明的分布式基础架构 Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且 可以部署在廉价的计算机集群中 Hadoop被公认为行业大数据标准开源软件,在分布式环境下提 供了海量数据的处理能力 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商 业化工具和技术...原创 2019-11-26 17:13:41 · 442 阅读 · 1 评论 -
把训练好的GBDT模型放到spark streaming上运行,并可以实时的处理流过来的数据
from pyspark.mllib.regression import LabeledPoint from pyspark.mllib.feature import HashingTF from pyspark.mllib.tree import GradientBoostedTrees, GradientBoostedTreesModel from pyspark import SparkC...原创 2019-11-26 00:11:57 · 555 阅读 · 0 评论 -
Spark RDD的简单使用+Spark SQL的简单使用+Spark Streaming的简单使用
Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍,以及在Spark RDD的基础上的简单使用。 1.RDD的基本概念 RDD 是Spark提供的最重要的一种抽象概念...原创 2019-11-15 00:39:38 · 1402 阅读 · 0 评论 -
eclipse连接hbase,并对hbase进行基本操作
最近有一个大数据的作业,首先安装hbase,然后使用eclipse去操作hbase,并对数据库进行基本操作,但是对于hbase不是太了解,不是很理解在hbase这种列族型数据库如何联系实体,类似于关系型数据库一样,所以我只创建了几个数据库,然后分别对它们进行操作,有看到大佬的博客说了如何进行一对多,多对多的关联,实质为:在每一个记录的列族中进行横向添加,然后一级一级的往下联系起来,但是官方又说最好...原创 2019-10-24 00:59:03 · 2286 阅读 · 0 评论