
大数据技术原理与应用
文章平均质量分 91
大数据相关技术介绍与实践。
秘境之眼
业精于勤,荒于嬉;行成于思,毁于随。
展开
-
分布式数据库HBase
1.HBase 简介1.1 HBase是BigTable的开源实现,BigTable是架构在分布式文件系统GFS之上的。1.2 HBase的优点高可靠性;高性能;面向列;可伸缩;HBase是一个分布式数据库,可以用来存储非结构化和半结构化的松散数据。1.3 HBase和BigTable底层技术的对应关系1.4 HBase主要是为了满足大数据实时处理需求而开发设计的。传统关系...原创 2021-03-07 12:04:07 · 1520 阅读 · 0 评论 -
大数据的应用-UserCF和ItemCF推荐算法
一.推荐系统1.1 推荐系统是大数据在互联网领域的典型应用,它可以通过分析用户的历史记录来了解用户的喜好,从而主动的为用户推荐其感兴趣的信息,满足用户的个性化推荐需求.1.2 推荐系统是自动联系用户和物品的一种工具.1.3 推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售.长尾理论:1.4 推荐方法1.5 推荐系统模型二.基于用户的协同过滤(UserCF)与基于物品的协同过滤(ItemCF)2.1 UserCF找到和目标用户兴趣相似的用户集合;找到该集合中的用户原创 2020-05-12 11:50:25 · 817 阅读 · 0 评论 -
流计算
一.概述实时获取来自不同数据源的海量数据经过实时分析处理,或的有价值的信息.1.数据的处理流程静态数据:数据不会发生变化,如数据仓库中的数据;流数据:数据以大量,快速.时变的流形式持续到达.2.流数据特征:数据快速持续到达,潜在大小也许是无穷无尽的;数据来源众多,格式复杂;数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储;数据顺序颠倒,或者不完整,系统...原创 2020-05-12 10:45:59 · 3369 阅读 · 0 评论 -
图计算-Pregel-Hama
一.图计算简介1.1 图计算是专门针对图结构数据的处理.许多大数据都是以大规模图或网络的形式呈现;许多非图结构的大数据,也常常被转换为图模型后进行分析;图结构很好地表达了数据之间的关联性;关联性计算是大数据计算的核心------通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息;1.2 传统的图计算算法存在典型问题常常表现出比较差的内存访问局部性;针对单个节点的处...原创 2020-05-12 10:44:44 · 4410 阅读 · 4 评论 -
Spark安装及其sbt和maven 打包工具安装
一.安装准备需要先安装hadoop,Java JDK,采用**Hadoop(伪分布式)+Spark(Local模式)**的组合.spark和sbt的版本:spark-2.4.5-bin-without-hadoop.tgz 和sbt-1.3.8.tgz;原创 2020-05-02 17:26:15 · 1101 阅读 · 0 评论 -
Spark详解
一.Spark 简介Spark 和Scala1.1 Spark 是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序;1.2 Spark 的特点:1.3 Scala是一门现代的多范式编程语言,可扩展式语言;1.4 Scala 特性:1.5 Scala 是Spark的主要编程语言,但Spark 还支持Java 、Python ,R语言编程。提供了REPL...原创 2020-04-24 16:56:23 · 1145 阅读 · 4 评论 -
Hadoop分布式集群安装配置
1.1 安装环境操作系统deepin 15.11, VMware Workstation,hadoop 3.1.3 版本。在deepin 操作系统中安装 VMware Workstation,在 VMware Workstation中安装两个deepin系统,采用两个节点作为集群环境,一个作为Master节点,一个作为Slave 节点。1.2 hadoop的安装准备在Master节点和Sla...原创 2020-04-22 10:16:37 · 339 阅读 · 0 评论 -
Hadoop相关技术
一.Hadoop 的优化与发展1.1 局限与不足抽象层次低,需要人工编码;表达能力有限;开发者自己管理作业之间的依赖关系;难于看到程序的整体的逻辑;执行迭代操作效率低;实时性差;资源浪费;1.2 改进与提升对MapReduce 和HDFS两大核心组件进行改进;不断丰富Hadoop组件,包括Pig,Tez,Spark和Kafka等。二.HDFS2.0的新特性2...原创 2020-04-22 09:39:02 · 462 阅读 · 0 评论 -
Hive安装与配置MySQL元数据库
一.MySQL的安装1.1 更新获取最新软件源,并安装MySQL。sudo apt-get updatesudo apt-get install mysql-server1.2 启动和关闭MySQL服务器。service mysql startservice mysql stop1.3 确认MySQL 是否启动成功,MySQL 处于LISTEN状态则表示启动成功。 sudo...原创 2020-04-13 18:16:08 · 642 阅读 · 0 评论 -
Hive数据仓库
一.概念1.1 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1.2 体系结构1.3 与传统数据库的区别数据相对稳定,不会频繁发生变化。保留历史信息;1.4 基于传统数据库的传统数据仓库面临的挑战无法满足快速增长的海量数据存储需求;无法有效处理不同数据类型的数据;计算和处理数据能力不足;二.Hive 简介2.1 基于ha...原创 2020-04-12 16:43:22 · 574 阅读 · 0 评论 -
MapReduce词频统计
1.1 文件准备创建本地目录和创建两个文本文件,在两个文件中输入单词,用于统计词频。cd /usr/local/hadoopmkdir WordFilecd WordFiletouch wordfile1.txttouch wordfile2.txt1.2 创建一个HDFS目录,在本地上不可见,并将本地文本文件上传到HDFS目录。通过如下命令创建。cd /usr/local/h...原创 2020-04-11 18:26:51 · 1690 阅读 · 0 评论 -
MapReduce
一.分布式并行编程1.1 MapReduce 是一种分布式编程框架。1.2 Hadoop MapReduce是MapReduce的开源实现,门槛更低;1.3 MapReduce适合数据密集型的应用。二.MapReduce模型简介2.1 将MapReduce的底层处理细节抽象成Map和Reduce两个函数;2.2 MapReduce 采用分而治之的策略 ,将大数据集切分为非常多的独立的小...原创 2020-04-07 09:39:46 · 506 阅读 · 0 评论 -
云数据库
一.概述1.1 云计算通过网络以服务的方式为用户提供廉价的资源。1.2 优势按需服务;随时服务;通用性;高可靠性:冗余备份;成本低,廉价;超大规模;虚拟化;扩展性高;1.3 云数据库是部署和虚拟化在云计算环境当中的数据库;1.4 云数据库的优良特性动态可扩展;高可用性;较低的使用代价;易用性;免维护;高性能;安全;1.5 云数据库与其他数据库的关系...原创 2020-03-29 13:30:09 · 1059 阅读 · 0 评论 -
NoSQL数据库
1.概述1.1 表示关系和非关系型数据库。1.2 特点灵活的可扩展性:支持在多个节点上的水平扩展,海量的数据存储。灵活的数据模型和云计算紧密结合:充分利用底层的云计算基础设施。1.3...原创 2020-03-19 21:38:06 · 430 阅读 · 0 评论 -
hbase伪分布式配置
1.在单机模式的基础上进行配置,打开hbase-env.sh。vim /usr/local/hbase/conf/hbase-env.sh2.配置HBASE_CLASSPATH为hadoop安装目录下的conf目录,即 /usr/local/hadoop/conf。JAVA_HOME、HBASE_MANAGES_ZK之前已经配置好了。export HBASE_CLASSPATH=/usr/...原创 2020-03-17 14:35:47 · 462 阅读 · 0 评论 -
hbase单机模式配置
1.软件https://pan.baidu.com/s/1mgPA8s02FFyPqcc9DmR-FA 提取码: 337t2.在安装hbase之前,确保你的电脑已经安装Hadoop3.1.3,hbase对Hadoop具有版本依赖。3.将hbase压缩文件解压到/usr/local目录下,先切换到压缩文件所在目录,执行如下命令。sudo tar -zxf hbase-2.2.3-bin.t...原创 2020-03-17 14:35:28 · 746 阅读 · 0 评论 -
分布式文件系统HDFS
1.HDFS简介1.1 Hadoop Distributed File System,简称HDFS。解决海量数据的分布式存储。1.2 分布式文件系统计算机集群中内部机器通过光纤高速交换机进行连接,机架之间通过宽带更高的光纤交换机连接。有一个主节点机器其他的为从节点机器,主节点承担数据目录(元数据)服务,从节点负责具体的数据存储任务。1.3 HDFS实现目标兼容廉价的硬件设备实现...原创 2020-03-04 15:07:00 · 471 阅读 · 1 评论 -
hadoop伪分布式配置
1.1 准备通过gedit编辑器修改比较方便,因此需先安装gedit。sudo apt-get install gedit1.2 修改配置文件core-site.xml和hdfs-site.xml(如下注释部分需要删除)gedit打开core-site.xml$ gedit ./etc/hadoop/core-site.xml<configuration>#在该语句...原创 2020-03-01 21:58:25 · 1265 阅读 · 0 评论 -
hadoop单机配置(非分布式)
1.1 环境使用deepin系统、Hadoop3.1.3和Java环境jdk-8u162-linux-x64.tar.gz。1.2 准备1.创建用户hadoop,按ctrl+alt+t打开终端,输入如下命令,并使用/bin/bash作为shell。$ sudo useradd -m hadoop -s /bin/bash2.设置用户密码。$ sudo passwd hadoop3...原创 2020-03-01 17:30:29 · 1419 阅读 · 1 评论 -
大数据处理架构Hadoop
一.Hadoop简介1.1 Hadoop可以支持多种编程语言。1.2 Hadoop 两大核心技术:HDFS+MapReduce,解决了海量数据的分布式存储和分布式处理。HDFS分布式文件系统分布式并行框架MapReduce1.3 特性高可靠性:某台计算机出现故障,剩余机器可以继续提供服务。高效性:高效地处理海量分布式数据集。高可扩展性:可以不断扩展集群中的计算机数量。高容错...原创 2020-03-01 17:30:07 · 600 阅读 · 0 评论 -
大数据技术原理与应用-概述
一.大数据概述(一)大数据概念1.技术支撑:存储、计算、网络。2.数据产生方式第一阶段:运营式系统阶段第二阶段:用户原创内容阶段第三阶段:感知式系统阶段(物联网的实现普及)3.大数据的特性(4V)快速化(variety)处理速度非常快(秒级决策)。大量化(volume)大数据摩尔定律:每两年数据增长一倍。大数据是由结构化和非结构化(占比大)数据组成。多样化(velo...原创 2020-02-17 19:21:42 · 2038 阅读 · 0 评论