
大数据
hxxjxw
这个作者很懒,什么都没留下…
展开
-
Hadoop的相关知识
集群、单节点模式都需要用到SSH登录linux配置环境变量是通过修改配置文件平时的学习中我们使用伪分布式就足够了Hadoop配置文件说明Hadoop 的运行方式是由配置文件决定的(运行 Hadoop 时会读取配置文件),因此如果需要从伪分布式模式切换回非分布式模式,需要删除 core-site.xml 中的配置项。此外,伪分布式虽然只需要配置 fs.defaultFS ...原创 2019-07-21 11:56:48 · 215 阅读 · 0 评论 -
Spark Streaming
流计算概述流数据流数据和静态数据不同,静态数据是和水库中的水一样,事先就放在那里,而流数据会像小溪流水一样不断地到达对于流数据,一般来讲我们可能不会去过分地关注怎么去把这些数据保存起来。很多数据我们可能进行处理分析之后就扔掉了根据两种数据的两种不同计算流计算流计算基本理念三类流计算框架和平台流计算特点流计...原创 2019-07-31 10:50:47 · 624 阅读 · 0 评论 -
智能推荐系统
协同过滤 CF(Collaborative Filtering)隐语义模型LFM(Latent Factor Model)交替最小二乘法ALS(Alternating Least Square)词频-逆文本频率TF-IDF(term frequency–inverse document frequency)ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,...原创 2019-08-04 08:24:10 · 9520 阅读 · 2 评论 -
Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集,聚合和传输的系统。Flume基于流式框架,灵活简单Flume组成架构启动操作./bin/flume-ng agent -c ./conf/ -f ./conf/log-kafka.properties -n agent -Dflume.root.logger...原创 2019-08-04 15:38:55 · 152 阅读 · 0 评论 -
开源流计算框架Storm
Storm需要zookeeper帮它去完成整个相关的状态的保存和恢复Storm简介Storm的特点Storm设计思想“守株待兔”可以理解为Hadoop中的Job。Hadoop中应用程序提交的时候需要提交一个Job,在流处理当中,要提交一个流计算任务,就是以Topology形式去提交的整个Topology就是一个数据流的转换图,当中包含...原创 2019-07-31 16:41:40 · 660 阅读 · 0 评论 -
Elasticsearch (全文搜索引擎 )
默认端口是9200打开方式:打开elasticsearch.bat查询当前ES里面所有的索引localhost:9200/_cat/indices查看recommender1的内容http://localhost:9200/recommender1/_search?pretty...原创 2019-07-31 17:08:51 · 361 阅读 · 0 评论 -
Spark MLlib
概述、传统的机器学习算法,会受到数据量的制约(一般是基于抽样,在大量数据中抽出一部分来进行训练)现在有了大数据技术之后,我们可以不用再抽样数据进行机器学习,可以对整个全局数据进行机器学习。这得益于近几年出现的一些分布式计算框架MLlibMLlib是一个基于海量数据的机器学习库。它提供了常用的机器学习算法的分布式实现,只需要调用它的接口现在用spark.ml...原创 2019-08-01 09:45:36 · 416 阅读 · 0 评论 -
Kafka
简介Kafka是一个开源消息系统,由Scala写成,由Apache软件基金会开发Kafka是一个分布式消息队列mq(message quene):生产者、消费者的功能。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,接受消息者称为Consumer。 此外,Kafka集群有多个kafka实例组成,每个实例称为broker,即在kafka集群中,每台电脑就是...原创 2019-08-01 09:46:24 · 342 阅读 · 0 评论 -
数据仓库Hive
概述数据仓库的体系结构 数据仓库存储大量的历史数据,数据仓库中的数据不会频繁发生变化,甚至根本不发生变化,数据源中的数据,抽取、装换、加载到数据仓库中之后,很多情况下就只读了数据仓库底层存储数据所需要的数据库产品还是传统的关系数据库。传统数据仓库面临的挑战现在大企业动辄一天几个TB,几十个TB的数据生成速度,对于传统的数据仓库来讲是很难应付的传统数据仓库是...原创 2019-07-30 10:23:01 · 652 阅读 · 0 评论 -
SparkSQL
概述Spark也想有一个产品,能提供SQL查询接口,把你输入的SQL语句,转换成Spark应用程序,然后对底层数据进行分析初期就出现了Shark,它就是Hive on Spark,完全是Hive的引进版,就把底层做了些修改本来Hive就是针对MapReduce开发的,所以添加对Spark的一些优化策略较困难后来出现了Spark SQL,兼容Hive,但是又可以支持很多其他...原创 2019-07-30 10:22:39 · 141 阅读 · 0 评论 -
Spark(概述 & 版本)
Spark概述Spark就是用scala语言开发的scala集成了面向对象和函数式编程两种风格Spark与Hadoop的对比Spark生态系统Spark不是一个单一的产品,而是一个完善的生态系统这是如果不同Spark的话:用Spark:Spark运行架构 数据从磁盘里读出来以后,被封装成一个RDD,可以对RDD...原创 2019-07-20 08:15:15 · 798 阅读 · 0 评论 -
大数据技术原理与应用(一):大数据概述
大数据时代大数据开始被人们所熟知是在2010年前后。2010年前后,以云计算、大数据、物联网的普及为标志迎来第三次信息化浪潮大数据的概念与影响4V大数据由结构化和非结构化数据组成,90%都是非结构化的结构化数据是指存储在关系型数据库当中的非常规范的数据大数据对我们思维方式的影响全样而非抽样(已经由足够的空间和计算能力对全样数据进行存储和分析而不...原创 2019-05-28 14:15:32 · 3534 阅读 · 0 评论 -
大数据技术原理与应用(三):分布式文件系统HDFS
HDFS——Hadoop Distributed File System,Hadoop分布式文件系统为了解决海量数据的分布式存储问题主节点承担起数据目录(元数据)服务从节点具体完成数据的存储任务HDFS设计目标①兼容廉价的硬件设备②能实现流数据读写 这是HDFS和其他分布式文件系统和传统的文件系统有很大区别的一个地方。传统的文件系统在进行数据读写的时候...原创 2019-06-01 12:50:07 · 1362 阅读 · 0 评论 -
大数据技术原理与应用(二):大数据处理架构Hadoop
Hadoop简介Hadoop是Apache软件基金会旗下开源软件,是一个开源分布式计算平台Hadoop屏蔽了大数据底层实现的细节,只需要按照它提供的更高层的接口,做一些简单的编程操作,后台所有的工作全部由整个系统自己实现。Hadoop平台是利用java平台来开发的。但是Hadoop可以支持多种语言Hadoop两大核心——HDFS(分布式文件系统)+MapReduce(分布式并行框...原创 2019-05-29 18:21:11 · 648 阅读 · 0 评论 -
分布式数据库HBase
HBase简介HBase是BigTable的开源实现①HBase的数据模型非常简单,它就是把每个存储的值都存储为未经解释的字符串,靠应用程序的开发人员去解释它的数据类型②HBase,数据都完整存在一张表里④⑤HBase生成新的版本的时候,旧的版本还是在里面继续保留着...原创 2019-07-18 18:01:10 · 175 阅读 · 0 评论 -
MapReduce
MapReduce概述MapReduce是一种分布式并行编程框架摩尔定律从2005年左右开始逐渐失效MapReduce体系结构TaskTracker是以什么方式来衡量自己的资源使用情况?使用一个slot(槽)的概念,它把机器上面的所有的CPU内存资源进行打包,然后把资源进行等分,等分成很多个slotMapReduce工作流程 MapReduc...原创 2019-07-18 22:11:34 · 352 阅读 · 0 评论 -
Scala语言(一)
编程范式命令式编程语言是完全根植于冯诺依曼体系结构的函数式编程和命令式编程同样具有非常久远的历史为什么沉寂了都念的函数式编程,在近几年突然升温了呢?因为多核CPU的全面普及,使得现在函数式编程迅速崛起。传统的命令式编程没办法充分利用多核CPU的并发特性 传统的命令式编程不能充分利用多核CPU的并发能力。因为在命令式编程中,很多变量都是...原创 2019-07-28 23:44:07 · 465 阅读 · 0 评论 -
Zookeeper
概述Zookeeper是一个分布式协调服务,就是为用户的分布式应用程序提供协调服务①Zookeeper是为别的分布式程序服务的②Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)③虽然说提供各种服务,但是Zookeeper在底层其实只是提供了两个功能:管理(存储、读取)用户提供的数据; 为数据提供监听服务Zookeeper本地模式安...原创 2019-08-01 09:46:56 · 287 阅读 · 0 评论