
大数据原理
文章平均质量分 76
本专栏主要介绍大数据各个组件 原理
大数据同盟会
大数据同盟会致力传播大数据技术,帮助更多需要帮助的人,如果您也感兴趣,请扫描下方二维码 ,加入我们吧
展开
-
Kudu之SQL操作(KUDU&Impala基本操作)
通过impala对kudu进行sql操作原创 2022-07-07 08:55:44 · 2111 阅读 · 0 评论 -
大数据之Impala安装使用
Kylin和Impala区别:既然在线分析已经使用了kylin,为啥还用impala呢?因为kylin不够灵活,只能分析简单的星型/雪花模型,impala可以通过窗口函数,进行复杂的行为数据分析;反之,当数据量大的时候,impala比较慢,所以只用kylin进行预计算。一、...原创 2021-12-04 21:51:09 · 7761 阅读 · 0 评论 -
大数据之kylin介绍安装
Kylin:是一个开源的、分布式的分析型数据仓库系统,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的表。原创 2021-11-27 22:37:12 · 1221 阅读 · 0 评论 -
大数据之Hadoop
hadoop:原创 2020-04-26 21:13:47 · 904 阅读 · 0 评论 -
BI工具Superset的搭建与使用
分析平台可分为:1、现成的商业版桌面BI软件,kettel,easyui、powerbi;2、自己使用java或者python开发web平台;3、开源免费版的web平台,比如superset;Superset 快速、轻量、直观,并加载了选项,使所有技能集的用户都可以轻松探索和可视化他们的数据,从简单的折线图到高度详细的地理空间图表,是由python开发的web系统。更多java、大数据学习面试资料,请扫码关注我的公众号:...原创 2021-06-20 21:53:01 · 1304 阅读 · 0 评论 -
大数据之Logstash
Logstash是一款开源的数据收集引擎,具备实时管道处理能力。简单来说,logstash作为数据源与数据存储分析工具之间的桥梁,结合ElasticSearch以及Kibana,能够极大方便数据的处理与分析。通过200多个插件,logstash可以接受几乎各种各样的数据。包括日志、网络请求、关系型数据库、传感器或物联网等.Logstash工作过程如上图,Logstash的数据处理过程主要包括:Inputs,Filters,Outputs 三部分.Inputs:用于读取数据源,相当于flume的so原创 2021-05-30 07:56:52 · 631 阅读 · 0 评论 -
大数据之Spark Streaming
大数据之Spark Streaming原创 2021-05-11 23:01:04 · 410 阅读 · 2 评论 -
大数据之SparkSQL
大数据之sparkSQL原创 2021-05-09 22:21:33 · 734 阅读 · 0 评论 -
大数据之Spark提交任务
一、Spark自定义排序: 比较女孩package cn.itcast.spark.day3import org.apache.spark.{SparkConf, SparkContext} object OrderContext { implicit val girlOrdering = new Ordering[Girl] { override def compare(x: Girl, y: Girl): Int = { if(x.faceValue >原创 2021-05-06 23:21:11 · 550 阅读 · 0 评论 -
大数据之Spark RDD
Spark的算子分为两类:一类叫做Transformation(转换),延迟加载,它会记录元数据信息,当计算任务触发Action,才会真正开始计算;一类叫做Action(动作);一个算子会产生多个RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。一、RDD创建方式方式一:通过HDFS支持的文件系统系统创建,RDD里没有真正要计算的数据,只是记录了一下元数据方式二:通原创 2021-05-04 15:49:37 · 540 阅读 · 0 评论 -
大数据之Spark
Spark是一种快速、通用、可扩展的大数据计算引擎,是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。原创 2021-04-26 22:08:36 · 937 阅读 · 0 评论 -
大数据之Akka
Scaka里,Actor被废弃,由Akka代替。分布式架构底层通信都是通过RPC实现的,Spark的RPC是通过Akka类库实现的,而Akka是用Scala语言开发,基于Actor实现。一、Akka的角色ActorSystem: 当前进程中Actor的老大,负责创建并监控actor; 它是单例的actor: 负责通信二、实现一个简单的RPC框架1、编写一个masterpackage cn.itcast.rpcimport akka.actor.{Actor, ActorRef, Acto原创 2021-04-20 07:20:24 · 351 阅读 · 0 评论 -
大数据之Scala并发编程
大数据之Scala(2)原创 2021-04-10 21:49:48 · 1410 阅读 · 0 评论 -
大数据之Scala
Scala是一种多范式的编程语言,具有面向对象和函数式特点,它运行在jvm平台上。Scala的特点:优雅、开发速度快、能融合到Hadoop生态圈。原创 2021-04-01 21:17:24 · 814 阅读 · 0 评论 -
大数据之HBase
HBase是一个高可靠性、高性能、列式分布式数据库.HBase基于HDFS来存储并处理大型的数据,没有update,但可以追加合并数据;可以有多个主节点 Hmaster, 可以有多个从节点 Hregionserver, 是N+N关系;特点:写快读慢在需要实时读写,随机访问超大规模数据集时,可以使用HBase.hbase集群中的角色1、一个或者多个主节点,Hmaster2、多个从节点,HregionServer一、HBase与行式数据区别:1、行式数据库是一行一行的查数据,进行匹配;列式数据库原创 2021-03-09 22:08:27 · 590 阅读 · 0 评论 -
大数据之Mapreduce(加强)
1、倒序索引实现原创 2021-01-31 19:27:35 · 365 阅读 · 0 评论 -
大数据之YARN
yarn: 运算资源(jar包、内存、cpu、配置文件)调度系统。一、mapreduce提交job运行在yarn流程:yarn的调度机制有:队列(先进先出)、fair、capacity;yarn只负责程序运行所需资源的分配回收等调度任务,与应用程序的内部运行机制无关,所以yarn成为了一个通用的资源调度平台。比如mr/spark/storm,都可以借助它来实现。注: hadoop1没有yarn的概念,但是有一个jobTracker和TaskTracher两种角色。...原创 2021-01-22 22:54:20 · 1289 阅读 · 0 评论 -
shell脚本定时采集日志数据
#!/bin/bash #set java env export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH #set hadoop env export HADOOP_HOME=/home/hadoop/app/h原创 2020-10-09 23:08:53 · 1117 阅读 · 0 评论 -
大数据之Kafka消息队列
Kafka是一个分布式消息队列:生产者和消费者功能,由小语言scala写成。原创 2020-09-08 07:18:50 · 2119 阅读 · 0 评论 -
storm 通信机制
storm 提交任务流程原创 2020-08-23 22:37:56 · 578 阅读 · 0 评论 -
大数据之storm
大数据之storm原创 2020-08-23 15:03:30 · 1202 阅读 · 0 评论 -
大数据之azkaban任务调度器
一、azkaban介绍azkaban是一个工作流调度器。一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等,为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。二、安装azkaban三、azkaban示例...原创 2020-08-22 23:55:21 · 1230 阅读 · 0 评论 -
大数据之flume数据采集
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。它可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一、flume结构Flume分布式系统中最核心的角色是agent,每一个agent相当于一个数据传递员,内部有三个组件:Source::采集源,用于跟数据源对接,以获取数据Sink::下沉地,采集数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据Channel原创 2020-08-22 22:51:46 · 12241 阅读 · 0 评论 -
hadoop-ha集群搭建
HDFS使用QJM实现HA集群原创 2020-08-20 07:25:20 · 1006 阅读 · 0 评论 -
selenium获取页面数据入数据库
Selenium是一个用于Web应用程序测试的工具,但是也可以爬取页面中的数据。开发环境是内网(局域网),项目工程是web项目,jdk使用的1.8,tomcat使用的 8。web项目: 启动时使用tomcat, tomcat会先加载web.xml配置文件里内容;maven项目: 和web项目的区别是,需要的jar包,交给maven维护,不用自己导入jar包;java项目: 启动时,使用main方法,没有web.xml配置文件;一、创建项目web.xml:web项目的配置文件,随着tomcat启原创 2020-08-17 16:08:53 · 1508 阅读 · 1 评论 -
大数据之Mapreduce
大数据之mapreduce原创 2020-08-11 06:48:37 · 660 阅读 · 0 评论 -
大数据之HDFS
HDFS原创 2020-05-27 21:32:11 · 855 阅读 · 0 评论 -
自动化部署脚本
自动进行配置免密登录、安装jdk原创 2020-03-30 22:37:16 · 328 阅读 · 0 评论 -
shell编程语法
shell编程语法原创 2020-03-27 08:52:55 · 305 阅读 · 0 评论 -
如何克隆虚拟机
因为搞大数据,需要多台虚拟机联合使用,一遍一遍安装linux系统比较费时费力,所以可以安装好一个linux系统后,进行克隆使用。将打算复制的虚拟机右键选择复制勾选重新初始化mac地址选择完全复制 就可以得到新的虚拟机。网卡设置:克隆后的虚拟机,没有eth0,但是有eth1。执行 vim /etc/udev/rules.d/70-persistent-net.rules将eth0...原创 2020-03-25 20:54:53 · 1158 阅读 · 0 评论 -
Linux常用命令
显示当前目录:pwd当前用户:whoami原创 2020-03-24 11:25:03 · 299 阅读 · 0 评论 -
HBase批量写入数据
HBase批量写入数据原创 2019-04-02 09:38:43 · 12682 阅读 · 5 评论 -
CDH大数据平台搭建
Hadoop介绍Hadoop是apache旗下的一套开源软件平台, 负责对海量数据进行分布式处理。原创 2018-09-25 14:43:46 · 13947 阅读 · 3 评论 -
大数据之Redis
Redis使用:原创 2018-05-06 19:17:44 · 1723 阅读 · 0 评论