
大数据技术
文章平均质量分 73
记录大数据学习路线,Linux,HDFS,MapReduce,Hive
AIMaynor
个人博客:maynor1024.live,ai网站: vlink.cc/maynorai
展开
-
大数据成长之路-- hadoop集群的部署(4)退役旧数据节点
文章目录退役旧数据节点第一步:创建dfs.hosts.exclude配置文件退役旧数据节点目标:掌握HDFS在集群中删除掉无效节点的步骤第一步:创建dfs.hosts.exclude配置文件在namenod的cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下创建dfs.hosts.exclude文件,并添加需要退役的主机名称node01执行以下命令cd /export/servers/hadoop-2.6.0-cdh5.14.0/et原创 2020-10-14 18:00:59 · 2877 阅读 · 0 评论 -
大数据成长之路------hadoop集群的部署(2)Hadoop集群安装部署
文章目录Hadoop集群安装部署Hadoop集群初体验hadoop集群的部署Hadoop集群安装部署1、服务器主机名和IP配置(三台)2、修改每个主机的/etc/hosts文件,添加IP和主机名的对应关系(三台)3、管理节点到从节点配置无密码登录4、配置jdk 1.8(三台)5、关闭防火墙(三台)6、关闭selinux(三台)vi /etc/selinux/configSELINUX=enforcing SELINUX=disabled 重启系统安装流程原创 2020-10-06 21:05:24 · 4018 阅读 · 1 评论 -
❤️hadoop必知必会的基本知识❤️
???? HDFS???? HDFS的组成架构:这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。1)Client:就是客户端。 (1)文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行存储; (2)与NameNode交互,获取文件的位置信息; (3)与DataNode交互,读取或者写入数据; (4)Client提供一些命令来管理H原创 2021-09-08 09:32:40 · 1259 阅读 · 3 评论 -
Apache Impala(demo)
一、Apache Impala1.Impala基本介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,impala是参照谷歌的新三篇论文(Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具)当中的Dremel实现而来,其中旧三篇论文分别是(BigTable,GFS,MapReduce)分别对应我们即将学的原创 2020-12-07 15:11:59 · 374 阅读 · 0 评论 -
问我大数据怎么入门,我总结了亲身体验的学习路线推荐给她【推荐收藏】
前两天有学妹私信我说,她已经上完大一,大数据专业的,只学过大数据导论,问我大数据该如何入门?我不禁感慨普通高校擅长培养算法人才,但在工程人才的培养上存在很多的问题。原创 2021-07-21 19:28:04 · 5218 阅读 · 48 评论 -
2021年最新Flink读写Kafka数据——Flink数据写入Kafka+从Kafka存入Mysql(二)
前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。这次是上篇文章的续集,最新的Flink版本大大简化了之前复杂的写法~之前的文章首先准备模拟数据://1、准备配置文件 Properties props = new Properties(); props.put("bootstrap.servers", "node1.itcast.cn:9092"); .原创 2021-07-13 22:23:59 · 1070 阅读 · 4 评论 -
大数据错题库(微信群Bug整理)
文章目录请教下大家,我们老的数仓用的Oracle,基于数仓做了些应用,主要是各种角度的查询,用的储存过程来实现。现在数仓转到Hadoop上,应用可以连接hadoop来取数,整体改造就大了,储存过程里的逻辑太多,另外就是将处理完的数据再写回Oracle也来解决。想问下大家一般是采用那种方式来实现应用的改造比较合适,求教~~~各位大佬,有用过hive处理递归么?请问一个表,不分区,只分一个桶 的缺点是什么呢?群里面有面试过外包的吗大数据请教一下,hive,我用insert into对一个分区写入数据,其中,一个原创 2021-07-13 13:10:00 · 1644 阅读 · 3 评论 -
❤️大数据开发必备:推荐7款大数据开发神器工作效率提升1000%【推荐收藏】
前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。第一款原创 2021-07-10 10:06:40 · 7054 阅读 · 53 评论 -
Note_Spark_Day01:Spark 基础环境
stypora-copy-images-to: imgtypora-root-url: ./Spark Day01:Spark 基础环境预习视频: https://www.bilibili.com/video/BV1uT4y1F7ap Spark:基于Scala语言Flink:基于Java语言01-[了解]-Spark 课程安排总的来说分为Spark 基础环境、Spark 离线分析和Spark实时分析三个大的方面,如下图所示:目前在企业中使用最多Spark框架中模块:Spa.原创 2021-07-04 21:48:54 · 669 阅读 · 2 评论 -
初窥Apache DolphinScheduler
Apache DolphinScheduler是什么?Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。有什么特性概括:高可靠性简单易用丰富的使用场景高拓展性快速入门快速上手管理员用户登录地址:http://192.168.xx.xx:12345/dolphinscheduler 用户名密码:admin/dolphinscheduler123创原创 2021-06-26 19:49:24 · 719 阅读 · 2 评论 -
推荐一个爬虫课程|寻找C 站宝藏专栏
夏日来临,优快云 的新活动也来临,寻找 C 站宝藏专栏,这事我熟,如果非要我从 C 站上万个专栏中,选出一个,我会毫不犹豫的推荐它,而且这个专栏的作者来自梦想橡皮擦,擦姐。全站Python爬虫第一人,是她点燃我对爬虫的兴趣要我说,先买了,屯起来,万一“涨价”了呢。整体推荐语百篇文章,助你进入Python爬虫世界,目前最全的爬虫原创博客大全。 本系列的文章从简单的图片爬虫开始,尽全力把Python爬虫实现的方方面面都覆盖完整,关于Python基础的部分,你可以从搜索引擎的其原创 2021-06-04 20:32:36 · 515 阅读 · 2 评论 -
一文快速了解Elastic Search 开源搜索引擎(技术选型+启动命令)
为什么选择 Elastic SearchElasticSearch简介Elasticsearch是一个基于Apache原创 2021-06-03 13:21:34 · 3085 阅读 · 9 评论 -
一道Spark练习题
Spark 支持的分布式部署方式中哪个是错误的?涉及的知识点(1)Local:运行在一台机器上,通常是练手或者测试环境。(2)Standalone:构建一个基于 Master+Slaves 的资源调度集群,Spark 任务提交给 Master 运行。是 Spark 自身的一个调度系统。(3)Yarn: Spark 客户端直接连接 Yarn, 不需要额外构建 Spark 集群。有 yarn-client 和yarn-cluster 两种模式,主要区别在于:Driver 程序的运行节点。(4)Me原创 2021-06-02 08:38:20 · 407 阅读 · 1 评论 -
大数据物流项目:主题及报表开发(十二)
主要讲解:离线报表数据分析(2个主题:运单主题(讲解)和仓库主题(作业))。原创 2021-06-01 20:20:45 · 406 阅读 · 2 评论 -
Spark综合练习——电影评分数据分析
以上便是电影评分数据分析spark版,愿你读过之后有自己的收获,如果有收获不妨一键三连一下~原创 2021-05-31 23:28:58 · 10173 阅读 · 22 评论 -
最新大数据集群安装方法CentOS7.6__大数据环境安装和配置
大数据环境安装和配置(Hadoop2.7.7,Hive2.3.4,Zookeeper3.4.10,Kafka2.1.0,Flume1.8.0,Hbase2.1.1,Spark2.4.0等)前言本篇文章是以Hadoop为基础,搭建各种可能会用到的环境的基本步骤,包括:Hadoop,Hive,Zookeeper,Kafka,Flume,Hbase,Spark等。在实际应用中可能未必需要用到所有的这些,请读者们按需取舍。注意:因为有些环境之间存在相互依赖,所以在搭建环境或者使用其的过程中要注意顺序。比如说H原创 2021-05-31 19:41:24 · 669 阅读 · 0 评论 -
大数据物流项目:主题及指标开发之如何对Kudu表数据分析【离线报表分析(1个主题)】(十)
Logistics_Day10:主题及指标开发 主要讲解:实时ETL转换开发,编写结构化流(StructuredStreaming)程序,实时从Kafka消费数据,进行ETL转换处理,最终保存到Ku.原创 2021-05-28 16:31:28 · 1294 阅读 · 1 评论 -
Kudu案例库V1.0版
项目案例库案例一:Java 操作 Kudu之创建KuduClient实例pom.xml<!-- 指定仓库位置,依次为aliyun、cloudera和jboss仓库 --><repositories> <repository> <id>aliyun</id> <url>http://maven.aliyun.com/nexus/content/groups/public/</url&g原创 2021-05-25 19:55:00 · 1316 阅读 · 0 评论 -
Spark案例库V1.0版
Spark案例库案例一:使用SparkRDD实现词频统计pom.xml文件<repositories> <repository> <id>aliyun</id> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> </repository> <repository>原创 2021-05-24 22:31:32 · 1673 阅读 · 0 评论 -
手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
文章目录引言1.第一章 综合实战概述业务需求环境搭建大数据环境2.第二章 广告数据 ETL实现代码:3.第三章 业务报表分析3.1报表运行主类3.2各地域数量分布3.3广告投放的地域分布实现代码:4.第四章 应用执行调度项目结构pom.xml总结引言大家好,我是ChinaManor,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,一个平凡而不平庸的人。1.第一章 综合实战概述数据管理平台(Data ManagementPlatform,简称DMP),能够原创 2021-05-23 18:47:05 · 5172 阅读 · 18 评论 -
大数据课后作业:从零搭建canal实时采集数据
作业:从零搭建canal实时采集数据1、Linu操作系统安装5.6、5.7、8.x也行安装MSQL数据库2、采用 Docker容器部署安装Cana1,并且配置5 Docker容器部署 Canal3、搭建 Kafka单机版JDK、 Zookeeper和 Kafka4、联动测试向MSQL表中写入数据,Cana实时采集到, Kafka分布式消息队列...原创 2021-05-20 22:04:55 · 1707 阅读 · 2 评论 -
Note_Logistics_Day04
stypora-copy-images-to: imgtypora-root-url: ./Logistics_Day04:业务服务器和大数据服务器01-[复习]-上次课程内容回顾主要讲解2个方面内容:物流项目业务数据(数据库部署)和OGG 实时采集Oracle数据库表的数据。1、物流项目业务数据 实际物流快递公司来说,有很多业务系统,使用不同类型数据库存储数据,在此仅仅以2个业务系统为例 - 物流系统Logistics 使用Oracle数据库 - CRM系统客户关系管理系统 .原创 2021-05-20 17:49:51 · 1492 阅读 · 0 评论 -
Note_Logistics_Day03
stypora-copy-images-to: imgtypora-root-url: ./Logistics_Day03:业务服务器和大数据服务器01-[复习]-上次课程内容回顾主要讲解Docker 基本使用:Docker是什么、Docker 基本命令(镜像image命令和容器container命令)。Docker容器引擎:虚拟化技术,将应用运行在容器Container中,方便进行部署、测试、迁移等开发操作。1)、Docker 容器引擎,典型C/S架构,客户端Client和服务端Serv.原创 2021-05-20 08:14:05 · 1533 阅读 · 0 评论 -
“最麻烦”的数据预处理,到底都做了哪些事--摘自极客时间每日一课
原创 2021-05-19 22:48:33 · 1490 阅读 · 0 评论 -
StructredStreaming+Kafka+Mysql(Spark实时计算| 天猫双十一实时报表分析)
文章目录前言1、业务需求概述二 项目代码1.模拟交易数据2.创建Maven模块项目结构如下:3.核心代码总结前言每年天猫双十一购物节,都会有一块巨大的实时作战大屏,展现当前的销售情况。这种炫酷的页面背后,其实有着非常强大的技术支撑,而这种场景其实就是实时报表分析。1、业务需求概述 模拟交易订单数据,发送至分布式消息队列Kafka,实时消费交易订单数据进行分析处理,业务流程图如下所示:实时从Kafka消费交易订单数据,按照不同维度实时统计【销售订单额】,最终报表Report结果存原创 2021-05-17 13:05:09 · 3392 阅读 · 2 评论 -
【大数据组件】一篇文章让你快速入门Docker
Docker 是什么?Docker 架构Docker的应用场景Docker 的优点Docker 安装 CentOSHello,大家好,我是ChinaManor,今天周末刚好有时间,所以想为大家写一篇Docker的快速入门文章。Docker 是什么?Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从 Apache2.0 协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实原创 2021-05-16 15:19:42 · 2935 阅读 · 0 评论 -
大数据生态思维导图____2021最新最全Scala语法思维导图!(待更新)
一.Scala 基础语法及Scala 面向对象结语好了,本篇主要为大家带来的就是菜鸡博主为大家贡献的Scala的思维导图,看完了是不是有种想要关注博主的冲动呢( ̄▽ ̄)*受益的朋友或对大数据技术感兴趣的伙伴记得点赞关注支持一波(^U^)ノYO需要思维导图的小伙伴可以关注公众号[大数据智能ai],加我获取(^U^)ノ~YO...原创 2021-04-24 19:13:01 · 5198 阅读 · 0 评论 -
大数据生态思维导图____2021最新最全Spark生态圈思维导图!
配合视频服用效果更佳 视频地址一.Spark 基础环境及Spark Core原创 2021-04-24 18:22:43 · 5686 阅读 · 4 评论 -
意向客户看板(二)
看板2需求分析需求1:1.1 总意向量说明:计期内,新增意向客户(包含自己录入的意向客户)总数。展现:线状图条件:年、月、线上线下维度:年、月、线上线下指标:总意向客户量粒度:天,可以下钻到小时数据。数据来源:客户管理系统的customer_relationship意向表指标:意向数量维度:新老意向用户维度时间维度年、月、日、小时线上线下涉及到的信息表:customer_relationshop (客户意向)create_date_time:时间相关cu原创 2021-04-22 22:11:04 · 6334 阅读 · 0 评论 -
访问和咨询主题看板(一)
访问和咨询主题看板需求分析需求一:统计指定时间段内,访问客户的总数量。能够下钻到小时数据。指标:访问量维度:时间维度(小时、天、月、季度、年)需求二:地区独立访客热力图统计指定时间段内,访问客户中各区域人数热力图。能够下钻到小时数据。指标:访问量维度:- 时间维度(小时、天、月、季度、年)- 区域维度(省市区)需求三:访客咨询率趋势说明:统计指定时间段内,不同地区(省、市)访问的客户中发起咨询的人数占比;咨询率=发起咨询的人数/访问客户量;指标:访问量、咨询量维度:- 时间原创 2021-04-22 22:00:34 · 5221 阅读 · 0 评论 -
4.BI 探索数据的数据可视化工具
BI简介BI:Business Intelligence :商业智能BI就是一种分析、探索数据的数据可视化工具功能:对数据进行深入分析和探索在过程中将结果进行可视化展示BI工具,用的最多是是数据分析师的岗位的人。对于开发人员来说,数据分析探索的过程,我们通过数仓建模、代码分析等已经完成了,我们一般只使用可视化这个功能。市面上常见的BI软件PowerBI - 微软出品(收费)行业标杆,贵Tableau - 收费BI工具行业标杆,贵SuperSet - (开源、免费B原创 2021-04-22 21:25:41 · 6102 阅读 · 1 评论 -
3.git常用命令
一、新建代码库 # 在当前目录新建一个Git代码库git init# 新建一个目录,将其初始化为Git代码库git init [project-name]# 下载一个项目和它的整个代码历史git clone [url]二、配置Git的设置文件为.gitconfig,它可以在用户主目录下(全局配置),也可以在项目目录下(项目配置)。# 显示当前的Git配置git config --list# 编辑Git配置文件git config -e [--global]# 设置提交代码转载 2021-04-22 21:25:10 · 5744 阅读 · 0 评论 -
2.git
Git今日内容:git 的历史git 和 svn区别git的执行流程git的安装(Windows)git的操作git的私有服务器的安装(linux)git的分支操作git在idea中使用1. Git历史 同生活中的许多伟大事件一样,Git 诞生于一个极富纷争大举创新的年代。Linux 内核开源项目有着为数众广的参与者。绝大多数的 Linux 内核维护工作都花在了提交补丁和保存归档的繁琐事务上(1991-2002年间)。到 2002 年,整个项目组开始启用分布式版本控制系统 Bit原创 2021-04-22 21:24:37 · 5803 阅读 · 0 评论 -
数仓理论|精华整理
数据仓库理论学习目标理解OLTP和OLAP的区别理解数据仓库的特点理解数据仓库系统架构理解指标与维度理解下钻与上卷理解事实表与维度表理解星型模型和雪花模型理解缓慢渐变维掌握数据仓库的分层方法数据仓库介绍数据分析的问题做分析的时候,很多业务数据都会分散的存储到很多业务后台中。数据孤岛数据量巨大,需要一种能够存储海量数据,同时也能分析海量数据的工具工具还需要能够支持常用的SQL解决问题做数据的集中存储分布式存储+分布式计算原创 2021-04-22 21:23:39 · 5679 阅读 · 0 评论 -
0.项目简介
前置需求的技术HadoopHiveHueSqoopOozie项目简介项目叫做:知行教育大数据分析平台(数仓开发项目)目的:对海量的业务数据进行指标分析。结果:对分析的结果做可视化的展示项目的痛点数据量比较大,传统的业务数据库比如MySQL难以支撑,我们需要:分布式的、支持SQL的一种数据库(Hive)数据分散,需要将数据集中存储数据设计是针对业务设计的,分析比较困难,我们需要将它转换为分析比较好用的格式项目的数据流转在线教育的业务名词解释意向用户:对公司的业务抱原创 2021-04-22 21:18:17 · 5392 阅读 · 0 评论 -
四招搞定心仪的offer
1、背好自我介绍所有面试的第一个问题,一定是“请你先做个自我介绍吧”,无一例外!这是面试官想要通过自我介绍,来考察你的语言表达能力、临场发挥能力以及心里素质。删除线格式有些同学看到面试官就紧张,讲话磕磕绊绊;还有一些同学说话说半天,完全说不到重点,这些都会扣分的。我之前就遇到了一个求职者,个人介绍几句话就说完了,搞得气氛非常的尴尬。最后整个面试过程不到10分钟就结束了。结果不用说,肯定是没让他通过的。划重点:一个好的自我介绍,至少应包含以下几点: (1)语速不快不慢,语言逻辑清晰。从个人自身情况,.原创 2021-04-14 12:01:46 · 6885 阅读 · 1 评论 -
Scala面向对象练习题34道
1、创建一个名字为Test01的Object,在Test01中定义一个student1类声明三个成员变量,String类型的name,Int 类型的age,String类型的address2、创建一个名字为Test02的Object,在Test02中定义一个student2类声明三个成员变量,String类型的name,Int 类型的age,String类型的address定义成员方法hello(s:String),方法中打印出s3、创建一个名字为Test03的Object,在Test03中原创 2021-04-12 17:47:13 · 10185 阅读 · 1 评论 -
Scala练习题104道
set集合(1-10)1、定义一个不可变set集合a,保存以下元素:10,20,30,10,50,402、获取a集合的大小3、遍历a集合4、a集合删除元素505、a集合拼接set集合Set(60,80,90)6、a集合拼接列表List(100,300,200)7、定义一个可变set集合b,初始元素为:5,6,7,88、b集合中使用+=添加元素99、b集合中删除元素510、b集合使用add添加元素10Map映射(11-20)11、构建一个映射map1,内容为"zhangsan" -&g原创 2021-04-08 21:35:10 · 11966 阅读 · 0 评论 -
手写WordCount示例编写
手写WordCount示例编写需求:在给定的文本文件中统计输出每一个单词出现的总次数数据格式准备如下:cd /export/serversvim wordcount.txthello,world,hadoophive,sqoop,flume,hellokitty,tom,jerry,worldhadoophdfs dfs -mkdir /wordcount/hdfs dfs -put wordcount.txt /wordcount/定义一个mapper类import org原创 2020-10-26 21:30:07 · 3063 阅读 · 0 评论 -
Docker已死?听听他怎么说(开课吧)
文章目录为什么需要虚拟化技术眼看它起高楼,眼看它楼塌了Docker底层技术2020年底,Kubernetes 在当时最新的 Changelog 中宣布,自 V1.20 后将弃用 Docker,一石激起千层浪。Docker镜像不能用了?Podman难道要取Docker而代之?此后唱衰Docker的消息不绝于耳。3月9日,开课吧《Hello ,World公开课》邀请《Istio实战指南》作者,ServiceMesher.com管理委员会核心成员马若飞老师,让他来谈谈,Docker现如今是什么情况?为什么需原创 2021-03-13 17:16:21 · 823 阅读 · 2 评论