大数据
文章平均质量分 88
大数据学习记录
YuPangZa
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
14-Kafka-Day03
可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前, 考虑上一次分配的结果,尽量少的调整分配的变动,可以节省大量的开销。粘性分区是 Kafka 从 0.11.x 版本开始引入这种分配策略,首先会尽量均衡的放置分区 到消费者上面,在出现同一消费者组内消费者出现问题的时候,会尽量保持原有分配的分区不变化。原创 2024-06-20 17:33:45 · 1281 阅读 · 0 评论 -
14-Kafka-Day02
Kafka 集群中有一个 broker 的 Controller 会被选举为 Controller Leader,负责管理集群broker 的上下线,所有 topic 的分区副本分配和 Leader 选举等工作。(2)查看 hadoop11(或者 hadoop12、hadoop13)的/opt/installs/kafka3/datas/first-1 (first-0、first-2)路径上的文件。(3)创建副本存储计划(所有副本存储在 broker0、broker1、broker2 中)。原创 2023-12-08 14:44:18 · 465 阅读 · 0 评论 -
14-kafka-Day01
kafka 面试非常的重要,做实时或者准实时项目必用工具(绕不开)。Kafka就是用来存储消息的,消息中间件。Kafka是分布式的发布—订阅消息系统。它最初由LinkedIn(领英)公司发布,使用Scala语言编写,于2010年12月份开源,成为Apache的顶级项目。Kafka是一个高吞吐量的、持久性的、分布式发布订阅消息系统。它主要用于处理活跃live的数据(登录、浏览、点击、分享、喜欢等用户行为产生的数据)。kafka 在大数据技术中,属于实时计算架构中的一员悍将!Scala语言的底层是Java。原创 2023-12-08 14:29:01 · 478 阅读 · 0 评论 -
13-数据采集项目Day04
把timestamp+"\n"+密钥当做签名字符串,使用HmacSHA256算法计算签名,然后进行Base64 encode,最后再把签名参数再进行urlEncode,得到最终的签名(需要使用UTF-8字符集)。可以创建一个钉钉群,所有的大数据开发人员都在群里面,找一个群里的机器人,只要任务失败了,机器人就发送消息到群里,最好这个消息还能点击,跳转到Azkaban的界面。假如遇到了一个jar包,这个jar是一个非常小众的jar包,远程仓库没有,但是这个jar包已经在你手里面了。原创 2023-12-07 09:51:02 · 262 阅读 · 0 评论 -
13-数据采集项目03
因为我们上传到hdfs上的数据是json格式的。当你的分区下有tmp文件的时候,就会查询到null,这个是一个正常的现象。如果指定了时间,就抽取这个时间的前一天,如果没有指定时间,当前时间的前一天。映射到有数据的分区文件夹下,比如,我有20221008有数据。假如你flume抽取数据的时候,抽取不成功,什么错误都不报。使用一个脚本,创建news表,并且添加分区。4、编写一个脚本可以抽取数据到hdfs上。如果之前采集过,直接删除hdfs上的数据。5、将hdfs上的数据映射到hive表中。原创 2023-09-14 18:01:38 · 1578 阅读 · 0 评论 -
13-数据采集项目02
问题答疑:采集到hdfs上的数据,长这个样子因为我们需要将这个数据进行分析的,需要映射到hive表中,密文显然不行。需要明文# 原始日志格式# 解析# 解析结果content: {name: "毕湛英",gender: "女",age: "85",},# 通过flume拦截器解析结果 目标"element_page": "新闻列表页","carrier": "中国电信",需要使用拦截器(Flume的)将切割好的文件,上传至hdfs,并且解密。原创 2023-09-13 19:49:08 · 345 阅读 · 0 评论 -
13-数据采集项目1
做好的一个网站,只能在内网访问,不能外网访问,原因是没有公网IP,公网IP是需要购买的。我们穷,但是我们有技术--穷屌丝内网穿透工具-- natapp、花生壳等软件 花生壳是当前最正规的内网穿透工具natapp网站地址:https://natapp.cn/需要有一个网站,可以拿tomcat的官方页面当这个网站。找到tomcat,解压,点击bin/startup.bat 启动。访问网站IP : http://localhost:8080内网穿透工具的使用(可以帮助理解端口映射)原创 2023-09-13 09:06:22 · 328 阅读 · 0 评论 -
12-海豚调度器DolphinScheduler
自定义日期格式$[yyyyMMdd]也可以写成$[yyyy-MM-dd]$[HHmmss] 也可以添加: $[HH:mm:ss]原创 2023-09-11 17:13:03 · 5825 阅读 · 1 评论 -
11-azkaban
遇到了什么问题才会使用Azkaban?比如: 想启动hadoop集群先启动 zk集群,再启动 hdfs ,再启动 yarn,再启动日志系统工作过程中总会遇到 多个脚本执行的时候有顺序。任务可以有一个编排的工具。1. 一个完整的大数据分析系统通常都是由大量任务单元组成:shell脚本程序,mapreduce程序、hive脚本、spark程序等。hadoop jar topN.jar 参数hive -e "sql语句"spark任务 flink任务等。原创 2023-09-08 16:35:34 · 341 阅读 · 0 评论 -
10-datax--基础
读取mysql的数据,将数据展示在控制台上。此时的stream其实就是控制台。原创 2023-09-06 17:41:52 · 929 阅读 · 0 评论 -
09-Sqoop
2、为什么是4个文件呢,原因是sqoop 底层默认开启了4个map任务,所以有四个输出,可以自己修改map任务的数量。1、一定要记得的是 Sqoop的执行脚本,底层使用的MR中的map,所以输出文件的名字都是part-m 开头。现在创建一个表,字段跟数据的文件字段数量和类型都一样,最重要的是数据类型和存储位置一定要要分析的文件一样。假如从hdfs导出到mysql的时候,出现了列的顺序不一致问题,可以通过追加--columns 来解决。在数据库中新增两条数据,再次执行这个任务,就能看到增量导入的效果。原创 2023-09-05 16:13:03 · 363 阅读 · 0 评论 -
08-Flume
flume 其实就是水管 数据起始就是水,将水引入到不同的容器中Sqoop -- 一般用于采集数据库中的数据Flume -- 一般采集我们的日志数据 user.logFlume 其实可以看做一个水管。一头接着水源,一头接着桶,从水源地抽取数据到桶里去。Agent : 是Flume中的基本单位,一个Flume配置文件,可以有多个Agent.每一个Agent中有三个组件组成,缺一不可:1、Source 来源,数据过来的地方。原创 2023-09-04 17:33:22 · 229 阅读 · 0 评论 -
07-mysql-SQL优化
存储引擎:MyISAM 和 InnoDB。原创 2023-09-02 09:15:42 · 308 阅读 · 0 评论 -
07-hive---基础部分4
--指定表内的字段进行分桶。sorted by (id asc|desc) ---指定数据的排序规则,表示咱们预期的数据是以这种规则进行的排序举例:sorted by 指定分桶表中的每一个桶的排序规则--指定getPartition以哪个字段来进行hash,并且排序字段也是指定的字段,排序是以asc排列--相当于distribute by (id) sort by (id)想当于:distribute by (id) -- 指定getPartition以哪个字段来进行hash。原创 2023-09-01 15:47:08 · 1647 阅读 · 0 评论 -
07-hive---基础部分3
内部表:表面来看,我们建的所有的表,默认都是内部表,内部表又叫做管理表,它的位置也很固定/user/hive/warehouse下面。外部表:创建的时候需要加关键字external 修饰,而且,外部表它的数据的存储位置可以不在/user/hive/warehouse,可以指定位置。id int,这个location 是本地的意思还是hdfs的路径呢?答案是必须在hdfs上。原创 2023-09-01 15:33:11 · 266 阅读 · 0 评论 -
07-hive---基础部分2
再思考一个问题:既然hive中的数据是在hdfs上的,我们也可以手动的上传数据,能上传至/home,为何不能上传至:/user/hive/warehouse/yhdb.db/t_user。修改集群的三个core-site.xml,记得修改一个,同步一下,并且重启hdfs。查看hdfs上的user.txt 发现不见了,去哪里了,被移动走了!metastore服务意义:为别人连接mysql元数据提供服务的。hive中的数据,不要load 也可以被正常使用。查看数据,发现有两份,想覆盖怎么办?原创 2023-09-01 15:07:42 · 646 阅读 · 1 评论 -
07-hive---基础部分1
Hive 是一个框架,可以通过编写sql的方式,自动的编译为MR任务的一个工具。在这个世界上,会写SQL的人远远大于会写java代码的人,所以假如可以将MR通过sql实现,这个将是一个巨大的时长,FaceBook就这么干。(脸书)FaceBook --> Meta (元宇宙) --> 社交网站(校内网)在大数据中,发展趋势:所有的技术全部都变为SQL1、Hive是一个数据仓库工具2、可以将数据加载到表中,编写sql进行分析。原创 2023-09-01 14:47:14 · 135 阅读 · 1 评论 -
06-zookeeper---2
第一步:检查mapred-site.xml ,里面只有yarn配置和historyServer的配置,不需要修改。HA: High Availability,高可用集群,指的是集群7*24小时不间断服务。第九步:同步 core-site.xml 和 hdfs-site.xml 到剩余两台上去。第三步:将mapred-site.xml 和 yarn-site.xml进行同步。第四步:检查是否安装了hadoop集群,如果以前安装过了,清空数据。以前配置的yarn以及日志服务的配置不动,添加ha的相关配置。原创 2023-09-01 14:38:04 · 99 阅读 · 1 评论 -
06-zookeeper---1
1、理论Apache YARN(Yet another Resource Negotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于一个分布式的操作系统平台,而MapReduce等计算程序则相当于运行于操作系统之上的应用程序。YARN被引入Hadoop2,最初是为了改善MapReduce的实现,但是因为具有足够的通用性,同样可以支持其他的分布式计算模式,比如Spark,Tez等计算框架。大数据技术大致分为四代:1、MapReduce (淘汰)原创 2023-09-01 14:24:46 · 210 阅读 · 1 评论 -
05-hadoop03之MapReduce
需求:假定拿到了一些关于手机流量的日志文件,统计每个手机号码的上行流量,下行流量,以及总流量。1363157995033 15920133257 5C-0E-8B-C7-BA-20:CMCC 120.197.40.4 sug.so.360.cn 信息安全 20 20 3156 2936 200第二列是手机号码 15920133257倒数第三列是上行流量 3156倒数第二列是下行流量 2936map任务:......reduce 任务:15989002119 对相同的手机号码进行合并。原创 2023-09-01 12:03:10 · 188 阅读 · 1 评论 -
05-hadoop02之HDFS
目前遇到的问题是什么?1、你是否有这样的困惑?整个集群,每一个服务器上都需要输入 jps 查看服务。能否实现,在bigdata01上输入一个命令,直接出三台服务器上的所有正在运行的jps。它来了:所有的自定义的脚本文件,存放在/usr/local/bin 下面创建 vi jps-cluster.sh编辑保存退出。原创 2023-09-01 11:39:24 · 275 阅读 · 1 评论 -
07-Hive优化---高级部分3
不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个job的执行时间缩短。其实数据倾斜这个问题,在MapReduce编程模型中十分常见,根本原因就是大量相同的key被分配到一个reduce里(例如:要将a-q的有10条数据,q-z有100万条数据,这就造成第一个reduce几乎瞬间就能完成,而第二个reduce需要很长时间才能完成),造成一个reduce任务处理不过来,但是其他的reduce任务没有数据可以处理。原创 2023-09-01 08:58:51 · 388 阅读 · 1 评论 -
05-Hadoop01之HDFS
相当于在整个集群中,进行了初始化,初始化其实就是创建文件夹。目前有两台,克隆第一台(因为第一台上安装了hadoop), 克隆结束后,进行修复操作。位置: /opt/installs/hadoop/etc/hadoop。路径:/opt/installs/hadoop/etc/hadoop。跟put上传不一样的是,move结束后,本地文件会消失。HDFS三种模式:本地模式,伪分布模式,全分布模式。shell命令操作:东西特别的多,只学其中一些。上传文件,创建文件夹,删除文件,下载等等。原创 2023-08-31 11:08:37 · 277 阅读 · 1 评论 -
04-Linux04-shell(高级部分)
编写一个脚本,提示请输入用户名 ,请输入密码,假如用户名是root 密码是123456。所谓的脚本就是将我们经常使用的linux命令汇总在一个文件中而已。查找子字符串,是分开查找的,不能看做是查找子字符串。提示登录成功,否则显示登录失败。unset 不能删除 只读变量。提出问题,远远比答案本身重要。类似于Java的Scanner。关系运算符的一些转换字符。原创 2023-08-31 09:54:35 · 166 阅读 · 1 评论 -
07-Hive--高级部分2
来一个需求:求每个部门的员工信息以及部门的平均工资。在mysql中如何实现呢。看见这种既要明细信息,也要聚合信息的题目,直接开窗!查询明细和统计,本来是两个矛盾的操作,在添加了窗口函数后,两个操作就可以同步进行,窗口函数中不加入参数时没统计的是整个数据集,在添加参数后,统计的是根据你的参数指定的一个或多个分类字段进行的统计。上案例:数据order.txt指标一:需求:查询每个订单的信息,以及订单的总数指标二:查询在2018年1月份购买过的顾客购买明细及总人数。原创 2023-08-30 11:44:24 · 247 阅读 · 0 评论 -
03-Linux03
只要是一个开发语言,都有定时任务。今天要学习的是Linux的定时任务,其他技术,比如Java也有定时任务。原创 2023-08-30 14:34:20 · 92 阅读 · 0 评论 -
07-hive--高级部分1
hive学习的记录原创 2023-08-29 10:49:20 · 390 阅读 · 1 评论 -
03-Linux01
远程连接工具非常多:XShell、FinalShell、SSH、Moba双击连接,第一次会出现提示点击:接收并保存,以后就不提示了。如果连接不上,如下进行:1、输入 ip addr 看是否有IP地址,如果没有,重置一下。2、关闭linux的防火墙3、直接重置网卡1) 先将所有的linux关闭2)3)4)这样就可以了。原创 2023-08-29 12:20:21 · 172 阅读 · 0 评论 -
03-Linux02
剩余的操作可以使用文本编辑工具来完成。点是即可类似这样的软件也有很多,比如EditPlus 等。原创 2023-08-29 12:41:06 · 370 阅读 · 0 评论 -
Hive执行查询语句如何设置中文别名
出现这个错误,意思是Hive解析器无法识别。原创 2023-08-29 17:35:24 · 1483 阅读 · 1 评论
分享