- 博客(49)
- 收藏
- 关注
原创 【sparkstreaming整理】
spark提供的实时计算的模块对Dstream进行操作实际上是对rdd进行操作,对rdd进行操作就是对rdd里面分区的元素进行操作。
2023-01-29 17:11:04
502
原创 【SparkStreaming_整合kafka】
2.kafka 0.10.0版本之后 direct stream的方式加载kafka数据 【效率高、代码开发简单】spark 3.x => kafka : 1.kafka版本: 0.10.0 or higher ok。1.获取kafka offset =》 处理kafka数据 =》 “提交offset的操作” 没有。一个数据 来自于 kafka sss 读取形成 DStream数据 【量大】 主业务 =》 主表。“消费完kafka的数据 程序重启之后接着从上次消费的位置接着消费 ”
2023-01-17 17:31:11
799
原创 【Sparkstreaming_01】
sss开发 与sparkcore 算子开发 差不多2.spark Streaming 数据源:Kafka, Kinesis, or TCP sockets =》 input3.处理: 算子的方式进行处理 =》 todo 建议不要使用flume 缓冲能力很弱 之后数据计算 直接把数据干到 spark里面 会导致 spark计算程序挂掉指的就是 ReceiverInputDStream(接收器)
2023-01-16 18:03:07
678
原创 【Sparksql_编程模型】
sparksql 主要处理结构化数据 1.1结构化数据:“带有schema信息的数据” 1.1.1:schema:table字段的名称、字段类型半结构化数据:非结构化数据: nosql2.sparksql在spark里面是一个模块,不仅仅是sql,还有dataframe1.sparksql 性能比 spark rdd 高的原因:2.sparksql架构有关:sparksql底层跑的是 Sparkcore rdd 只是spark框架底层给做了优化。
2023-01-14 12:51:49
476
原创 【 RDD持久化】
1.cache() 不是action算子 是lazy 是懒加载的rdda => cache => action job => rdd持久化 生效rdda => action job rdda的数据从 rdd持久化的地方加载数据rddb.cache 之后 rddb之后数据就不用从头开机计算 提升计算效率补充:对rdd做持久化 就是对rdd里面的分区做持久化好处:1.much faster 【计算效率】2. reuse 复用。
2023-01-14 12:46:34
895
原创 【spark作业核心概念】
一个application :包含 1 到n 个job一个job: 包含 1到n个stagerdda => rddb =>rddc action => 一个job一个stage:包含 1个到n个tasktask 和 partition 一一对应1.driver。
2023-01-14 12:38:09
486
原创 【Spark_02】
1.Spark creates one partition for each block of the file hdfs [没有问题的]1=>2=>3=>4 action => job作业的执行。makeRDD =>了解 =》 parallelize。spark-core =》 最终的rdd的分区数。map相关的算子、kv类型的算子、other算子。3.从已经存在rdd转换生成一个新的rdd。1.map 一个作用的rdd里面每一个元素。rdd api => 算子。处理rdd里面每一个元素。
2023-01-11 17:20:38
192
原创 【spark_01】
spark、flink 支持外部数据源 =》 mysql/clickhouse/drois => 数据可视化展示。离线计算、实时计算 =》 rpt层 =》 数据存储的库 查询速度一定要快 =》 数据可视化展示。 sqoop =》 mysql/clickhouse/drois => 数据可视化展示。spark => hdfs => tasks数 =》 parition数。2.业务数据 =》采集 =》 sqoop =》 hdfs/hive。
2023-01-11 08:53:48
229
原创 【Hive_Function_调优】
set hive.exec.reducers.bytes.per.reducer =》 每个reduce 处理的数据量。hive.exec.mode.local.auto.input.files.max =》按照文件加载的个数。hive.exec.mode.local.auto.inputbytes.max =》 按照加载的数据量。hive.exec.mode.local.auto.tasks.max =》按照task。sum(if(gender=‘男’,1,0) ) as male_cnt,
2023-01-03 14:49:54
125
原创 【Scala_笔记】
scala是一门多范式的编程语言,类似java,设计初衷是实现可伸缩的语言,并集成面向对象和函数式编程的各种特性。1.scala里面 默认方法体的最后一行 作为该方法的返回值 不需要写return。6.特质 =》 java 接口 =》对一个类的补充 + 某一类事物的共性。1.val xxx:数据类型=值 ,方法返回值类型 可以进行 类型推断。 1.win:安装scala + idea 安装 scala 插件。 1.spark,flink 的底层大部分都是用scala开发的。
2022-12-27 15:53:18
1161
原创 【kafka_02_笔记】
2.后续的segment名称 是上一个segment文件的最后一条消息的【offset值+1】 来表示。1.【二分查找】
2022-12-27 15:52:36
123
原创 【kafka_01】
zookeeper.connect= bigdata32:2181,bigdata33:2181,bigdata34:2181/kafka => zookeeper地址。log.dirs=/home/hadoop/data/kafka => kafka存储数据的目录。1.kafka后面接一个 实时计算的框架 : spark/flink 正确使用。Leader、Replicas、Isr:kafka 机器broker 对应的编号。2.构建 实时的数据通道 、流式数据分析、流式的app。
2022-12-20 08:55:14
256
原创 【zookeeper】
安装包地址:https://dlcdn.apache.org/zookeeper/zookeeper-3.8.0/apache-zookeeper-3.8.0-bin.tar.gz。解压: tar -zxvf apache-zookeeper-3.8.0-bin.tar.gz -C ~/app/软连接:ln -s apache-zookeeper-3.8.0-bin/ zookeeper。1.官网:https://zookeeper.apache.org/3.zk里面所有的目录 都叫做节点 znode。
2022-12-20 08:53:16
84
原创 【Flume_03_笔记】
channel选择器:channel selectors 负责 指定采集的数据 发送到指定的channel。EventTakeSuccessCount(从channel中成功取走的event数量)EventPutSuccessCount(成功放入channel的event数量)EventAcceptedCount(成功放入channel的event数量)AppendAcceptedCount(放入channel的event数量)
2022-12-15 08:16:06
294
原创 【 Flume_02_笔记】
hdfs.useLocalTimeStamp false =》true 指定数据罗盘:依照的时间是本地机器时间,不是数据本身的时间。a1.sinks.k1.hive.metastore= => 需要hive 启动metastore 服务。读取1111端口数据 数据发送到2222端口 最终2222端口 把数据写入hdfs? body:存数据 (默认 1 ) 目的是:正确的数据落到正确的目录下。 先产生的数据后到,后产生的数据先到。数据清洗:正确的数据重新落盘到正确的分区。
2022-12-15 08:15:20
227
原创 【flume_01】
linux 1个文件 => flume => hdfs 几个文件 =》 hdfs小文件问题?2.streaming data flows flume采集数据 实时采集数据。2.采集过的日志内容 flume挂掉了 重启 会导致 数据重复采集。为什么flume 采集数据 到hdfs?avro 序列化框架 source ****taildir Source 日志文件 ****flume采集数据hdfs 小文件问题如何解决?NetCat TCP port采集数据 **
2022-12-12 19:27:21
183
原创 【xxl_钉钉报警】
1bf5a7066a72227e2cf2e682c7dd5226804e3d9517de81781fb6feaad2d179aa” “ding” “报警测试” “bigdata32” “18612199560”-d ‘{“msgtype”: “text”,“text”: {“content”:“报警我就是我, 是不一样的烟火”}}’./ding_warning.sh “阿珍” “爱上阿强” “今晚再说” “bigdata33” “15642169035”u01,子航,鼠标,ios 1。
2022-12-12 19:25:53
210
原创 【xxl_笔记】
1.初始化"调度数据库" xxl 元数据库 =》在源码中的doc/db/tables 在mysql建一个库,hive的元数据库也 部署在mysql。 目前较好用的两个任务定时调度框架: xxl、dolphinschduler。假如有a,b,c 三个任务 需求:每过10分钟依次执行一次(很难保证准确无误) 文档地址:https://www.xuxueli.com/xxl-job/ 1.它们是多任务之间的依赖关系:DAG (有向无环图) 1.老大:调度中心。 2.小第:执行器。
2022-12-12 19:24:39
118
原创 【 Superset_02】
1.试着做一个dashboard 【按照自己的想法做】1.图表 【各种各样的图表放置在dashboard】数据可视化: 把我们数据 更好理解数据的内容。结果数据库: 相应数据 ms s1-2。8.筛选框【下拉框】ok。
2022-12-08 15:53:19
213
原创 【Superset_01】
Unknown error” ](https://www.cnblogs.com/maowenqiang/articles/7728685.html)1.按照 区域求最受欢迎的商品的 top3。1.按照 区域求最受欢迎的商品的 top3。1.区域 商品 商品点击次数。
2022-12-08 15:48:16
239
原创 【Sqoop_笔记】
官网:sqoop.apache.org应用场景:主要用来把hadoop生态圈和关系型数据库进行数据同步1.部署:[hadoop@bigdata13 software]$ rz 上传 【遇到上传失败乱码问题】用命令 rz - bey 解决[hadoop@bigdata32 software]$ tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ~/app/[hadoop@bigdata32 app]$ ln -s sqoop-1.4.7.bin__hado
2022-12-05 18:00:25
162
原创 【Hive_04】
[hadoop@bigdata32 exemple]$ cat user_shop.txtuser_id shopu1,au2,bu1,bu1,au3,cu4,bu1,au2,cu5,bu4,bu6,cu2,cu1,bu2,au2,au3,au5,au5,au5,apv =》 页面浏览量 3个用户 每个人 访问了 10次页面 30uv =》 访客次数 3个用户 每个人 访问了 10次页面 3create table user_shop(user_i
2022-12-05 17:58:56
204
原创 【Hive_03】
1.hive 表 注释中文显示问题?2.beeline 日志级别设置?1.开启服务常用操作1.shell命令 去开启 某个服务1.在当前会话直接使用脚本 =》 仅仅是测试时候使用弊端:关闭session 那么服务就停止了1.table1.内部表 vs 外部表内部表(MANAGED_TABLE) [受hive管控的表]:外部表:EXTERNAL区别:内部表: data + metadata =》 drop 表中数据和元数据都被删除外部表:metadata =》drop 只有元数据
2022-12-05 17:58:01
448
原创 【Hive_02】
DDL:Data Definition Language需求:1.各个部门每年入职的人数selectdeptno,year(hiredate),count(*)from empgroup by deptno year(hiredate); 2.整个公司每年每月的入职人数year,month函数:select year(hiredate),month(hiredate),count(*)from empgroup by year(hiredate),month(hiredate);date_format函
2022-12-05 17:57:10
563
原创 【Hive_01】
SQL on hadoop hive sparksql presto impalahadoop :hdfs :命令行、apimapreduce :编程(工作中 几乎不用 但是 核心类 和 思想 必须掌握)yarn : 提交作业 xxx(mr/spark/flink) on yarnyarn的执行流程一定要会的mapreduce弊端:1.开发大量代码【编程基础】2.业务变更 code 修改起来非常非常麻烦3.对于传统 DBA RDBMS 小伙伴来说 是不友好的大数据处理来
2022-12-05 17:56:06
488
原创 【yarn】
回顾:HDFS: namenode datanode snn2.file block: 1.size 128m 2.副本数3.hdfs命令: 1.hadoop fs 2.hdfs dfs4.hdfs api : Filesystem5.安全模式: 1.读文件 2.写数据不可以 3.命令:6.读写流程7.副本放置策略 rackMapreduce: map reduce 1.input 2.处理
2022-12-05 17:54:41
181
原创 【mysql】
> 对整张表的age字段进行修改。select * from user_info where name=‘子航01’;delete 删除也要加过滤条件,如果不加,则删除整张表的数据。基于上面的结果 求:age_avg 大于18岁的 信息?以右表为主 数据是全的 左表来匹配 匹配不上就是null。表名后不跟要添加的字段,默认添加所有的字段。
2022-11-25 16:52:54
322
原创 【16_hadoop_reduce】
3.reduce task 个数 最终文件输出的时候 就有多少个文件。1.reduce task个数 > partitions 会有空文件。4.reduce task个数1 就是默认值 最终会有一个文件产生。3.reduce task个数 = partitions 没问题。3.Map task 个数由什么东西决定的?4.Reduce task 个数由什么东西决定的?120M =》 1个切片 =》一个maptask。4.Reduce task 个数由什么东西决定的?一个文件加载的时候会形成几个切片?
2022-11-22 10:22:34
484
原创 【15_hadoop_mapreduce思想】
MapReduce:1.1.in-parallel on large clusters (thousands of nodes) of 【以并行方式处理数据】1.用的不多 ,重点是思想2.为什么说非常容易编写程序:1.非常多的接口业务逻辑+MR api =》 开发完 mr程序 =》 提交到yarn 运行3.mr 适用于 离线数据计算 【不适合流式数据计算】3.mapreduce 做词频统计大数据处理三段论:1.input2.处理3.output。
2022-11-20 10:45:54
384
原创 【hadoop_读写流程】
nn回去检查这个路径的文件是否已经存在,是否有权限能够创建这个文件,2.Client 不一定在DN节点,随机选择一个DN。3.HDFS 副本放置策略 【面试,生产都会用到】此时,任然没有写数据,不关联任何的block块。hadoop 、hive hadoop用户。放置在第一个副本的不同机架上的某个DN节点。杀死进程:kill -9 pid 暴力杀死。hive 创建一个hive用户。生产上读写操作,选择DN节点进行读取。1.放置在client上传的DN节点。杀死进程 : kill id;
2022-11-17 20:56:30
913
原创 【12_hadoop】
4.本地更新1.log 文件内容添加bigdata 并 上传本地文件 1.log 到/hdfspre/01/02/03。7.修改/hdfspre/01/02/1.log 名字为 /hdfspre/01/02/1_blk.log。5.修改/hdfspre/01/02/03/1.log 权限是 765。10.查看hdfs上/hdfspre/01/02/03/ 下文件内容。4.上传本地文件 1.log 到/hdfspre/01/02/03。1.创建/hdfspre/01/02/03 文件夹。
2022-11-17 19:47:41
226
原创 【13_hadoop】
1.fsimage+编辑日志文件 定期拿过来 进行葛冰 备份 推送给 老大。第一块 128M 128M。第二块 128M 128M。管路文件系统的命名空间 其实就是维护文件系统树的文件和文件夹。这样做的目的: 生产上 可能发生 文件块 丢失或损坏。2.每隔一定的时间发送一次 blockreport。1.块大小 128M blocksize。1.存储数据块和完成数据块的校验。1.文件进行拆分 文件块。HDFS:负责存储数据。
2022-11-17 11:10:48
284
原创 【11_hadoop】
hadoop@bigdata32 app]$hdfs namenode -format 【格式化操作 部署时候做一次即可】namenode在哪 就在哪台机器格式化。start-yarn.sh =>resourcemanager在哪 就在哪启动。2.bigdata32 同步 jdk安装目录 到其他机器 33 34。start-dfs.sh =>namenode在哪 就在哪启动。先配置bigdata32 + 同步。3.编写查看 java 进程的脚本。先部署bigdata32+ 同步。
2022-11-15 08:32:39
91
原创 【Linuxday01】
> : 键 命令行模式 =》尾行模式 输入 wq 保存退出。1.全局变量 :/etc/profile 所有用户都可以使用。ls -l 显示额外的信息【权限,用户用户组 大小 时间】2.机器的名字+ 路径:机器存储路径 + 存储路径。中断命令:ctrl +v 或 ctrl + Z。1.关联linux镜像 =》 linux部署。ls -l -a 显示以.开头的文件和文件夹。按键盘 esc键 编辑模式 =》命令行模式。root 默认的管理员 最大的权限用户。vim xx.log => 命令行模式。
2022-11-13 10:34:27
221
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人